0

[Liệu bạn có biết] Bài 3: Data analyst và Data processing trong 1 nốt nhạc

Khi xử lí bài toán Machine Learning thì bước đầu tiên không thể thiếu là data analyst và data processing thì ở bài viết này mình sẽ hướng dẫn các bạn cách xử lí 2 vấn đề này trong 1 nốt nhạc

Data analyst và Data processing trong 1 nốt nhạc

Các bước tiêu chuẩn khi xử lí 1 file csv bất kì là:

  • Kiểm tra kiểu dữ liệu của các features
  • Kiểm tra Missing/ Outlier/ Duplicate values
  • Phân tích sâu hơn về data như: stastistics, sự phân bổ của data,...

Chung quy lại là có rất nhiều bước và sẽ mất kha khá thời gian để chúng ta code cũng như phân tích thì YData đã tạo ra thư viện ydata_profiling giúp chúng ta xử lí các công việc này

Cách sử dụng

Bạn có thể cài đặt ydata_profiling bằng câu lệnh:

pip install ydata-profiling

Demo

import pandas as pd
from ydata_profiling import ProfileReport

df = pd.read_csv('data.csv')
profile = ProfileReport(df, title="Profile csv", explorative=True)
profile.to_file("output.html")

Chỉ đơn giản 2 dòng các bạn đã có file html đầy đủ phân tích thống kê về data của các bạn

image.png

image.png

image.png

image.png

Hi vọng bài viết này sẽ giúp ích cho các bạn


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí