Mẹo nhỏ: Để tìm kiếm chính xác các tác phẩm của Phebinhvanhoc.com.vn, hãy search trên Google với cú pháp: "Từ khóa" + "phebinhvanhoc". (Ví dụ: tác phẩm chí phèo phebinhvanhoc). Tìm kiếm ngay
398 lượt xem

A Tutorial on EDA and Feature Engineering

Bạn đang quan tâm đến A Tutorial on EDA and Feature Engineering phải không? Nào hãy cùng PHE BINH VAN HOC theo dõi bài viết này ngay sau đây nhé!

Video đầy đủ A Tutorial on EDA and Feature Engineering

Trong một bài toán Machine Learning thông thường, có thể nói Feature Engineering là bước quan trọng nhất quyết định đến chất lượng của mô hình dự đoán. Nếu coi mô hình là một cỗ máy, thì dữ liệu nguyên bản (raw data) giống như là dầu thô. Việc đổ “dầu thô” vào thẳng “cỗ máy dự đoán” chắc chắn sẽ mang lại kết quả không tốt. Vì vậy, attributes của dữ liệu nguyên bản cần được tinh lọc thành features trước khi đưa vào thuật toán Machine Learning. Việc tinh lọc này gọi là Feature Engineering. A Tutorial on EDA and Feature Engineering

Quy trình thực hiện kỹ thuật tính năng bao gồm các bước nhỏ sau:

  1. liệt kê càng nhiều hàm càng tốt
  2. quyết định sử dụng những hàm nào
  3. tạo các hàm từ các thuộc tính
  4. xác định ảnh hưởng của các hàm đối với mô hình
  5. cải thiện các chức năng
  6. quay lại bước 1 cho đến khi vấn đề được giải quyết

tuy nhiên, để lọc các tính năng khỏi dữ liệu, chúng tôi cần có cái nhìn tổng thể về tập dữ liệu đó.

“điều khó khăn nhất trong cuộc sống là hiểu rõ bản thân.” – câu chuyện về cây cối

Điều khó nhất trong khoa học dữ liệu / học máy là hiểu được dữ liệu. Có nhiều kỹ thuật để phân tích dữ liệu, một trong số đó là độ tuổi .

1. tuổi là bao nhiêu?

phân tích dữ liệu khám phá (EDA) là một phương pháp phân tích dữ liệu chủ yếu sử dụng kỹ thuật vẽ biểu đồ và vẽ.

Không giống như biểu đồ thống kê, eda không chỉ tập trung vào một khía cạnh cụ thể của dữ liệu mà còn trực tiếp làm cho dữ liệu phát hiện ra cấu trúc của nó và giúp chúng tôi có cơ sở để chọn mô hình trong các bước tiếp theo.

các kỹ thuật lập biểu đồ được sử dụng trong eda thường khá đơn giản, bao gồm một số điều sau:

  1. vẽ biểu đồ dữ liệu gốc bằng cách sử dụng các ô dữ liệu, biểu đồ, các ô khối, …
  2. vẽ biểu đồ phân bố của dữ liệu gốc bằng cách sử dụng các ô trung bình, ô độ lệch chuẩn, hộp, …
  3. sắp xếp các sơ đồ để tối đa hóa khả năng nhận dạng các mẫu tự nhiên của con người.
XEM THÊM:  Quy định pháp luật về công ty liên kết, quy định mới nhất

2. phân tích tập dữ liệu giá nhà ames (liên kết)

Trong hướng dẫn này, chúng tôi sẽ áp dụng phương pháp eda cho tập dữ liệu giá nhà ames . Đây là tập dữ liệu về giá nhà ở Ames, Iowa, Hoa Kỳ. uu. dựa trên nhiều tiêu chí đánh giá. tập dữ liệu này cũng được sử dụng cho cuộc thi về kỹ thuật hồi quy nâng cao trong kaggle.

Đầu tiên, chúng tôi nhập các thư viện mà chúng tôi sẽ sử dụng (numpy, pandas, seaborn, scikit-learning). hướng dẫn này chạy trên python 3.

tập dữ liệu ames bao gồm 1460 mẫu trong tập huấn luyện và 1460 mẫu trong tập thử nghiệm. mỗi mẫu có 79 thuộc tính, trong đó 43 thuộc tính định tính và 36 thuộc tính định lượng. ngoài ra còn 2 trường nữa là id và saleprice (phải dự đoán giá của căn nhà). đoạn mã sau sẽ sắp xếp các thuộc tính.

2.1. giá bán

Trước khi đi vào phân tích các thuộc tính của tập dữ liệu, chúng ta phải phân tích giá bán biến đổi. đây là giá trị mà mô hình cần dự đoán. Theo tinh thần của EDA, giá bán sẽ được mô tả bằng biểu đồ.

A Tutorial on EDA and Feature Engineering

dễ dàng nhận thấy, phân phối của biến giá bán không phải là phân phối chuẩn (chuẩn) mà tương tự như phân phối log-chuẩn. do đó, trước khi đưa vào thuật toán học máy, biến giá bán phải được chuyển đổi bằng cách sử dụng phép biến đổi nhật ký.

2.2. thuộc tính định lượng

Tương tự, chúng tôi kiểm tra sự phân phối của tất cả các biến định lượng trong tập dữ liệu.

XEM THÊM:  C04 Gồm Những Môn Nào? Các Trường Đại Học Xét Tuyển Khối C04 Năm 2022

A Tutorial on EDA and Feature Engineering

như bạn có thể thấy, có một số biến cần được chuyển sang phép biến đổi logarit như: totalbsmtsf, Kitchenhenabvgr, lotfrontage, lotarea, … tiếp theo, chúng ta xem xét mối quan hệ giữa giá nhà và giá trị định lượng qua biểu đồ phân tán.

A Tutorial on EDA and Feature Engineering

Thông qua việc phân tích biểu đồ phân tán, các biến số như mặt tiền của lô đất, diện tích lô đất, chất lượng chung, tổng sốbsmtsf, … có mối quan hệ tuyến tính với giá bán. một số biến khác như bsmtfullbath, halfbath, ống khói, … có thể biểu diễn giá bán thông qua phương trình bậc hai.

2.3. thuộc tính định tính

đối với các biến định tính, một biểu đồ hộp sẽ được sử dụng để phân tích phân phối giá bán của từng thuộc tính.

A Tutorial on EDA and Feature Engineering

một số biến thể hiện sự đa dạng đáng kể của giá ưu đãi so với các biến khác, ví dụ: vùng lân cận, điều kiện bán, …

2.4. mối tương quan

Cuối cùng, chúng tôi xem xét mối tương quan giữa các biến trong dữ liệu.

A Tutorial on EDA and Feature Engineering A Tutorial on EDA and Feature Engineering

Trong ma trận tương quan ở trên, chúng ta thấy rằng có một số biến có tương quan rõ ràng với nhau, chẳng hạn như họ biến gara hoặc họ biến bsmt. do đó, một số biến có thể được bỏ qua để giảm độ phức tạp của mô hình mà không ảnh hưởng nhiều đến hiệu suất.

3. kết luận

Qua bài viết và ví dụ trước, chúng ta đã hiểu một chút về tầm quan trọng và quy trình thực hiện phân tích dữ liệu eda trước khi đưa dữ liệu vào kỹ thuật tính năng. việc chọn các tính năng phù hợp và tốt sẽ cải thiện đáng kể chất lượng của mô hình dự đoán.

4. tài liệu tham khảo

  • https://www.itl.nist.gov/div898/handbook/eda/section1/eda11.htm
  • https://www.kaggle.com/dgawlik/house- price-eda
  • https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python

Như vậy trên đây chúng tôi đã giới thiệu đến bạn đọc A Tutorial on EDA and Feature Engineering. Hy vọng bài viết này giúp ích cho bạn trong cuộc sống cũng như trong học tập thường ngày. Chúng tôi xin tạm dừng bài viết này tại đây.

Website: https://phebinhvanhoc.com.vn/

Thông báo: Phê Bình Văn Học ngoài phục vụ bạn đọc ở Việt Nam chúng tôi còn có kênh tiếng anh PhebinhvanhocEN cho bạn đọc trên toàn thế giới, mời thính giả đón xem.

Chúng tôi Xin cám ơn!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *