Chương 3: Sự kết hợp giữa phương sai và Bias trong Học Máy

Series về Học Máy!

Xin chào, một lần nữa tôi lại đăng chủ đề tuyệt vời và gây tranh cãi về học máy cho các nhà khoa học dữ liệu mới bắt đầu. Vì vậy, tôi đã làm rõ điều này trong bài viết này bias là cái gì , phương sai là cái gì. Sau khi đọc bạn có thể hiểu được bias và phương sai là cái gì và dùng ở đâu. Nào, bắt đầu thôi!

Nội dung chính

  1. Định nghĩa Bias và phương sai là cái gì?
  2. Lỗi Bias cùng với ví dụ
  3. Lỗi phương sai cùng với ví dụ
  4. Over-fitting và Under-fitting
  5. Bức tranh toàn cảnh về Bias và phương sai

1.Định nghĩa Bias và phương sai là cái gì?

Theo số liệu thống kê, Bias và phương sai là thuộc tính của mô hình dự đoán và học máy mà nó tính toán để giám sát thuật toán học máy.

Bức ảnh này sẽ là một cách tuyệt vời để giải thích phương sai – Bias cho một đứa trẻ 5 tuổi.

https://miro.medium.com/max/608/1*yxMU8SSMJf6UOq3gBJOzsQ.png

Đối với nhóm người thông minh có hiểu biết cơ bản về mô hình hóa, số liệu thống kê và học máy, hãy nhìn sâu hơn một chút.

error(X) = noise(X) + bias(X)2+ variance(X)

1.Bias: Lỗi cao do giả định

2.Variance: Lỗi do quá phức tạp cố gắng khớp với dữ liệu huấn luyện càng sát càng tốt

3.Trade-off: Một sự cân bằng đạt được giữa hai tính năng mong muốn nhưng không tương thích, một sự thỏa hiệp

2.Lỗi Bias cùng với ví dụ

Note: Kết quả Bias trong việc phù hợp với dữ liệu. Bias cao có nghĩa là thuật toán học tập của chúng tôi đang thiếu các hướng quan trọng trong số các tính năng.

Bias đơn giản là sự khác biệt giữa giá trị dự đoán và giá trị thực tế từ dữ liệu huấn luyện, trên đó chúng ta được đào tạo mô hình học máy. Bias là các giả định đơn giản hóa được thực hiện bởi một mô hình để làm cho hàm mục tiêu dễ học hơn.

Bias(X)=E[f^(x)]−f(x)

Các thuật toán Bias cao dễ học hơn nhưng kém linh hoạt hơn, do điều này chúng có hiệu suất dự đoán thấp hơn đối với các vấn đề phức tạp. Các thuật toán tuyến tính và mô hình đơn giản hóa dẫn đến Bias cao trong mô hình. Hãy xem bảng dưới đây của bias.so chúng ta làm cho hình ảnh rõ ràng hơn.

https://miro.medium.com/max/1119/1*JVNQDngQ2qyJ2LuMUnRKEA.png

Ví dụ về các thuật toán học máy Low-Bias bao gồm: Cây quyết định, k-Hàng xóm gần nhất và Hỗ trợ máy Vector.

Ví dụ về các thuật toán học máy High-Bias bao gồm: Hồi quy tuyến tính, Phân tích phân biệt tuyến tính và hồi quy logistic.

3.Lỗi phương sai cùng với ví dụ

Phương sai đơn giản là khi dữ liệu huấn luyện của bạn thay đổi, mô hình của bạn sẽ cho kết quả khác và kết quả khác với kết quả đầu tiên có sự thay đổi. Ước tính của hàm mục tiêu sẽ thay đổi nếu dữ liệu đào tạo khác nhau được sử dụng.

Var(X)=E[(f^(x)−E[f^(x)])2]

Nói chung, các thuật toán học máy không tham số có nhiều tính linh hoạt có phương sai cao. Ví dụ, cây quyết định có phương sai cao, thậm chí còn cao hơn nếu cây không được lược bớt trước khi sử dụng.

https://miro.medium.com/max/1144/1*abep99M_4bqrcXnsDLUC7Q.png

Ví dụ về các thuật toán học máy có phương sai thấp bao gồm: Hồi quy tuyến tính, Phân tích phân biệt tuyến tính và hồi quy logistic.

Ví dụ về các thuật toán học máy có phương sai cao bao gồm: Cây quyết định, k-Hàng xóm gần nhất và Máy vectơ hỗ trợ.

4. Định nghĩa đơn giản Over-fitting và Under-fitting

Over-fitting: Hiệu suất tốt trên dữ liệu huấn luyện, kết quả kém khi cung cấp dữ liệu khác.
Under-fitting: Hiệu suất kém trên dữ liệu huấn luyện và kết quả kém khi cung cấp các dữ liệu khác.

https://miro.medium.com/max/610/0*riZl5DGnhpsaSKCT

Chi tiết về Over-fitting và Under-fitting tôi đã viết bài viết thêm. Bây giờ hãy hiểu định nghĩa cơ bản này.

https://miro.medium.com/max/600/0*8Uw2RYef-bNyPPcz

4.1 Bản chất vấn đề

Khi bản chất của vấn đề đang thay đổi thì Trade-off cũng đang thay đổi

  • Độ chính xác bất thường và độ nhiễu cao, vì vậy hàm bậc 2 làm tốt nhất
https://miro.medium.com/max/987/0*241YbqbgczaQ607-.jpg
  • Độ chính xác mượt mà hơn, nên mô hình tuyến tính làm tốt nhất
https://miro.medium.com/max/943/0*XcXBO8XO2RyWKk6-.jpg
  • Độ chính xác bất thường và độ nhiễu thấp, vì vậy càng linh hoạt càng tốt
https://miro.medium.com/max/971/0*zdI5hqASfuLpQf8e.jpg
  1. Bức tranh toàn cảnh về Bias và phương sai

Bức tranh cho biết hơn ngàn từ nhìn thấy ở đây bên dưới bức tranh và bạn hiểu những gì trong bức tranh đó. Bức tranh hoàn thiện được tạo thành bởi khoa học dữ liệu tiêu biểu ở đây kèm theo điều này với bài viết này.

https://miro.medium.com/max/1243/1*Y93vvFrq5Sc5eRisyPXzOA.png

Hình ảnh 

https://miro.medium.com/max/300/1*G53hLsyTfDWx9QyWtdpFhw.jpeg

Nguồn: https://medium.com/ml-research-lab/chapter-3-bias-and-variance-trade-off-in-machine-learning-a449fa1e2729?source=———23——————