Ensemble là một quá trình trong đó nhiều mô hình đa dạng được tạo ra để dự đoán một kết quả, bằng cách sử dụng nhiều thuật toán khác nhau hoặc sử dụng các tập dữ liệu đào tạo khác nhau. Sau đó, mô hình tổng hợp sẽ tổng hợp dự đoán của từng mô hình cơ sở và đưa ra dự đoán cuối cùng cho dữ liệu mới.
Hard Voting
Giả sử chúng ta 3 model với kết dự đoán khác nhau. Trong hard voting kết quả sẽ được lấy bởi đa số.
Bỏ phiếu đa số dựa trên các trọng số khác nhau: Khi bỏ phiếu theo đa số dựa trên các trọng số khác nhau, thì dự đoán cuối cùng sẽ được tính toán một cách thích hợp. Giả sử có 3 bộ phân loại, clf1, clf2, clf3 và các dự đoán từ các bộ phân loại này có trọng số được xác định là [0.1, 0.3, 0.6]. Đối với một dữ liệu cụ thể, nếu dự đoán là [0, 0, 1] bởi các bộ phân loại clf1, clf2 và clf3. Áp dụng các trọng số [0.1, 0.3, 0.6] cho dự đoán [0, 0, 1], kết quả thành dự đoán là lớp 1 như sau:
[math]mode [0, 0, 0, 0, 1, 1, 1, 1, 1, 1] = 1[/math]
Soft Voting
Biểu quyết mềm phân loại dữ liệu đầu vào dựa trên xác suất của tất cả các dự đoán được thực hiện bởi các bộ phân loại khác nhau. Các trọng số áp dụng cho mỗi bộ phân loại được áp dụng một cách thích hợp. Hãy hiểu điều này bằng cách sử dụng một ví dụ. Giả sử có bộ phân loại nhị phân clf1, clf2 và clf3. Đối với một bản ghi cụ thể, bộ phân loại đưa ra các dự đoán về xác suất có lợi cho các lớp [0,1]:
- clf1 -> [0.2, 0.8],
- clf2 -> [0.1, 0.9],
- clf3 -> [0.8, 0.2]
Với các trọng số bằng nhau, các xác suất sẽ được tính như sau:
-
[imath]Prob of Class 0 = 0.33*0.2 + 0.33*0.1 + 0.33*0.8 = 0.363[/imath]
-
[imath]Prob of Class 1 = 0.33*0.8 + 0.33*0.9 + 0.33*0.2 = 0.627[/imath]
Vậy là mình vừa giới thiệu cho các bạn một số phương pháp biểu quyết trong Ensemble model chúc model của các bạn chạy ngon