RL chính xác là cách bộ não con người học cách đưa ra quyết định. Vẫn còn nhiều tranh cãi, Deep RL đã là một chủ đề nghiên cứu tích cực và vấn đề khai thác thăm dò đã thu hút nhiều sự chú ý. Cho đến nay, nhiều phương pháp tiếp cận thăm dò đã được đưa ra như - Bayesian RL và PAC-MDP, ngẫu nhiên, phương pháp Boltzmann và sử dụng nhiễu Gaussian.
Động lực đằng sau việc sử dụng VIME là trong khi thực hiện thăm dò, chúng ta muốn agent thực hiện hành động dẫn đến các trạng thái mà nó đáng ngạc nhiên - tức là các trạng thái gây ra cập nhật lớn hơn cho phân phối mô hình động lực học. Vì vậy, mục đích ở đây là tối đa hóa việc giảm độ không chắc chắn về động lực học. Thông thường, thực hiện các hành động tối đa hóa việc giảm entropy (tức là các trạng thái chưa được khám phá) dẫn đến cung cấp thông tin tối đa.
Các khái niệm sử dụng trong VIME
Exploration and Exploitation:
Khám phá là làm những việc chưa từng làm trước đây với hy vọng nhận được phần thưởng cao hơn nữa. Agent thử nghiệm các chiến lược mới có thể cải thiện lợi nhuận trong thời gian dài. Khi khai thác, tác nhân tối đa hóa phần thưởng thông qua hành vi được cho là thành công.
Bayesian Neural Network (BNN):
Mạng nơ-ron Bayes là một mạng nơ-ron có phân phối trước về trọng số của nó. Tóm lại, nó là một mạng nơ-ron hoạt động như một mô hình có điều kiện p được tham số hóa bởi các tham số hoặc trọng số θ của mạng và xuất ra y khi một số đầu vào x được truyền vào.
Variational Bayes:
Phương pháp Bayes biến đổi chủ yếu được sử dụng cho hai mục đích:
- Để cung cấp một phân tích xấp xỉ xác suất của các biến không được quan sát, để thực hiện suy luận thống kê trên các biến này.
- Để suy ra một giới hạn dưới cho xác suất ngoài lề của dữ liệu quan sát.
KL Divergence:
Phân kỳ Kullback-Leibler là một thước đo về cách phân phối xác suất khác với một phân phối xác suất khác. Cổ điển một chút, trong lý thuyết Bayes, có một số phân phối đúng P(X); chúng ta muốn ước tính với phân phối gần đúng Q(X).
Quay lại VIME
Như đã nêu trước đó, mục đích là tối đa hóa việc thu được thông tin. Thông tin thu được sau khi thực hiện một hành động có được bằng cách tính toán sự khác biệt trong Entropy của các trạng thái trước và sau khi thực hiện một hành động. VIME có thể coi là tối đa hóa tổng số giảm của entropy.