Hai mặt của noise
. Noise có thể có hại, nó có thể dẫn đến việc đánh giá quá mức có hệ thống. Tuy nhiên, noise có thể hữu ích, chẳng hạn như noise để thăm dò.
Chúng ta chạm vào nhiều mặt khác nhau của noise trong các mô hình Học tăng cường sâu. Phần 1 thảo luận về overestimation, đó là đặc tính có hại do noise gây ra. Phần 2 đề cập đến noise dùng để thăm dò, đây là noise hữu ích.
Phần 1. Chúng ta sẽ xem các nhà nghiên cứu đã cố gắng khắc phục tình trạng đánh giá quá mức trong các mô hình như thế nào. Bước đầu tiên là tách lựa chọn hành động khỏi đánh giá hành động. Nó đã được hiện thực hóa trong Double DQN. Bước thứ hai liên quan đến kiến trúc Actor-Critic: ở đây chúng ta tách mạng nơ-ron (phê bình) khỏi mạng nơ-ron chính sách (tác nhân). DDPG và TD3 sử dụng kiến trúc này.
Phần 2. Khám phá như một thách thức lớn của việc học. Vấn đề chính là exploration noise. Liên quan đến các mô hình DQN, Double DQN, DDPG và TD3. Các mô hình mạng nơron sử dụng một số tham số nhiễu có nhiều khả năng thăm dò hơn và thành công hơn trong các thuật toán Deep RL.
Appendix. Chúng ta coi là Hill-Climbing, một thuật toán đơn giản không có độ dốc. Thuật toán này thêm nhiễu thích ứng trực tiếp vào các biến đầu vào, cụ thể là vào ma trận trọng số xác định mạng nơron.
Phần 1. Nỗ lực vượt qua việc đánh giá quá cao
Các thuật toán DQN và Double DQN hóa ra rất thành công trong trường hợp không gian hành động rời rạc. Tuy nhiên, người ta biết rằng các thuật toán này bị đánh giá quá cao. Tính chất có hại này tồi tệ hơn nhiều so với đánh giá thấp, bởi vì đánh giá thấp không tích lũy. Hãy để chúng tôi xem các nhà nghiên cứu đã cố gắng vượt qua việc đánh giá quá cao như thế nào.
Đánh giá quá cao trong DQN.
Vấn đề là trong toán tử tối đa hóa sử dụng để tính toán giá trị mục tiêu
[imath]G_t[/imath]
. Giả sử, giá trị đánh giá cho
[imath]Q(S_{t + 1}, a)[/imath]
đã được đánh giá quá cao. Sau đó, các tác nhân quan sát thấy rằng lỗi cũng được tích lũy cho
[imath]Q(S_t, a)[/imath]
.
Ở đây,
[imath]R_t[/imath]
là phần thưởng tại thời điểm t;
[imath]G_t[/imath]
là phần thưởng tích lũy còn được gọi là TD-target;
[imath]Q(s, a)[/imath]
là bảng giá trị
[imath]Q [/imath]
của shape [ space x action].
Thrun và Schwartz trong “Các vấn đề trong việc sử dụng hàm xấp xỉ để học củng cố” (1993) đã quan sát thấy rằng việc sử dụng bộ xấp xỉ hàm (tức là mạng nơron) thay vì chỉ tìm kiếm bảng (đây là kỹ thuật cơ bản của Q-learning) gây ra một số nhiễu trên đầu ra phỏng đoán. Họ đưa ra một ví dụ trong đó việc đánh giá quá mức tiệm cận dẫn đến các chính sách dưới mức tối ưu.
Decoupling in Double DQN
Vào năm 2015, Haselt et. al. trong “Học tăng cường sâu với Double Q-learning” đã chỉ ra rằng lỗi ước tính có thể khiến ước tính tăng cao và xa giá trị tối ưu thực sự. Họ cho rằng giải pháp làm giảm sự đánh giá quá cao: Double DQN.
Điều quan trọng đã được thực hiện trong Double DQN là tách lựa chọn hành động khỏi đánh giá hành động. Hãy làm rõ điều này.
Công thức
[imath]G_t[/imath]
cho DQN: giá trị Q-value
[imath]Q(S_t, a)[/imath]
được sử dụng để lựa chọn hành động (màu đỏ) và giá trị Q-value
[imath]Q (S_t, a)[/imath]
được sử dụng để đánh giá hành động (màu xanh lam) được xác định bởi cùng một mạng nơ-ron với vector trọng số
[imath]θ_t[/imath]
.
Công thức
[imath]G_t[/imath]
cho Double DQN: Q-value được sử dụng để lựa chọn hành động và Q-value được sử dụng để đánh giá hành động được xác định bởi hai mạng nơ-ron khác nhau với các vectơ trọng số
[imath]θ_t[/imath]
và
[imath]θ'_t[/imath]
. Các mạng này được gọi là current và target
Tuy nhiên, do chính sách thay đổi chậm, các ước tính về giá trị của mạng nơ-ron hiện tại và mạng mục tiêu vẫn quá giống nhau và điều này vẫn gây ra overestimation.
Actor-Critic architecture in DDPG.
DDPG là một trong những thuật toán đầu tiên cố gắng sử dụng kỹ thuật Q-learning của các mô hình DQN cho các không gian hành động liên tục. DDPG là viết tắt của Deep Defministic Policy Gradient. Trong trường hợp này, chúng ta không thể sử dụng toán tử tối đa hóa các Q-value cho tất cả các hành động, tuy nhiên, chúng ta có thể sử dụng công cụ xấp xỉ hàm, một mạng nơ-ron đại diện cho các Q-value. Chúng tôi cho rằng tồn tại một hàm
[imath]Q(s, a)[/imath]
nào đó có thể phân biệt được đối với đối số hành động a.Tuy nhiên, việc tìm
[imath]argmax (Q (S_t, a))[/imath]
trên tất cả các hành động a đối với trạng thái đã cho
[imath]S_t[/imath]
có nghĩa là chúng ta phải giải quyết nhiệm vụ tối ưu hóa ở mọi bước thời gian. Đây là một nhiệm vụ rất tốn kém. Để vượt qua trở ngại này, một nhóm các nhà nghiên cứu từ DeepMind trong công trình “Điều khiển liên tục với học tăng cường sâu” đã sử dụng kiến trúc Actor-Critic. Họ đã sử dụng hai mạng nơ-ron: một, như trước đây, trong DQN: Mạng Q đại diện cho các Q-value; một hàm khác là hàm tác nhân 𝜋 (s) cung cấp dấu *, giá trị lớn nhất cho hàm giá trị
[imath]Q (s, a)[/imath]
như sau
Phần 2. Khám phá như một thách thức lớn của việc học
Tại sao phải khám phá?
Ngoài việc đánh giá quá cao, có một vấn đề khác trong Deep RL, không kém phần khó khăn. Đây là thăm dò. Chúng ta không thể tin tưởng vô điều kiện vào các giá trị lớn nhất của Q-table hoặc giá trị của
[imath]a* = 𝜋 (s)[/imath]
. Tại sao không? Thứ nhất, khi bắt đầu đào tạo, mạng nơ-ron tương ứng vẫn còn “non trẻ và ngu ngốc”, và các giá trị tối đa của nó khác xa thực tế. Thứ hai, có lẽ không phải những giá trị tối đa sẽ đưa chúng ta đến chiến lược tối ưu sau quá trình luyện tập chăm chỉ.
Trong cuộc sống, chúng ta thường phải giải quyết vấn đề sau: đi theo con đường đã đánh bại - ít rủi ro và ít phần thưởng; hoặc đi theo một con đường mới chưa biết với rủi ro lớn - nhưng, với một số xác suất, có thể thắng lớn ở đó.
Khám phá so với khai thác
Khai thác có nghĩa là tác nhân sử dụng kiến thức tích lũy để lựa chọn hành động sau đây. Trong trường hợp của chúng tôi, điều này có nghĩa là đối với trạng thái đã cho, tác nhân tìm thấy hành động sau đây tối đa hóa giá trị Q. Việc thăm dò có nghĩa là hành động sau sẽ được chọn ngẫu nhiên.
Không có quy tắc nào xác định chiến lược nào tốt hơn: thăm dò hay khai thác. Mục tiêu thực sự là tìm ra sự cân bằng thực sự giữa hai chiến lược này. Như chúng ta có thể thấy, chiến lược cân bằng thay đổi trong quá trình học.
Exploration in DQN and Double DQN
Một cách để đảm bảo khám phá đầy đủ trong DQN và Double DQN là sử dụng cơ chế tham lam. Đối với các tập đầu tiên, khai thác được chọn với xác suất nhỏ, ví dụ: 0,02 (tức là hành động sẽ được chọn rất ngẫu nhiên) và khám phá được chọn với xác suất 0,98. Bắt đầu từ một số tập M𝜀 nhất định, việc thăm dò sẽ được thực hiện với xác suất tối thiểu εm, ví dụ: 𝜀m = 0,01 và việc khai thác được chọn với xác suất 0,99. Công thức xác suất của thăm dò ε có thể được thực hiện như sau:
trong đó i là số tập. Cho Mε = 100,
[imath]ε_m[/imath]
= 0,01. Khi đó xác suất ε của việc thăm dò sẽ như sau: