Ngoài tác nhân và môi trường, người ta có thể xác định bốn thành phần phụ chính của hệ thống học tập củng cố: chính sách(policy) , tín hiệu phần thưởng(reward signal), chức năng giá trị (value function), tùy chọn, mô hình(model) của môi trường.
policy
Chính sách xác định cách hoạt động của tác nhân học tập tại một thời điểm nhất định. Nói một cách đại khái, chính sách là một ánh xạ từ các trạng thái nhận thức của môi trường đến các hành động sẽ được thực hiện khi ở trong các trạng thái đó. Nó tương ứng với những gì trong tâm lý học sẽ được gọi là một tập hợp các quy tắc hoặc liên kết kích thích-phản ứng. Trong một số trường hợp, chính sách có thể là một hàm hoặc bảng tra cứu đơn giản, trong khi trong những trường hợp khác, chính sách có thể liên quan đến tính toán mở rộng chẳng hạn như quá trình tìm kiếm. Chính sách là cốt lõi của tác nhân học tập củng cố theo nghĩa là chỉ riêng nó là khoa học để xác định hành vi. Nói chung, các chính sách có thể ngẫu nhiên, xác định xác suất cho mỗi hành động
reward signal
Một tín hiệu khen thưởng xác định mục tiêu của một vấn đề học tập củng cố. Trên mỗi bước thời gian, môi trường gửi đến tác nhân học tăng cường một số duy nhất được gọi là phần thưởng. Mục tiêu duy nhất của đại lý là tối đa hóa tổng phần thưởng mà đại lý nhận được trong thời gian dài. Do đó, tín hiệu phần thưởng xác định đâu là những sự kiện tốt và xấu đối với tác nhân. Trong một hệ thống sinh học, chúng ta có thể nghĩ về phần thưởng tương tự như trải nghiệm của niềm vui hoặc nỗi đau. Chúng là những đặc điểm tức thời và xác định của vấn đề mà đại lý phải đối mặt. Tín hiệu khen thưởng là cơ sở chính để thay đổi chính sách; nếu một hành động được chính sách chọn theo sau là phần thưởng thấp, thì chính sách có thể được thay đổi để chọn một số hành động khác trong tình huống đó trong tương lai. Nói chung, các tín hiệu khen thưởng có thể là các hàm ngẫu nhiên của trạng thái môi trường và các hành động được thực hiện.
value function
Trong khi tín hiệu phần thưởng cho biết điều gì tốt theo nghĩa tức thì, một hàm giá trị chỉ định điều gì tốt về lâu dài. Nói một cách đại khái, giá trị của một trạng thái là tổng số phần thưởng mà một nhân viên có thể mong đợi tích lũy trong tương lai, bắt đầu từ trạng thái đó. Trong khi phần thưởng xác định mong muốn ngay lập tức, nội tại của các trạng thái môi trường, các giá trị cho biết mong muốn lâu dài của các trạng thái sau khi tính đến các trạng thái có khả năng tuân theo và phần thưởng có sẵn trong các trạng thái đó. Ví dụ: một trạng thái có thể luôn mang lại phần thưởng tức thì thấp nhưng vẫn có giá trị cao vì nó thường xuyên được theo sau bởi các trạng thái khác mang lại phần thưởng cao. Hoặc điều ngược lại có thể đúng. Để so sánh giữa con người với con người, phần thưởng phần nào giống như niềm vui (nếu cao) và nỗi đau (nếu thấp), trong khi giá trị tương ứng với một đánh giá tinh tế hơn và nhìn xa hơn về mức độ hài lòng hoặc không hài lòng của chúng ta khi môi trường của chúng ta đang ở trong một trạng thái cụ thể.
Không có phần thưởng sẽ không có giá trị và mục đích duy nhất của việc ước tính giá trị là để đạt được nhiều phần thưởng hơn. Tuy nhiên, đó là những giá trị mà chúng ta quan tâm nhất khi đưa ra và đánh giá các quyết định. Các lựa chọn hành động được thực hiện dựa trên các phán đoán giá trị. Chúng ta tìm kiếm các hành động mang lại trạng thái có giá trị cao nhất, không phải phần thưởng cao nhất, bởi vì những hành động này mang lại phần thưởng lớn nhất cho chúng ta trong thời gian dài. Thật không may, việc xác định giá trị khó hơn nhiều so với xác định phần thưởng. Phần thưởng về cơ bản được trao trực tiếp bởi môi trường, nhưng giá trị phải được ước tính và ước tính lại từ các chuỗi quan sát mà một tác nhân thực hiện trong toàn bộ thời gian tồn tại của nó. Trên thực tế, thành phần quan trọng nhất của hầu hết tất cả các thuật toán học củng cố mà chúng ta coi là một phương pháp để ước tính giá trị một cách cổ điển. Vai trò trung tâm của ước tính giá trị được cho là điều quan trọng nhất mà người ta đã học được về việc học củng cố trong sáu thập kỷ qua.
model of the environment
Yếu tố thứ tư và là yếu tố cuối cùng của một số hệ thống học tăng cường là một mô hình của môi trường. Đây là thứ bắt chước hành vi của môi trường, hay nói chung hơn, cho phép đưa ra các suy luận về cách môi trường sẽ hoạt động. Ví dụ: với một trạng thái và hành động, mô hình có thể dự đoán trạng thái kết quả tiếp theo và phần thưởng tiếp theo. Mô hình được sử dụng để lập kế hoạch, theo đó chúng ta có nghĩa là bất kỳ cách nào để quyết định một quá trình hành động bằng cách xem xét các tình huống có thể xảy ra trong tương lai trước khi chúng thực sự được trải nghiệm. Các phương pháp giải quyết các vấn đề học tập củng cố sử dụng mô hình và lập kế hoạch được gọi là phương pháp dựa trên mô hình, trái ngược với các phương pháp đơn giản hơn không có mô hình là những người học thử-và-sai rõ ràng - được xem gần như ngược lại với lập kế hoạch. Trong những phần tiếp theo, chúng ta khám phá các hệ thống học tăng cường đồng thời học bằng cách thử và sai, tìm hiểu một mô hình của môi trường và sử dụng mô hình để lập kế hoạch. Phương pháp học tăng cường hiện đại trải dài từ cấp độ thấp, học thử và sai cho đến cấp độ cao, lập kế hoạch có cân nhắc.