Học tăng cường là học những gì cần làm (what to do) — cách ánh xạ các tình huống thành hành động — để tối đa hóa phần thưởng bằng số. The learner không được cho biết hành động nào cần thực hiện, nhưng thay vào đó phải khám phá ra hành động nào mang lại phần thưởng nhiều nhất bằng cách thử chúng. Trong những trường hợp thú vị và thử thách nhất, các hành động có thể không chỉ ảnh hưởng đến phần thưởng trước mắt mà còn ảnh hưởng đến tình huống tiếp theo và thông qua đó, tất cả các phần thưởng tiếp theo. Hai đặc điểm — tìm kiếm thử sai và delayed reward — là hai đặc điểm phân biệt quan trọng nhất của học tăng cường.
Học tăng cường, giống như nhiều chủ đề có tên kết thúc bằng “ing”, chẳng hạn như học máy và leo núi (machine
learning and mountaineering), đồng thời là một vấn đề, một lớp các phương pháp giải quyết hoạt động tốt cho vấn đề và lĩnh vực nghiên cứu vấn đề này và các phương pháp giải của nó. Sẽ rất tiện lợi khi sử dụng một tên duy nhất cho cả ba thứ, nhưng đồng thời cũng cần thiết phải giữ cho ba khái niệm này tách biệt nhau. Đặc biệt, sự phân biệt giữa vấn đề và phương pháp giải là rất quan trọng trong học tập tăng cường; không phân biệt được điều này là nguồn gốc của nhiều nhầm lẫn.
Chúng ta formalize vấn đề học tập tăng cường bằng cách sử dụng các ý tưởng từ lý thuyết hệ thống động lực học, cụ thể là điều khiển tối ưu các quá trình quyết định Markov chưa được biết đến đầy đủ. Ý tưởng cơ bản chỉ đơn giản là nắm bắt các khía cạnh quan trọng nhất của vấn đề thực sự mà một agent học tập đang tương tác theo thời gian với môi trường của nó để đạt được mục tiêu. Agent học tập phải có khả năng cảm nhận trạng thái của môi trường ở một mức độ nào đó và phải có khả năng thực hiện các hành động ảnh hưởng đến trạng thái đó. Agent cũng phải có một mục tiêu hoặc các mục tiêu liên quan đến tình trạng của môi trường. Các quy trình ra quyết định Markov nhằm mục đích chỉ bao gồm ba khía cạnh này — cảm giác, hành động và mục tiêu — ở dạng đơn giản nhất có thể của chúng mà không làm tầm thường bất kỳ khía cạnh nào. Bất kỳ phương pháp nào phù hợp để giải quyết những vấn đề như vậy, chúng ta coi là một phương pháp học tập tăng cường
Học tập tăng cường không phải học tập có giám sát, loại học tập được nghiên cứu trong hầu hết các nghiên cứu hiện tại trong lĩnh vực học máy. Học tập có giám sát là học tập từ một tập hợp các ví dụ được dán nhãn được cung cấp bởi một giám sát viên bên ngoài có kiến thức. Mỗi ví dụ là một mô tả về một tình huống cùng với một thông số kỹ thuật — nhãn — của hành động chính xác mà hệ thống phải thực hiện trong tình huống đó, thường là để xác định một danh mục mà tình huống đó thuộc về. Đối tượng của loại học tập này là để hệ thống ngoại suy hoặc tổng quát hóa các phản ứng của nó để nó hoạt động chính xác trong các tình huống không có trong tập huấn luyện. Đây là một hình thức học tập quan trọng, nhưng nếu chỉ học từ tương tác thì không đủ. Trong các bài toán tương tác, thường không thực tế để có được các ví dụ về hành vi mong muốn vừa đúng vừa đại diện cho tất cả các tình huống mà agent phải hành động. Trong lãnh thổ chưa được khám phá — nơi mà người ta mong đợi việc học sẽ có lợi nhất — một agent phải có khả năng học hỏi từ kinh nghiệm của chính mình.
Học tăng cường cũng không khác với cái mà các nhà nghiên cứu học máy gọi là học không giám sát, thường là về việc tìm kiếm cấu trúc ẩn trong các bộ dữ liệu không được gắn nhãn. Các thuật ngữ học tập có giám sát và học tập không giám sát dường như sẽ phân loại đầy đủ các mô hình học máy, nhưng chúng thì không. Mặc dù người ta có thể bị cám dỗ để coi học tập tăng cường như một loại học tập không có giám sát vì nó không dựa trên các ví dụ về hành vi đúng, học tập tăng cường đang cố gắng tối đa hóa tín hiệu khen thưởng thay vì cố gắng tìm ra cấu trúc ẩn. Khám phá cấu trúc trong trải nghiệm của một nhân viên chắc chắn có thể hữu ích trong việc học tăng cường, nhưng bản thân nó không giải quyết được vấn đề học tập tăng cường là tối đa hóa tín hiệu phần thưởng. Do đó, chúng ta coi học tăng cường là một mô hình học máy thứ ba, bên cạnh học có giám sát và học không giám sát và có lẽ là các mô hình khác.
Một trong những thách thức nảy sinh trong học tăng cường, chứ không phải trong các loại học khác, là sự đánh đổi giữa khám phá và khai thác. Để nhận được nhiều phần thưởng, agent học tăng cường phải thích các hành động mà họ đã thử trong quá khứ và thấy có hiệu quả trong việc tạo ra phần thưởng. Nhưng để phát hiện ra các hành động như vậy, nó phải thử các hành động mà nó chưa chọn trước đó. agent phải khai thác những gì đã trải qua để nhận được phần thưởng, nhưng cũng phải khám phá để đưa ra lựa chọn hành động tốt hơn trong tương lai. Vấn đề nan giải là không thể chỉ theo đuổi việc thăm dò hay khai thác mà không thất bại trong nhiệm vụ. Agent phải thử nhiều hành động khác nhau và dần dần ưu tiên những hành động có vẻ tốt nhất. Đối với một nhiệm vụ ngẫu nhiên, mỗi hành động phải được thử nhiều lần để đạt được ước tính đáng tin cậy về phần thưởng mong đợi của nó. Vấn đề nan giải về khám phá - khai thác(exploration–exploitation) đã được các nhà toán học nghiên cứu kỹ lưỡng trong nhiều thập kỷ, nhưng vẫn chưa được giải quyết. Hiện tại, chúng ta chỉ cần lưu ý rằng toàn bộ vấn đề cân bằng giữa việc thăm dò và khai thác thậm chí không nảy sinh trong học tập có giám sát và không giám sát, ít nhất là ở các hình thức thuần túy nhất của các mô hình này.
Một tính năng chính khác của học tăng cường là nó xem xét một cách rõ ràng toàn bộ vấn đề của agent hướng đến mục tiêu tương tác với một môi trường không chắc chắn. Điều này trái ngược với nhiều cách tiếp cận xem xét các vấn đề con mà không giải quyết cách chúng có thể phù hợp với một bức tranh lớn hơn. Ví dụ: chúng ta đã đề cập rằng nhiều nhà nghiên cứu học máy đã nghiên cứu phương pháp học có giám sát mà không chỉ rõ khả năng như vậy cuối cùng sẽ hữu ích như thế nào. Các nhà nghiên cứu khác đã phát triển các lý thuyết về lập kế hoạch với các mục tiêu chung, nhưng không xem xét vai trò của lập kế hoạch trong việc ra quyết định theo thời gian thực hoặc câu hỏi về nguồn gốc của các mô hình dự báo cần thiết cho việc lập kế hoạch. Mặc dù những cách tiếp cận này đã mang lại nhiều kết quả hữu ích, nhưng việc tập trung vào các bài toán con cô lập là một hạn chế đáng kể.
Học tập củng cố lại diễn ra ngược lại, bắt đầu với một agent hoàn chỉnh, tương tác, tìm kiếm mục tiêu. Tất cả các agent học tập củng cố đều có mục tiêu rõ ràng, có thể cảm nhận các khía cạnh của môi trường của họ và có thể chọn các hành động để tác động đến môi trường của họ. Hơn nữa, ngay từ đầu người ta thường giả định rằng agent phải hoạt động mặc dù có sự không chắc chắn đáng kể về môi trường mà agent phải đối mặt. Khi học tập củng cố liên quan đến việc lập kế hoạch, nó phải giải quyết sự tác động lẫn nhau giữa việc lập kế hoạch và lựa chọn hành động trong thời gian thực, cũng như câu hỏi về cách thu thập và cải thiện các mô hình môi trường. Khi học tăng cường liên quan đến học có giám sát, nó làm như vậy vì những lý do cụ thể xác định khả năng nào là quan trọng và khả năng nào không. Để nghiên cứu học tập đạt được tiến bộ, các vấn đề con quan trọng phải được tách biệt và nghiên cứu, nhưng chúng phải là các vấn đề con đóng vai trò rõ ràng trong các agent hoàn chỉnh, tương tác, tìm kiếm mục tiêu, ngay cả khi tất cả các chi tiết của agent hoàn chỉnh vẫn chưa được điền vào.
Bởi một agent hoàn chỉnh, tương tác, tìm kiếm mục tiêu, chúng ta không phải lúc nào cũng có ý nghĩa như một sinh vật hoặc rô bốt hoàn chỉnh. Đây rõ ràng là những ví dụ, nhưng một agent hoàn chỉnh, tương tác, tìm kiếm mục tiêu cũng có thể là một thành phần của một hệ thống hoạt động lớn hơn. Trong trường hợp này, agent tương tác trực tiếp với phần còn lại của hệ thống lớn hơn và tương tác gián tiếp với môi trường của hệ thống lớn hơn. Ví dụ đơn giản là một tác nhân giám sát mức sạc pin của rô bốt và gửi lệnh tới kiến trúc điều khiển của rô bốt. Môi trường của agent này là phần còn lại của rô bốt cùng với môi trường của rô bốt. điều quan trọng là phải nhìn xa hơn các ví dụ rõ ràng nhất về các tác nhân và môi trường của chúng để đánh giá cao tính tổng quát của khung học tập củng cố.
Một trong những khía cạnh thú vị nhất của việc học tăng cường hiện đại là sự tương tác thực chất và hiệu quả của nó với các ngành kỹ thuật và khoa học khác. Học tăng cường là một phần của xu hướng kéo dài nhiều thập kỷ trong trí tuệ nhân tạo và máy học hướng tới tích hợp nhiều hơn với thống kê, tối ưu hóa và các môn toán học khác. Ví dụ, khả năng của một số phương pháp học tập củng cố để học với xấp xỉ tham số hóa giải quyết “lời nguyền về chiều” cổ điển trong nghiên cứu hoạt động và lý thuyết điều khiển. Đặc biệt hơn, việc học tăng cường cũng tương tác mạnh mẽ với tâm lý học và khoa học thần kinh, với những lợi ích đáng kể theo cả hai cách. Trong tất cả các hình thức học máy, học tăng cường là hình thức học gần nhất với hình thức học tập mà con người và các loài động vật khác thực hiện và nhiều thuật toán cốt lõi của học tăng cường ban đầu được lấy cảm hứng từ các hệ thống học tập sinh học. Học tập củng cố cũng đã mang lại hiệu quả, cả thông qua mô hình tâm lý học của động vật phù hợp hơn với một số dữ liệu thực nghiệm và thông qua mô hình có ảnh hưởng của các bộ phận trong hệ thống phần thưởng của não bộ.
Cuối cùng, học tăng cường cũng là một phần của xu hướng lớn hơn trong trí tuệ nhân tạo trở lại các nguyên tắc chung đơn giản. Kể từ cuối những năm 1960, nhiều nhà nghiên cứu trí tuệ nhân tạo đã cho rằng không có nguyên tắc chung nào được phát hiện, thay vào đó, trí thông minh là do sở hữu một số lượng lớn các thủ thuật, quy trình và phương pháp kinh nghiệm có mục đích đặc biệt. Đôi khi người ta nói rằng nếu chúng ta có thể đưa đủ dữ kiện liên quan vào một chiếc máy, chẳng hạn như một triệu hoặc một tỷ, thì nó sẽ trở nên thông minh. Các phương pháp dựa trên các nguyên tắc chung, chẳng hạn như tìm kiếm hoặc học tập, được coi là “phương pháp yếu”, trong khi những phương pháp dựa trên kiến thức cụ thể được gọi là “phương pháp mạnh”. Quan điểm này là không phổ biến ngày nay. Theo quan điểm của chúng tôi, còn quá sớm: quá ít tài liệu được đưa vào việc tìm kiếm các nguyên tắc chung để kết luận rằng không có. Trí tuệ nhân tạo hiện đại ngày nay bao gồm nhiều nghiên cứu nhằm tìm kiếm các nguyên tắc chung về học tập, tìm kiếm và ra quyết định. Không rõ con lắc sẽ quay lại bao xa, nhưng nghiên cứu học tập củng cố chắc chắn là một phần của việc quay trở lại các nguyên tắc chung đơn giản hơn và ít hơn của trí tuệ nhân tạo.
Examples
Một cách tốt để hiểu về học tăng cường là xem xét một số ví dụ và các ứng dụng khả thi đã định hướng cho sự phát triển của nó
- Một người chơi cờ bậc thầy thực hiện một nước đi. Sự lựa chọn được thông báo cả bằng cách lập kế hoạch — dự đoán các câu trả lời và phản hồi có thể xảy ra — và bằng các phán đoán trực quan, tức thì về khả năng mong muốn của các vị trí và nước đi cụ thể.
- Bộ điều khiển thích ứng điều chỉnh các thông số hoạt động của nhà máy lọc dầu trong thời gian thực. Bộ điều khiển tối ưu hóa năng suất / chi phí / chất lượng trao đổi trên cơ sở chi phí cận biên được chỉ định mà không tuân thủ chặt chẽ các điểm đã thiết lập mà các kỹ sư đề xuất ban đầu.
- Một con linh dương con vật lộn với đôi chân của nó vài phút sau khi được sinh ra. Nửa giờ sau, nó đang chạy với tốc độ 20 dặm một giờ.
- Robot di động quyết định xem nó có nên vào một căn phòng mới để tìm thêm rác để thu thập hay bắt đầu cố gắng tìm đường trở lại trạm sạc pin của nó. Nó đưa ra quyết định dựa trên mức sạc hiện tại của pin và mức độ nhanh chóng và dễ dàng mà nó có thể tìm thấy bộ sạc trong quá khứ.
- Phil chuẩn bị bữa sáng. Được kiểm tra kỹ lưỡng, ngay cả hoạt động có vẻ trần tục này cũng cho thấy một mạng lưới hành vi có điều kiện phức tạp và các mối quan hệ mục tiêu - mục tiêu đan xen với nhau: đi đến tủ, mở nó, chọn một hộp ngũ cốc, sau đó với, nắm và lấy hộp. Các chuỗi hành vi phức tạp, được điều chỉnh, tương tác khác được yêu cầu để có được bát, thìa và hộp sữa. Mỗi bước bao gồm một loạt các chuyển động của mắt để thu thập thông tin và hướng dẫn cách tiếp cận và vận động. Các phán đoán nhanh chóng liên tục được đưa ra về cách mang các đồ vật hoặc liệu tốt hơn là nên đưa một số đồ vật đó lên bàn ăn trước khi lấy đồ vật khác. Mỗi bước được hướng dẫn bởi các mục tiêu, chẳng hạn như cầm thìa hoặc đến tủ lạnh, và phục vụ cho các mục tiêu khác, chẳng hạn như có thìa để ăn sau khi ngũ cốc được chuẩn bị và cuối cùng là thu được chất dinh dưỡng. Cho dù anh ta có nhận thức được điều đó hay không, Phil đang truy cập thông tin về tình trạng cơ thể của anh ta, xác định nhu cầu dinh dưỡng, mức độ đói và sở thích ăn uống của anh ta.
Những ví dụ này chia sẻ các tính năng cơ bản đến mức chúng rất dễ bị bỏ qua. Tất cả đều liên quan đến sự tương tác giữa tác nhân ra quyết định tích cực và môi trường của nó, trong đó tác nhân tìm cách đạt được mục tiêu bất chấp sự không chắc chắn về môi trường của nó. Các hành động của tác nhân được phép để phát hiện trạng thái tương lai của môi trường (ví dụ: thế cờ tiếp theo, mức độ các bể chứa của nhà máy lọc dầu, vị trí tiếp theo của rô bốt và mức sạc trong tương lai của pin), do đó đề phòng các hành động và cơ hội có sẵn cho đại lý vào những thời điểm sau. Lựa chọn đúng đòi hỏi phải tính đến hậu quả gián tiếp, chậm trễ của các hành động, và do đó có thể cần có tầm nhìn xa hoặc lập kế hoạch.
Đồng thời, trong tất cả các ví dụ này, không thể dự đoán đầy đủ các ảnh hưởng của các hành động; do đó tác nhân phải theo dõi môi trường của nó thường xuyên và phản ứng thích hợp. Ví dụ, Phil phải quan sát sữa mà anh ta đổ vào bát ngũ cốc của mình để giữ cho sữa không bị trào ra ngoài. Tất cả các ví dụ này liên quan đến các mục tiêu rõ ràng theo nghĩa là tác nhân có thể đánh giá tiến trình đạt được mục tiêu của mình dựa trên những gì họ có thể cảm nhận trực tiếp. Người chơi cờ biết mình có thắng hay không, người điều khiển nhà máy lọc dầu biết lượng xăng dầu đang được sản xuất, con bò tót biết khi nào nó rơi, rô bốt di động biết khi nào pin cạn và Phil biết liệu anh ta có đang thưởng thức bữa sáng của mình hay không. .
Trong tất cả các ví dụ này, đại lý có thể sử dụng kinh nghiệm của mình để cải thiện hiệu suất của mình theo thời gian. Người chơi cờ sàng lọc trực giác mà anh ta sử dụng để đánh giá các vị trí, từ đó cải thiện cách chơi của mình; linh dương cải thiện khả năng chạy của nó; Phil học cách sắp xếp hợp lý việc chuẩn bị bữa sáng của mình. Kiến thức mà tác nhân mang lại cho nhiệm vụ khi bắt đầu — từ kinh nghiệm trước đó với các nhiệm vụ liên quan hoặc được tích hợp vào nó theo thiết kế hoặc sự tiến hóa — ảnh hưởng đến những gì hữu ích hoặc dễ học, nhưng tương tác với môi trường là điều cần thiết để điều chỉnh hành vi nhằm khai thác các tính năng cụ thể của nhiệm vụ.