Học tăng cường sâu đã mang lại lợi ích điều khiển cho các nhiệm vụ phức tạp. Tuy nhiên, những bộ điều khiển này có bộ nhớ hạn chế và phụ thuộc vào khả năng cảm nhận toàn bộ màn hình trò chơi tại mỗi thời điểm quyết định. Để giải quyết những thiếu sót này, bài viết này nghiên cứu các tác động của việc thêm recurrency vào Deep Q-Network (DQN) bằng cách thay thế lớp được kết nối đầy đủ đầu tiên bằng một LSTM.
Kết quả Deep Recurrent Q-Network (DRQN), mặc dù chỉ có khả năng nhìn thấy một khung hình duy nhất tại mỗi bước thời gian, tích hợp thông tin theo thời gian và tái tạo hiệu suất của DQN trên các trò chơi Atari tiêu chuẩn và tương đương quan sát được một phần có màn hình trò chơi nhấp nháy.
Ngoài ra, khi được đào tạo với các quan sát từng phần và được đánh giá với các quan sát hoàn thiện, hiệu suất của DRQN sẽ được scales như một hàm của khả năng quan sát. Ngược lại, khi được đào tạo với full observations và được đánh giá bằng các partial observations, hiệu suất của DRQN giảm thấp hơn của DQN.
Hình ảnh về kiến trúc của DRQN với trò chơi atari