Bài viết sẽ giải thích những thông số mà bạn có thể nhìn thấy khi train model với Tensor Board
Reward tích luỹ:
Phần thưởng tích lũy trung bình trên tất cả các agent. Giá trị này nên tăng trong một session training thành công. Xu hướng chung rewarad sẽ liên tục tăng theo thời gian. Dự kiến sẽ có những thăng trầm nhỏ. Tùy thuộc vào mức độ phức tạp của nhiệm vụ, phần thưởng tăng đáng kể có thể không xuất hiện cho đến khi thực hiện hàng triệu bước trong quá trình đào tạo.
Entropy
Các quyết định của mô hình ngẫu nhiên như thế nào. Nên giảm từ từ trong quá trình training thành công. Nếu nó giảm quá nhanh, nên tăng beta
hyperparameter. Nó tương ứng với mức độ ngẫu nhiên của các quyết định của Bộ não. Điều này sẽ liên tục giảm trong quá trình đào tạo. Nếu nó giảm quá sớm hoặc hoàn toàn không giảm, nên điều chỉnh beta (khi sử dụng không gian hành động rời rạc).
Episode Length
Độ dài trung bình của mỗi episode trong môi trường cho tất cả các agent.
Policy Loss
Độ lớn trung bình của policy loss function. Liên quan đến mức độ thay đổi của policy (quy trình quyết định hành động). Mức độ của nó sẽ giảm trong một phiên training thành công. Các giá trị này sẽ dao động trong quá trình đào tạo. Nói chung chúng phải nhỏ hơn 1
Value Estimate
Ước tính giá trị trung bình cho tất cả các trạng thái mà agent đã truy cập. Nên tăng trong một session training thành công. Các giá trị này sẽ tăng lên khi phần thưởng tích lũy tăng lên. Chúng tương ứng với bao nhiêu phần thưởng trong tương lai mà đại lý dự đoán sẽ nhận được tại bất kỳ thời điểm nhất định nào.
Value Loss
Sự mất mát trung bình của việc cập nhật hàm giá trị. Liên quan đến mức độ tốt của mô hình có thể dự đoán giá trị của mỗi trạng thái. Điều này sẽ tăng lên trong khi agent đang học và sau đó giảm xuống khi phần thưởng ổn định.
approxkl
Phép đo phân kỳ Kullback-Leibler gần đúng của chính sách cũ so với chính sách mới.
clipfrac
PPO kẹp chính sách mới trong phạm vi clip của chính sách cũ, cho phép học tập ổn định.