Để chuẩn hóa phần thưởng và hình phạt một cách thống nhất trên tất cả các cài đặt của môi trường, reward clipping được sử dụng. Trong kỹ thuật này, mỗi phần thưởng tích cực được cắt thành +1 và mỗi phần thưởng tiêu cực được cố định thành -1. Do đó, điều này tránh được các update có trọng số lớn và cho phép mạng cập nhật các thông số của nó một cách suôn sẻ.
import numpy as np
rewardClipping = 1
np.clip(reward, -rewardClipping, rewardClipping)
Nó giúp cho việc học tập một cách ổn định hơn. Hiệu quả của nó giống như việc bạn giảm learning rate