Nay có bạn hỏi câu mình câu này nên mình trả lời như sau:
Sẽ rất khó để đưa ra một hàm kích hoạt chung cho tất cả các trường hợp. Nhưng qua thử nghiệm thực tế và nhiều cuộc thi thì người ta vẫn hay dùng ReLU. Mặc dù có mấy cái active function mới ra cho kết quả tốt hơn nhưng thực tế người ta vẫn chưa dùng vì xét về mặt tổng thể thì Relu cho kết quả thử nghiệm khá tốt và tính toán cũng nhanh hơn. Mặc dù thi thoảng nó vẫn gây ra một số hiện tượng khi training. Leads to some neurons being dead đại loại là làm cho 1 số neuron bị chết =))) như kiểu não có vài tế bào thần kinh bị bại liệt vậy =))
Chốt lại là đơn giản và hiệu quả về mặt tổng thể được chính minh qua nhiều thử nghiệm. Công thức toán của nó cũng đơn giản nên tính toán cũng ít hơn.
Thứ 2: Tại sao lại chỉ dùng cùng 1 Active funtion ở các lớp ẩn, đọc cho kỹ là ở các lớp ẩn thôi nhé. Vì dùng nhiều cái khác nhau nó chả mang lại hiệu quả lớn nào. Using other activation functions don’t provide significant improvement in performance and tweaking them doesn’t provide any big improvement.
-- Anyway =))) phát ngôn này của tôi dựa theo 1 số paper tôi đọc ông nào update có gì mới thì cmt tôi biết với.