Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU đang chết dần và tăng hiệu suất mô hình trong CV, NLP, GAN, v.v.!
Leaky Rectified Linear Unit, thường được gọi là Leaky ReLU, là một hàm kích hoạt được sử dụng trong Mạng nơ-ron (NN) , đặc biệt là trong các mô hình Học sâu (DL) . Đây là phiên bản đã sửa đổi của hàm kích hoạt Rectified Linear Unit (ReLU) chuẩn, được thiết kế riêng để giải quyết vấn đề "ReLU đang chết". Vấn đề này xảy ra khi các nơ-ron trở nên không hoạt động và đưa ra giá trị bằng không cho bất kỳ đầu vào nào, ngăn cản chúng học trong quá trình đào tạo do độ dốc bằng không trong quá trình truyền ngược .
Giống như ReLU, Leaky ReLU đưa ra đầu vào trực tiếp nếu nó là đầu vào dương. Tuy nhiên, không giống như ReLU đưa ra số không cho bất kỳ đầu vào âm nào, Leaky ReLU cho phép một gradient (độ dốc) hằng số, khác không, nhỏ cho các đầu vào âm. "Rò rỉ" này đảm bảo rằng các tế bào thần kinh vẫn hoạt động ngay cả khi đầu vào của chúng là âm, cho phép các gradient chảy ngược qua mạng và cho phép tiếp tục học. Độ dốc nhỏ thường là một giá trị nhỏ cố định (ví dụ: 0,01), nhưng các biến thể như Parametric ReLU (PReLU) cho phép độ dốc này được học trong quá trình đào tạo.
Động lực chính đằng sau Leaky ReLU là để giảm thiểu vấn đề ReLU chết . Khi một neuron ReLU chuẩn nhận được một đầu vào âm lớn, đầu ra của nó sẽ trở thành số không. Nếu gradient chảy ngược trong quá trình đào tạo cũng bằng không, trọng số của neuron sẽ không được cập nhật và nó có thể vẫn không hoạt động vĩnh viễn đối với tất cả các đầu vào. Leaky ReLU ngăn chặn điều này bằng cách đảm bảo một gradient nhỏ, khác không luôn tồn tại, ngay cả đối với các đầu vào âm, do đó ngăn chặn neuron chết hoàn toàn và cải thiện tính mạnh mẽ của quá trình đào tạo, đặc biệt là trong các mạng rất sâu, nơi vấn đề gradient biến mất cũng có thể là một mối quan tâm.
Leaky ReLU là một công cụ có giá trị trong các tình huống mà việc duy trì các tế bào thần kinh hoạt động trong suốt quá trình đào tạo là rất quan trọng. Hiệu quả tính toán của nó, tương tự như ReLU tiêu chuẩn, làm cho nó phù hợp với các mô hình quy mô lớn. Các ứng dụng chính bao gồm:
So với ReLU tiêu chuẩn, lợi thế chính của Leaky ReLU là tránh được vấn đề tế bào thần kinh chết. Các hàm kích hoạt khác như ELU (Đơn vị tuyến tính mũ) hoặc SiLU (Đơn vị tuyến tính Sigmoid) cũng giải quyết vấn đề này, đôi khi mang lại những lợi ích như độ dốc mượt mà hơn, như được thấy trong các mô hình như Ultralytics YOLOv8 . Tuy nhiên, các giải pháp thay thế này, chẳng hạn như ELU , có thể tốn kém hơn về mặt tính toán so với Leaky ReLU ( xem so sánh hàm kích hoạt ). Lựa chọn tối ưu thường phụ thuộc vào kiến trúc mạng nơ-ron cụ thể, tập dữ liệu (như những tập dữ liệu được tìm thấy trên Ultralytics Datasets ) và kết quả thực nghiệm thu được thông qua các quy trình như điều chỉnh siêu tham số . Các khuôn khổ như PyTorch ( Tài liệu PyTorch ) và TensorFlow ( Tài liệu TensorFlow ) cung cấp các triển khai dễ dàng cho nhiều hàm kích hoạt khác nhau, tạo điều kiện thuận lợi cho việc thử nghiệm trong các nền tảng như Ultralytics HUB .