Thuật ngữ

ReLU bị rò rỉ

Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU đang chết dần và tăng hiệu suất mô hình trong CV, NLP, GAN, v.v.!

Leaky Rectified Linear Unit, thường được gọi là Leaky ReLU, là một hàm kích hoạt được sử dụng trong Mạng nơ-ron (NN) , đặc biệt là trong các mô hình Học sâu (DL) . Đây là phiên bản đã sửa đổi của hàm kích hoạt Rectified Linear Unit (ReLU) chuẩn, được thiết kế riêng để giải quyết vấn đề "ReLU đang chết". Vấn đề này xảy ra khi các nơ-ron trở nên không hoạt động và đưa ra giá trị bằng không cho bất kỳ đầu vào nào, ngăn cản chúng học trong quá trình đào tạo do độ dốc bằng không trong quá trình truyền ngược .

Leaky ReLU hoạt động như thế nào

Giống như ReLU, Leaky ReLU đưa ra đầu vào trực tiếp nếu nó là đầu vào dương. Tuy nhiên, không giống như ReLU đưa ra số không cho bất kỳ đầu vào âm nào, Leaky ReLU cho phép một gradient (độ dốc) hằng số, khác không, nhỏ cho các đầu vào âm. "Rò rỉ" này đảm bảo rằng các tế bào thần kinh vẫn hoạt động ngay cả khi đầu vào của chúng là âm, cho phép các gradient chảy ngược qua mạng và cho phép tiếp tục học. Độ dốc nhỏ thường là một giá trị nhỏ cố định (ví dụ: 0,01), nhưng các biến thể như Parametric ReLU (PReLU) cho phép độ dốc này được học trong quá trình đào tạo.

Giải quyết vấn đề ReLU đang chết

Động lực chính đằng sau Leaky ReLU là để giảm thiểu vấn đề ReLU chết . Khi một neuron ReLU chuẩn nhận được một đầu vào âm lớn, đầu ra của nó sẽ trở thành số không. Nếu gradient chảy ngược trong quá trình đào tạo cũng bằng không, trọng số của neuron sẽ không được cập nhật và nó có thể vẫn không hoạt động vĩnh viễn đối với tất cả các đầu vào. Leaky ReLU ngăn chặn điều này bằng cách đảm bảo một gradient nhỏ, khác không luôn tồn tại, ngay cả đối với các đầu vào âm, do đó ngăn chặn neuron chết hoàn toàn và cải thiện tính mạnh mẽ của quá trình đào tạo, đặc biệt là trong các mạng rất sâu, nơi vấn đề gradient biến mất cũng có thể là một mối quan tâm.

Sự liên quan và ứng dụng trong AI và ML

Leaky ReLU là một công cụ có giá trị trong các tình huống mà việc duy trì các tế bào thần kinh hoạt động trong suốt quá trình đào tạo là rất quan trọng. Hiệu quả tính toán của nó, tương tự như ReLU tiêu chuẩn, làm cho nó phù hợp với các mô hình quy mô lớn. Các ứng dụng chính bao gồm:

Computer Vision (CV) : Leaky ReLU thường được sử dụng trong Convolutional Neural Networks (CNN) cho các tác vụ như phân loại hình ảnh , phát hiện đối tượng và phân đoạn hình ảnh . Ví dụ, các phiên bản đầu tiên của mô hình YOLO Ultralytics sử dụng các lớp Leaky ReLU để cải thiện độ chính xác của mô hình và tính ổn định khi đào tạo. Trong khi các mô hình mới hơn như YOLO11 có thể sử dụng các kích hoạt khác như SiLU , Leaky ReLU vẫn là một lựa chọn khả thi, đặc biệt là khi chi phí tính toán là một hạn chế lớn.
Mạng đối nghịch tạo sinh (GAN) : Trong AI tạo sinh , Leaky ReLU thường được sử dụng trong phần phân biệt của cấu trúc GAN để ngăn chặn các gradient chết dần, giúp ổn định quá trình đào tạo GAN. Nó cũng có thể được sử dụng trong mạng máy phát.
Xử lý ngôn ngữ tự nhiên (NLP) : Mặc dù ít phổ biến hơn trong CV, Leaky ReLU có thể được áp dụng trong một số kiến trúc học sâu cho các tác vụ NLP .
Suy luận thời gian thực : Tính đơn giản về mặt tính toán khiến nó phù hợp với các ứng dụng yêu cầu suy luận nhanh, bao gồm cả triển khai trên các thiết bị biên .

ReLU bị rò rỉ so với các hàm kích hoạt khác

So với ReLU tiêu chuẩn, lợi thế chính của Leaky ReLU là tránh được vấn đề tế bào thần kinh chết. Các hàm kích hoạt khác như ELU (Đơn vị tuyến tính mũ) hoặc SiLU (Đơn vị tuyến tính Sigmoid) cũng giải quyết vấn đề này, đôi khi mang lại những lợi ích như độ dốc mượt mà hơn, như được thấy trong các mô hình như Ultralytics YOLOv8 . Tuy nhiên, các giải pháp thay thế này, chẳng hạn như ELU , có thể tốn kém hơn về mặt tính toán so với Leaky ReLU ( xem so sánh hàm kích hoạt ). Lựa chọn tối ưu thường phụ thuộc vào kiến trúc mạng nơ-ron cụ thể, tập dữ liệu (như những tập dữ liệu được tìm thấy trên Ultralytics Datasets ) và kết quả thực nghiệm thu được thông qua các quy trình như điều chỉnh siêu tham số . Các khuôn khổ như PyTorch ( Tài liệu PyTorch ) và TensorFlow ( Tài liệu TensorFlow ) cung cấp các triển khai dễ dàng cho nhiều hàm kích hoạt khác nhau, tạo điều kiện thuận lợi cho việc thử nghiệm trong các nền tảng như Ultralytics HUB .

ReLU bị rò rỉ

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Leaky ReLU hoạt động như thế nào

Giải quyết vấn đề ReLU đang chết

Sự liên quan và ứng dụng trong AI và ML

ReLU bị rò rỉ so với các hàm kích hoạt khác

Đọc thêm blog

Tham gia Ultralytics cộng đồng