Thuật ngữ

mềm

Khám phá cách Softmax chuyển đổi điểm số thành xác suất cho các tác vụ phân loại trong AI, thúc đẩy nhận dạng hình ảnh và thành công của NLP.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Softmax là một hàm kích hoạt quan trọng thường được sử dụng trong lớp đầu ra của mạng nơ-ron (NN) , đặc biệt là đối với các bài toán phân loại đa lớp. Vai trò chính của nó là chuyển đổi một vectơ điểm thô (thường được gọi là logit) do lớp trước tạo ra thành phân phối xác suất trên nhiều lớp tiềm năng. Mỗi giá trị đầu ra biểu thị xác suất đầu vào thuộc về một lớp cụ thể và quan trọng là các xác suất này có tổng bằng 1, giúp đầu ra dễ dàng được diễn giải thành các mức độ tin cậy cho các kết quả loại trừ lẫn nhau.

Softmax hoạt động như thế nào

Về mặt khái niệm, hàm Softmax lấy điểm đầu ra thô từ một lớp mạng nơ-ron và biến đổi chúng. Nó thực hiện điều này bằng cách đầu tiên là lũy thừa từng điểm, làm cho tất cả các giá trị dương và nhấn mạnh các điểm lớn hơn một cách đáng kể hơn. Sau đó, nó chuẩn hóa các điểm đã lũy thừa này bằng cách chia từng điểm cho tổng của tất cả các điểm đã lũy thừa. Bước chuẩn hóa này đảm bảo rằng các giá trị kết quả nằm giữa 0 và 1 và tổng hợp lại bằng 1, tạo ra hiệu quả phân phối xác suất trên các lớp khác nhau. Lớp tương ứng với giá trị xác suất cao nhất thường được chọn làm dự đoán cuối cùng của mô hình. Quá trình này là cơ bản trong các mô hình học sâu (DL) xử lý các nhiệm vụ phân loại.

Đặc điểm chính

  • Phân phối xác suất: Đầu ra biểu thị xác suất cho từng lớp, luôn có tổng bằng 1.
  • Tập trung vào nhiều lớp: Được thiết kế riêng cho các tình huống mà đầu vào chỉ có thể thuộc về một trong nhiều lớp có thể có (loại trừ lẫn nhau).
  • Diễn giải đầu ra: Làm cho đầu ra của mô hình trở nên trực quan, thể hiện mức độ tin cậy cho từng lớp.
  • Khả năng phân biệt: Mượt mà và có thể phân biệt được, cho phép sử dụng hiệu quả với các thuật toán tối ưu hóa dựa trên độ dốc như giảm độ dốc trong quá trình đào tạo mô hình.

Softmax so với các hàm kích hoạt liên quan

Điều quan trọng là phải phân biệt Softmax với các hàm kích hoạt khác:

  • Sigmoid : Trong khi Sigmoid cũng đưa ra các giá trị trong khoảng từ 0 đến 1, nó thường được sử dụng cho phân loại nhị phân (một neuron đầu ra) hoặc phân loại đa nhãn (nhiều neuron đầu ra trong đó mỗi đầu ra biểu thị một xác suất độc lập và tổng không nhất thiết phải bằng 1). Softmax được sử dụng khi các lớp loại trừ lẫn nhau. Bạn có thể tìm thêm thông tin chi tiết trong các tài nguyên như Stanford CS231n notes .
  • ReLU (Rectified Linear Unit) : ReLU và các biến thể của nó như Leaky ReLU hoặc SiLU chủ yếu được sử dụng trong các lớp ẩn của mạng nơ-ron để đưa vào tính phi tuyến tính. Chúng không tạo ra các đầu ra giống như xác suất phù hợp với lớp phân loại cuối cùng. DeepLearning.AI cung cấp các khóa học giải thích về các hàm kích hoạt trong mạng nơ-ron.

Ứng dụng trong AI và Học máy

Softmax được sử dụng rộng rãi trong nhiều lĩnh vực AIHọc máy (ML) :

  • Phân loại hình ảnh đa lớp: Một ứng dụng nền tảng. Ví dụ, một mô hình được đào tạo trên tập dữ liệu CIFAR-10 sử dụng Softmax trong lớp cuối cùng của nó để đưa ra xác suất cho mỗi lớp trong số 10 lớp (ví dụ: máy bay, ô tô, chim). Mạng nơ-ron tích chập (CNN) phụ thuộc rất nhiều vào Softmax cho các tác vụ phân loại. Bạn có thể khám phá các mô hình phân loại được đào tạo trước trong tài liệu Ultralytics .
  • Xử lý ngôn ngữ tự nhiên (NLP) : Được sử dụng trong các tác vụ như mô hình hóa ngôn ngữ (dự đoán từ tiếp theo từ một vốn từ vựng), phân tích tình cảm (phân loại văn bản thành tích cực, tiêu cực hoặc trung tính) và dịch máy . Các kiến trúc hiện đại như Transformer thường sử dụng Softmax trong các cơ chế chú ý và lớp đầu ra của chúng. Hugging Face cung cấp nhiều mô hình sử dụng Softmax.
  • Phát hiện đối tượng : Trong các mô hình như Ultralytics YOLOv8 hoặc YOLO11 , đầu phát hiện sử dụng Softmax (hoặc đôi khi là Sigmoid cho các tình huống nhiều nhãn) để xác định xác suất lớp cho mỗi đối tượng được phát hiện trong một hộp giới hạn . Điều này giúp gán các nhãn như 'người', 'ô tô' hoặc 'đèn giao thông' dựa trên các tập dữ liệu như COCO .
  • Học tăng cường (RL) : Trong các phương pháp RL dựa trên chính sách, Softmax có thể được sử dụng để chuyển đổi các sở thích hành động được tác nhân học thành xác suất, cho phép lựa chọn chính sách ngẫu nhiên trong đó các hành động được chọn theo xác suất dựa trên điểm số của chúng. Các nguồn như sách RL của Sutton và Barto đề cập đến các khái niệm này.

Những cân nhắc

Mặc dù mạnh mẽ, Softmax có thể nhạy cảm với điểm đầu vào rất lớn, có khả năng dẫn đến mất ổn định về mặt số (tràn hoặc thiếu). Các khuôn khổ học sâu hiện đại như PyTorchTensorFlow triển khai các phiên bản Softmax ổn định về mặt số để giảm thiểu các vấn đề này. Hiểu được hành vi của nó là rất quan trọng để đào tạo và diễn giải mô hình hiệu quả, thường được hỗ trợ bởi các nền tảng như Ultralytics HUB để quản lý các thử nghiệm và triển khai.

Đọc tất cả
OSZAR »