Thuật ngữ

Mã hóa

Khám phá sức mạnh của mã thông báo trong NLP và ML! Tìm hiểu cách chia văn bản thành mã thông báo giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.

Tokenization là một bước tiền xử lý cơ bản trong Trí tuệ nhân tạo (AI) và Học máy (ML) , đặc biệt quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP) . Nó bao gồm việc chia nhỏ các chuỗi văn bản hoặc dữ liệu khác thành các đơn vị nhỏ hơn, dễ quản lý được gọi là token . Các token này đóng vai trò là các khối xây dựng cơ bản mà các thuật toán sử dụng để hiểu và xử lý thông tin, chuyển đổi đầu vào thô như câu hoặc đoạn văn thành định dạng phù hợp để phân tích bằng các mô hình học máy . Quá trình này rất cần thiết vì máy tính không hiểu văn bản theo cùng cách mà con người hiểu; chúng cần dữ liệu được cấu trúc thành các phần rời rạc.

Tokenization hoạt động như thế nào

Ý tưởng cốt lõi đằng sau tokenization là phân đoạn. Đối với dữ liệu văn bản, điều này thường có nghĩa là chia câu thành các từ, từ phụ hoặc thậm chí các ký tự riêng lẻ dựa trên các quy tắc được xác định trước hoặc các mẫu đã học. Ví dụ, câu " Ultralytics YOLO11 "mạnh mẽ" có thể được phân chia thành các từ riêng lẻ: ["Ultralytics", "YOLO11", "is", "powerful"]Phương pháp cụ thể được chọn phụ thuộc rất nhiều vào nhiệm vụ và kiến trúc mô hình được sử dụng.

Các kỹ thuật phổ biến bao gồm phân tách văn bản dựa trên khoảng trắng và dấu câu. Tuy nhiên, thường cần các phương pháp tiên tiến hơn, đặc biệt là để xử lý các từ vựng lớn hoặc các từ không nhìn thấy trong quá trình đào tạo. Các kỹ thuật như Mã hóa cặp byte (BPE) hoặc WordPiece chia các từ thành các đơn vị từ con nhỏ hơn. Chúng thường được sử dụng trong các Mô hình ngôn ngữ lớn (LLM) như BERT và GPT-4 để quản lý kích thước từ vựng hiệu quả và xử lý các từ không xác định một cách khéo léo. Việc lựa chọn chiến lược mã hóa có thể tác động đáng kể đến hiệu suất mô hình và hiệu quả tính toán.

Sự liên quan và ứng dụng trong thế giới thực

Tokenization rất quan trọng vì hầu hết các mô hình ML, đặc biệt là các kiến trúc học sâu , đều yêu cầu đầu vào số thay vì văn bản thô. Bằng cách chuyển đổi văn bản thành các token rời rạc, sau đó chúng ta có thể ánh xạ các token này thành các biểu diễn số, chẳng hạn như nhúng . Các vectơ số này nắm bắt ý nghĩa ngữ nghĩa và các mối quan hệ, cho phép các mô hình được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow học các mẫu từ dữ liệu. Bước cơ bản này hỗ trợ nhiều ứng dụng AI:

Xử lý ngôn ngữ tự nhiên (NLP): Phân tích mã thông báo đóng vai trò trung tâm trong hầu hết các tác vụ NLP.
- Dịch máy: Các dịch vụ như Google Dịch sẽ mã hóa câu đầu vào bằng ngôn ngữ nguồn, xử lý các mã này bằng các mô hình phức tạp (thường dựa trên kiến trúc Transformer ), sau đó tạo các mã ở ngôn ngữ đích, cuối cùng được lắp ráp thành câu đã dịch.
- Phân tích tình cảm: Để xác định xem đánh giá của khách hàng là tích cực hay tiêu cực, trước tiên văn bản được mã hóa. Sau đó, mô hình phân tích các mã thông báo này (và biểu diễn số của chúng) để phân loại tình cảm chung. Tìm hiểu thêm về Phân tích tình cảm . Các kỹ thuật như điều chỉnh nhắc nhở cũng dựa vào việc thao túng chuỗi mã thông báo.
Thị giác máy tính (CV): Mặc dù theo truyền thống gắn liền với NLP, khái niệm này mở rộng sang Thị giác máy tính (CV) .
- Vision Transformers (ViT): Trong các mô hình như Vision Transformers (ViT) , hình ảnh được chia thành các bản vá có kích thước cố định. Các bản vá này được coi là 'mã thông báo trực quan' và được làm phẳng thành các chuỗi. Các chuỗi này sau đó được đưa vào mạng Transformer , sử dụng các cơ chế như tự chú ý để hiểu mối quan hệ giữa các phần hình ảnh khác nhau, tương tự như cách xử lý mã thông báo văn bản trong NLP. Điều này cho phép thực hiện các tác vụ như phân loại hình ảnh và phát hiện đối tượng . Các mô hình như Mô hình phân đoạn bất kỳ ( SAM ) cũng sử dụng các khái niệm giống như mã thông báo để phân đoạn hình ảnh .
- Mô hình đa phương thức: Các mô hình như CLIP và YOLO - Cầu nối tầm nhìn và ngôn ngữ thế giới bằng cách xử lý cả mã thông báo văn bản và mã thông báo trực quan (hoặc các tính năng hình ảnh) để thực hiện các tác vụ như phát hiện đối tượng không cần chụp dựa trên mô tả văn bản.

Mã hóa so với Mã thông báo

Điều quan trọng là phải phân biệt giữa 'Tokenization' và ' Token '.

Phân chia dữ liệu: Chỉ quá trình chia nhỏ dữ liệu thành các đơn vị nhỏ hơn. Đây là bước tiền xử lý.
Mã thông báo: Chỉ kết quả của quá trình mã hóa – đơn vị riêng lẻ (từ, từ phụ, ký tự hoặc hình ảnh) mà mô hình xử lý.

Hiểu về token hóa là điều cơ bản để nắm bắt cách các mô hình AI diễn giải và học hỏi từ nhiều loại dữ liệu khác nhau. Quản lý các tập dữ liệu và mô hình đào tạo thường liên quan đến các nền tảng như Ultralytics HUB , giúp hợp lý hóa quy trình xử lý trước dữ liệu và đào tạo mô hình , thường liên quan đến dữ liệu được mã hóa ngầm định hoặc rõ ràng. Khi AI phát triển, các phương pháp token hóa tiếp tục thích ứng, đóng vai trò quan trọng trong việc xây dựng các mô hình tinh vi hơn cho các nhiệm vụ từ tạo văn bản đến hiểu biết trực quan phức tạp trong các lĩnh vực như xe tự hành và phân tích hình ảnh y tế .

Mã hóa

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Tokenization hoạt động như thế nào

Sự liên quan và ứng dụng trong thế giới thực

Mã hóa so với Mã thông báo

Đọc thêm blog

Tham gia Ultralytics cộng đồng