Khám phá sức mạnh của mã thông báo trong NLP và ML! Tìm hiểu cách chia văn bản thành mã thông báo giúp tăng cường các tác vụ AI như phân tích tình cảm và tạo văn bản.
Tokenization là một bước tiền xử lý cơ bản trong Trí tuệ nhân tạo (AI) và Học máy (ML) , đặc biệt quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP) . Nó bao gồm việc chia nhỏ các chuỗi văn bản hoặc dữ liệu khác thành các đơn vị nhỏ hơn, dễ quản lý được gọi là token . Các token này đóng vai trò là các khối xây dựng cơ bản mà các thuật toán sử dụng để hiểu và xử lý thông tin, chuyển đổi đầu vào thô như câu hoặc đoạn văn thành định dạng phù hợp để phân tích bằng các mô hình học máy . Quá trình này rất cần thiết vì máy tính không hiểu văn bản theo cùng cách mà con người hiểu; chúng cần dữ liệu được cấu trúc thành các phần rời rạc.
Ý tưởng cốt lõi đằng sau tokenization là phân đoạn. Đối với dữ liệu văn bản, điều này thường có nghĩa là chia câu thành các từ, từ phụ hoặc thậm chí các ký tự riêng lẻ dựa trên các quy tắc được xác định trước hoặc các mẫu đã học. Ví dụ, câu " Ultralytics YOLO11 "mạnh mẽ" có thể được phân chia thành các từ riêng lẻ: ["Ultralytics", "YOLO11", "is", "powerful"]
Phương pháp cụ thể được chọn phụ thuộc rất nhiều vào nhiệm vụ và kiến trúc mô hình được sử dụng.
Các kỹ thuật phổ biến bao gồm phân tách văn bản dựa trên khoảng trắng và dấu câu. Tuy nhiên, thường cần các phương pháp tiên tiến hơn, đặc biệt là để xử lý các từ vựng lớn hoặc các từ không nhìn thấy trong quá trình đào tạo. Các kỹ thuật như Mã hóa cặp byte (BPE) hoặc WordPiece chia các từ thành các đơn vị từ con nhỏ hơn. Chúng thường được sử dụng trong các Mô hình ngôn ngữ lớn (LLM) như BERT và GPT-4 để quản lý kích thước từ vựng hiệu quả và xử lý các từ không xác định một cách khéo léo. Việc lựa chọn chiến lược mã hóa có thể tác động đáng kể đến hiệu suất mô hình và hiệu quả tính toán.
Tokenization rất quan trọng vì hầu hết các mô hình ML, đặc biệt là các kiến trúc học sâu , đều yêu cầu đầu vào số thay vì văn bản thô. Bằng cách chuyển đổi văn bản thành các token rời rạc, sau đó chúng ta có thể ánh xạ các token này thành các biểu diễn số, chẳng hạn như nhúng . Các vectơ số này nắm bắt ý nghĩa ngữ nghĩa và các mối quan hệ, cho phép các mô hình được xây dựng bằng các khuôn khổ như PyTorch hoặc TensorFlow học các mẫu từ dữ liệu. Bước cơ bản này hỗ trợ nhiều ứng dụng AI:
Xử lý ngôn ngữ tự nhiên (NLP): Phân tích mã thông báo đóng vai trò trung tâm trong hầu hết các tác vụ NLP.
Thị giác máy tính (CV): Mặc dù theo truyền thống gắn liền với NLP, khái niệm này mở rộng sang Thị giác máy tính (CV) .
Điều quan trọng là phải phân biệt giữa 'Tokenization' và ' Token '.
Hiểu về token hóa là điều cơ bản để nắm bắt cách các mô hình AI diễn giải và học hỏi từ nhiều loại dữ liệu khác nhau. Quản lý các tập dữ liệu và mô hình đào tạo thường liên quan đến các nền tảng như Ultralytics HUB , giúp hợp lý hóa quy trình xử lý trước dữ liệu và đào tạo mô hình , thường liên quan đến dữ liệu được mã hóa ngầm định hoặc rõ ràng. Khi AI phát triển, các phương pháp token hóa tiếp tục thích ứng, đóng vai trò quan trọng trong việc xây dựng các mô hình tinh vi hơn cho các nhiệm vụ từ tạo văn bản đến hiểu biết trực quan phức tạp trong các lĩnh vực như xe tự hành và phân tích hình ảnh y tế .