Tăng cường dữ liệu là một kỹ thuật quan trọng trong học máy (ML) được sử dụng để mở rộng nhân tạo kích thước và tính đa dạng của tập dữ liệu đào tạo . Điều này đạt được bằng cách tạo các phiên bản đã sửa đổi của các điểm dữ liệu hiện có hoặc tạo các ví dụ tổng hợp mới dựa trên chúng. Mục tiêu chính là cải thiện hiệu suất, khả năng khái quát hóa và tính mạnh mẽ của các mô hình ML, đặc biệt là trong các lĩnh vực như thị giác máy tính (CV), nơi việc thu thập các tập dữ liệu lớn và đa dạng có thể tốn kém và mất thời gian. Bằng cách đào tạo các mô hình như Ultralytics YOLO trên dữ liệu tăng cường, các nhà phát triển có thể giúp họ học cách xử lý nhiều biến thể hơn gặp phải trong các tình huống thực tế, dẫn đến độ chính xác tốt hơn trên dữ liệu chưa thấy.
Tăng cường dữ liệu hoạt động như thế nào
Ý tưởng cốt lõi đằng sau việc tăng cường dữ liệu là áp dụng nhiều phép biến đổi khác nhau vào các mẫu dữ liệu gốc để tạo ra các ví dụ đào tạo mới, hợp lý. Những phép biến đổi này lý tưởng nhất là phải phản ánh các biến thể mà mô hình có thể gặp phải trong quá trình suy luận . Đối với dữ liệu hình ảnh, là trọng tâm chính trong thị giác máy tính, các kỹ thuật tăng cường phổ biến bao gồm:
- Biến đổi hình học: Thay đổi các thuộc tính không gian của hình ảnh, chẳng hạn như xoay, thu phóng (phóng to hoặc thu nhỏ), tịnh tiến (dịch chuyển), cắt và lật (theo chiều ngang hoặc chiều dọc).
- Biến đổi không gian màu: Sửa đổi các đặc điểm màu, bao gồm điều chỉnh độ sáng, độ tương phản, độ bão hòa và sắc thái. Những điều này giúp các mô hình ít nhạy cảm hơn với điều kiện ánh sáng và các biến thể của máy ảnh.
- Thêm nhiễu: Thêm nhiễu ngẫu nhiên (như nhiễu Gauss ) để mô phỏng nhiễu cảm biến hoặc chất lượng hình ảnh không hoàn hảo.
- Xóa/Cắt ngẫu nhiên: Che các vùng hình chữ nhật ngẫu nhiên của hình ảnh để khuyến khích mô hình tập trung vào các phần khác nhau của đối tượng và cải thiện khả năng chống che khuất.
- Trộn hình ảnh: Kết hợp nhiều hình ảnh hoặc các phần của hình ảnh. Các kỹ thuật như Mixup (nội suy giữa hai hình ảnh và nhãn của chúng) và CutMix (dán một bản vá từ hình ảnh này sang hình ảnh khác) buộc mô hình phải học từ các ví dụ ít sạch hơn.
Mặc dù được sử dụng nhiều trong CV, các kỹ thuật tăng cường cũng được áp dụng trong các lĩnh vực khác. Ví dụ, trong Xử lý ngôn ngữ tự nhiên (NLP) , các phương pháp như thay thế từ đồng nghĩa, dịch ngược (dịch văn bản sang ngôn ngữ khác và ngược lại) và chèn/xóa từ ngẫu nhiên có thể tăng cường dữ liệu văn bản.
Tầm quan trọng và lợi ích
Tăng cường dữ liệu là một phần cơ bản của quy trình làm việc ML vì một số lý do:
- Cải thiện khả năng khái quát hóa mô hình: Bằng cách đưa mô hình vào nhiều ví dụ đa dạng hơn, việc tăng cường giúp mô hình học được các mẫu cơ bản thay vì ghi nhớ các ví dụ đào tạo cụ thể, dẫn đến hiệu suất tốt hơn trên dữ liệu mới.
- Giảm quá mức : Quá mức xảy ra khi một mô hình hoạt động tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu chưa biết. Tăng cường hoạt động như một kỹ thuật chính quy hóa , khiến mô hình khó phù hợp hơn với tập dữ liệu gốc hạn chế.
- Tăng cường độ tin cậy: Các mô hình được đào tạo bằng dữ liệu tăng cường thường có khả năng phục hồi tốt hơn trước những thay đổi về đầu vào, chẳng hạn như thay đổi về ánh sáng, góc nhìn, tỷ lệ hoặc che khuất một phần.
- Giảm nhu cầu thu thập dữ liệu: Cho phép các nhà phát triển đạt được kết quả tốt hơn với các tập dữ liệu ban đầu nhỏ hơn, tiết kiệm thời gian và tài nguyên liên quan đến việc thu thập và dán nhãn dữ liệu. Tìm thêm mẹo đào tạo mô hình trong tài liệu của chúng tôi.
Kỹ thuật và Công cụ
Việc triển khai tăng cường dữ liệu được hỗ trợ bởi nhiều thư viện và khuôn khổ khác nhau. Đối với các tác vụ thị giác máy tính, một số công cụ phổ biến bao gồm:
Ultralytics các mô hình kết hợp một số kỹ thuật tăng cường tích hợp hiệu quả trong quá trình đào tạo . Người dùng có thể quản lý tập dữ liệu của mình và tận dụng các tính năng này thông qua các nền tảng như Ultralytics HUB .
Ứng dụng trong thế giới thực
Việc tăng cường dữ liệu được áp dụng rộng rãi trên nhiều lĩnh vực AI:
- AI trong chăm sóc sức khỏe : Trong phân tích hình ảnh y tế, chẳng hạn như phát hiện khối u trong quá trình quét , các tập dữ liệu thường bị hạn chế do lo ngại về quyền riêng tư và sự hiếm gặp của một số tình trạng nhất định. Các kỹ thuật tăng cường như xoay, điều chỉnh tỷ lệ và độ sáng tạo ra các ví dụ đào tạo đa dạng, giúp các mô hình phát hiện các bất thường một cách đáng tin cậy bất chấp sự thay đổi trong thiết bị hình ảnh hoặc vị trí của bệnh nhân. Điều này cải thiện độ chính xác chẩn đoán của các hệ thống phân tích hình ảnh y tế .
- AI cho ô tô : Phát triển hệ thống phát hiện vật thể mạnh mẽ cho xe tự hành đòi hỏi dữ liệu đào tạo bao gồm nhiều tình huống lái xe khác nhau. Tăng cường mô phỏng các điều kiện thời tiết khác nhau (ví dụ: thêm mưa tổng hợp hoặc sương mù), các biến thể ánh sáng (ngày, đêm, bình minh/hoàng hôn) và che khuất (ví dụ: người đi bộ hoặc phương tiện bị che khuất một phần), giúp hệ thống nhận thức đáng tin cậy hơn trong môi trường thực tế không thể đoán trước.
- AI trong Nông nghiệp : Đối với các nhiệm vụ như phát hiện bệnh cây trồng hoặc đếm quả, công nghệ tăng cường có thể mô phỏng sự thay đổi về ánh sáng do thời tiết hoặc thời gian trong ngày, các giai đoạn tăng trưởng khác nhau hoặc góc camera từ máy bay không người lái hoặc rô-bốt mặt đất, mang lại các giải pháp nông nghiệp chính xác hơn.
- AI trong sản xuất : Trong kiểm soát chất lượng, việc tăng cường có thể tạo ra những thay đổi về hướng sản phẩm, ánh sáng và các khuyết tật nhỏ để đào tạo các mô hình nhằm phát hiện bất thường đáng tin cậy hơn trên dây chuyền sản xuất.
Tăng cường dữ liệu so với dữ liệu tổng hợp
Mặc dù cả việc tăng cường dữ liệu và tạo dữ liệu tổng hợp đều nhằm mục đích nâng cao bộ dữ liệu đào tạo, nhưng chúng có sự khác biệt cơ bản:
- Tăng cường dữ liệu: Sửa đổi dữ liệu thực tế hiện có thông qua các phép biến đổi. Nó làm tăng sự thay đổi xung quanh các điểm dữ liệu quan sát được nhưng nhìn chung không đưa ra các kịch bản hoàn toàn mới không được thể hiện trong dữ liệu gốc.
- Dữ liệu tổng hợp: Bao gồm việc tạo dữ liệu nhân tạo hoàn toàn mới từ đầu, thường sử dụng mô phỏng, đồ họa máy tính hoặc mô hình tạo sinh như Mạng đối nghịch tạo sinh (GAN) hoặc mô hình khuếch tán . Dữ liệu tổng hợp có thể biểu diễn các tình huống hiếm hoặc không thể nắm bắt được trong thế giới thực, có khả năng lấp đầy những khoảng trống mà việc tăng cường không thể giải quyết được.
Trên thực tế, tăng cường dữ liệu thường dễ triển khai hơn và rẻ hơn về mặt tính toán so với việc tạo dữ liệu tổng hợp có độ trung thực cao. Cả hai kỹ thuật đều có giá trị và đôi khi chúng được sử dụng kết hợp để tạo ra các tập dữ liệu đào tạo đa dạng và mạnh mẽ cho các ứng dụng AI đòi hỏi khắt khe.