Thuật ngữ

Dữ liệu tổng hợp

Mở khóa sức mạnh của dữ liệu tổng hợp cho AI/ML! Khắc phục tình trạng khan hiếm dữ liệu, các vấn đề về quyền riêng tư và chi phí trong khi thúc đẩy đào tạo và đổi mới mô hình.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Dữ liệu tổng hợp đề cập đến thông tin được tạo ra một cách nhân tạo mô phỏng các thuộc tính thống kê của dữ liệu thế giới thực, thay vì được thu thập trực tiếp từ các sự kiện hoặc phép đo thực tế. Trong lĩnh vực Trí tuệ nhân tạo (AI)Học máy (ML) , dữ liệu tổng hợp đóng vai trò là phương án thay thế hoặc bổ sung quan trọng cho dữ liệu đào tạo thực tế. Nó đặc biệt có giá trị khi việc thu thập đủ dữ liệu thế giới thực là khó khăn, tốn kém, mất thời gian ( Hướng dẫn thu thập và chú thích dữ liệu ) hoặc làm dấy lên mối lo ngại về quyền riêng tư dữ liệu . Thông tin được tạo ra một cách nhân tạo này giúp đào tạo các mô hình như Ultralytics YOLO , kiểm tra các hệ thống và khám phá các tình huống có thể hiếm hoặc nguy hiểm trong thực tế, cuối cùng thúc đẩy sự đổi mới và hiệu suất của mô hình.

Dữ liệu tổng hợp được tạo ra như thế nào

Việc tạo dữ liệu tổng hợp sử dụng nhiều kỹ thuật khác nhau, tùy thuộc vào độ phức tạp và độ trung thực cần thiết. Một số cách tiếp cận phổ biến bao gồm:

  • Mô hình thống kê: Sử dụng các phương pháp thống kê như lấy mẫu từ phân phối xác suất hoặc mô hình hồi quy có nguồn gốc từ dữ liệu thực.
  • Mô phỏng: Tạo môi trường ảo hoặc quy trình để tạo dữ liệu. Điều này phổ biến trong robot và hệ thống tự động, sử dụng các nền tảng như NVIDIA Omniverse hoặc Unity Simulation .
  • Mô hình học sâu: Sử dụng các kỹ thuật học sâu (DL) , đặc biệt là Mạng đối nghịch tạo sinh (GAN) và gần đây hơn là Mô hình khuếch tán . Các mô hình này học các mẫu cơ bản của dữ liệu thực và tạo ra các điểm dữ liệu mới, tương tự. Bài báo GAN ban đầu đã giới thiệu một khái niệm cơ bản trong lĩnh vực này.

Tầm quan trọng trong AI và thị giác máy tính

Dữ liệu tổng hợp mang lại một số lợi thế đáng kể cho sự phát triển AI và thị giác máy tính :

  • Khắc phục tình trạng khan hiếm dữ liệu: Cung cấp khối lượng lớn dữ liệu khi dữ liệu thực tế bị hạn chế hoặc tốn kém để thu thập, hỗ trợ đào tạo các mô hình mạnh mẽ ( Mẹo đào tạo mô hình ).
  • Nâng cao quyền riêng tư dữ liệu: Tạo dữ liệu lưu giữ các thuộc tính thống kê mà không chứa thông tin nhạy cảm trong thế giới thực, giúp tuân thủ các quy định về quyền riêng tư và cho phép các kỹ thuật như Quyền riêng tư khác biệt .
  • Giảm thiểu sự thiên vị: Có thể được kiểm soát cẩn thận để giảm thiểu hoặc tăng cường sự đại diện của các nhóm hoặc tình huống chưa được đại diện đầy đủ, giúp giải quyết sự thiên vị trong tập dữ liệu và thúc đẩy sự công bằng trong AI .
  • Bao gồm các trường hợp ngoại lệ: Cho phép tạo dữ liệu biểu diễn các tình huống hiếm gặp hoặc nguy hiểm (ví dụ: tai nạn cho xe tự hành, tình trạng bệnh hiếm gặp) khó nắm bắt trong thực tế. Điều này cải thiện khả năng khái quát hóa mô hình.
  • Hiệu quả về chi phí và thời gian: Thường rẻ hơn và nhanh hơn so với việc thu thập và dán nhãn dữ liệu thực tế ( Giải thích về dán nhãn dữ liệu ).

Trong thị giác máy tính, hình ảnh tổng hợp thường được sử dụng để đào tạo các mô hình cho các nhiệm vụ như phát hiện đối tượng , phân đoạn hình ảnhước tính tư thế trong nhiều điều kiện khác nhau (ví dụ: ánh sáng, thời tiết, góc nhìn khác nhau) mà có thể khó tìm thấy trong các tập dữ liệu có sẵn.

Ứng dụng trong thế giới thực

Dữ liệu tổng hợp được áp dụng trong nhiều ngành công nghiệp:

  • AI trong ô tô : Các mô hình đào tạo cho xe tự lái đòi hỏi lượng lớn dữ liệu lái xe đa dạng. Các mô phỏng, như môi trường mô phỏng của Waymo , tạo ra các kịch bản tổng hợp bao gồm các sự kiện hiếm gặp như tai nạn hoặc điều kiện đường xá bất thường, rất quan trọng để thử nghiệm an toàn mà không có rủi ro trong thế giới thực. Điều này đẩy nhanh quá trình phát triển các hệ thống tự động đáng tin cậy.
  • AI trong chăm sóc sức khỏe : Phát triển các mô hình AI để phân tích hình ảnh y tế , chẳng hạn như phát hiện khối u , thường gặp phải những thách thức do các quy định về quyền riêng tư của bệnh nhân (như HIPAA ) và sự khan hiếm dữ liệu được gắn nhãn cho các bệnh hiếm gặp. Hình ảnh y tế tổng hợp hoặc hồ sơ bệnh nhân (ví dụ, được tạo bằng các công cụ như Synthea ) cho phép các nhà nghiên cứu đào tạo các mô hình mà không ảnh hưởng đến quyền riêng tư, dân chủ hóa quyền truy cập vào dữ liệu.

Các ứng dụng khác bao gồm mô hình tài chính ( AI trong Tài chính ), bán lẻ ( AI cho Bán lẻ Thông minh hơn ) và đào tạo robot .

Dữ liệu tổng hợp so với dữ liệu tăng cường

Mặc dù cả dữ liệu tổng hợp và dữ liệu tăng cường đều nhằm mục đích nâng cao bộ dữ liệu, nhưng chúng là những khái niệm riêng biệt:

  • Tăng cường dữ liệu: Bao gồm việc áp dụng các phép biến đổi (như xoay, cắt, thay đổi màu) vào các điểm dữ liệu thực tế hiện có để tạo ra các phiên bản được sửa đổi đôi chút. Nó làm tăng tính đa dạng của tập dữ liệu đào tạo dựa trên phân phối dữ liệu gốc. Ultralytics các mô hình thường kết hợp các phần tăng cường tích hợp ( Tích hợp Albumentations ).
  • Dữ liệu tổng hợp: Chỉ dữ liệu hoàn toàn mới được tạo ra một cách nhân tạo, thường sử dụng mô phỏng hoặc mô hình tạo như GAN . Dữ liệu này không nhất thiết phải bắt đầu từ một điểm dữ liệu thực cụ thể và có thể biểu diễn các tình huống hoàn toàn không có trong tập dữ liệu gốc.

Về bản chất, việc tăng cường dữ liệu mở rộng sự khác biệt xung quanh dữ liệu hiện có, trong khi dữ liệu tổng hợp có thể tạo ra các điểm dữ liệu và kịch bản hoàn toàn mới, cung cấp một cách mạnh mẽ để bổ sung hoặc thậm chí thay thế dữ liệu thực trong quá trình đào tạo mô hình AI được quản lý thông qua các nền tảng như Ultralytics HUB .

Đọc tất cả
OSZAR »