Tìm hiểu cách ước tính tư thế hoạt động, các ứng dụng thực tế của nó và cách các mô hình như Ultralytics YOLO11 cho phép máy móc diễn giải chuyển động và tư thế của cơ thể.
Khi bạn thấy ai đó khom lưng hoặc đứng thẳng với vai hướng ra sau, bạn có thể thấy ngay họ có tư thế xấu hay tự tin. Không ai cần phải giải thích cho bạn. Đó là vì theo thời gian, chúng ta đã học cách diễn giải ngôn ngữ cơ thể một cách tự nhiên.
Thông qua kinh nghiệm và quan sát, bộ não của chúng ta đã trở nên rất giỏi trong việc nhận dạng tư thế của nhiều vật thể khác nhau, bao gồm cả con người. Nhờ những tiến bộ gần đây trong trí tuệ nhân tạo (AI) và thị giác máy tính , một lĩnh vực cho phép máy móc diễn giải thông tin trực quan từ thế giới, máy móc hiện đang bắt đầu học và sao chép khả năng này.
Pose estimate là một nhiệm vụ thị giác máy tính giúp máy móc xác định vị trí và hướng của một người hoặc vật thể bằng cách xem hình ảnh hoặc video. Nó thực hiện điều này bằng cách xác định các điểm chính trên cơ thể, như khớp và chân tay, để hiểu cách một người hoặc thậm chí một vật gì đó đang di chuyển.
Công nghệ này đang được sử dụng rộng rãi trong các lĩnh vực như thể dục, chăm sóc sức khỏe và hoạt hình. Ví dụ, trong môi trường làm việc, công nghệ này có thể được sử dụng để theo dõi tư thế của nhân viên và hỗ trợ các sáng kiến về an toàn và sức khỏe. Các mô hình thị giác máy tính như Ultralytics YOLO11 giúp điều này trở nên khả thi bằng cách ước tính tư thế của con người theo thời gian thực.
Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về ước tính tư thế và cách thức hoạt động của nó, cùng với các trường hợp sử dụng thực tế mà nó tạo ra sự khác biệt. Hãy bắt đầu nào!
Nghiên cứu về ước tính tư thế bắt đầu vào cuối những năm 1960 và 1970. Trong những năm qua, các phương pháp tiếp cận nhiệm vụ thị giác máy tính này đã chuyển từ toán học và hình học cơ bản sang các phương pháp tiên tiến hơn do trí tuệ nhân tạo thúc đẩy.
Ban đầu, các kỹ thuật phụ thuộc vào góc máy ảnh cố định và các điểm tham chiếu đã biết. Sau đó, chúng phát triển để bao gồm các mô hình 3D và khớp tính năng. Ngày nay, các mô hình học sâu như YOLO11 có thể phát hiện vị trí cơ thể theo thời gian thực từ hình ảnh hoặc video, giúp ước tính tư thế nhanh hơn và chính xác hơn bao giờ hết.
Khi công nghệ được cải thiện, các nhà nghiên cứu đã thấy được các ứng dụng tiềm năng của khả năng giám sát và theo dõi tư thế của nhiều đối tượng khác nhau, đặc biệt là con người và động vật. Ước tính tư thế đặc biệt quan trọng vì nó cho phép các công cụ AI hiểu và đo lường tư thế và chuyển động theo những cách mà trước đây không thể thực hiện được.
Ví dụ, nó cho phép máy tính nhận dạng cử chỉ để tương tác rảnh tay, phân tích chuyển động của vận động viên để cải thiện hiệu suất, hỗ trợ hoạt ảnh chân thực trong trò chơi điện tử và thậm chí hỗ trợ chăm sóc sức khỏe bằng cách theo dõi quá trình phục hồi của bệnh nhân.
Ước tính tư thế khác với các tác vụ thị giác máy tính khác như phát hiện đối tượng và phân đoạn thể hiện. Các tác vụ này tập trung chủ yếu vào việc xác định và định vị các đối tượng trong hình ảnh.
Ví dụ, phát hiện đối tượng sẽ vẽ các hộp giới hạn xung quanh các mục như người, phương tiện hoặc động vật để chỉ ra sự hiện diện và vị trí của chúng. Phân đoạn thể hiện đưa điều này tiến xa hơn một bước bằng cách phác thảo hình dạng chính xác của từng đối tượng ở cấp độ pixel.
Tuy nhiên, cả hai phương pháp này chủ yếu quan tâm đến việc đối tượng là gì và nó ở đâu - chúng không cung cấp bất kỳ thông tin nào về cách đối tượng được định vị hoặc nó có thể đang làm gì. Đó là nơi ước tính tư thế trở nên quan trọng.
Bằng cách xác định các điểm chính trên cơ thể, chẳng hạn như khuỷu tay, đầu gối hoặc thậm chí là đuôi, ước tính tư thế có thể diễn giải tư thế và chuyển động. Điều này cho phép hiểu sâu hơn về hành động, cử chỉ và động lực cơ thể, bao gồm chuyển động trong không gian 3D.
Các mô hình ước tính tư thế thường theo hai cách tiếp cận chính: từ dưới lên và từ trên xuống. Trong cách tiếp cận từ dưới lên, trước tiên mô hình phát hiện các điểm chính riêng lẻ, như khuỷu tay, đầu gối hoặc vai, sau đó nhóm chúng lại để tìm ra chúng thuộc về người hoặc vật nào. Ngược lại, cách tiếp cận từ trên xuống bắt đầu bằng cách phát hiện từng vật thể trước (chẳng hạn như một người trong hình ảnh) và sau đó xác định vị trí các điểm chính cho vật thể cụ thể đó.
Một số mô hình mới hơn, chẳng hạn như YOLO11 , kết hợp lợi ích của cả hai phương pháp. Nó duy trì hiệu quả của phương pháp từ dưới lên bằng cách bỏ qua bước nhóm thủ công, đồng thời tận dụng độ chính xác của các hệ thống từ trên xuống bằng cách phát hiện mọi người và ước tính tư thế của họ cùng một lúc - trong một quy trình hợp lý, duy nhất.
Khi chúng ta tìm hiểu cách các mô hình ước tính tư thế hoạt động, bạn có thể tự hỏi: các mô hình này thực sự học cách ước tính tư thế của các đối tượng khác nhau như thế nào? Đó chính là lúc ý tưởng về đào tạo tùy chỉnh xuất hiện.
Đào tạo tùy chỉnh có nghĩa là dạy một mô hình nhận ra các điểm chính cụ thể bằng dữ liệu của riêng bạn. Vì việc xây dựng một mô hình từ đầu đòi hỏi một lượng lớn hình ảnh được gắn nhãn và thời gian đáng kể, nhiều người lựa chọn học chuyển giao. Điều này liên quan đến việc bắt đầu với một mô hình đã được đào tạo trên một tập dữ liệu lớn, chẳng hạn như YOLO11 mô hình ước tính tư thế, được đào tạo trước trên tập dữ liệu COCO-Pose , sau đó tinh chỉnh nó bằng dữ liệu của riêng bạn cho một nhiệm vụ hoặc trường hợp sử dụng cụ thể.
Giả sử bạn đang tập các tư thế yoga - bạn có thể tinh chỉnh YOLO11 sử dụng hình ảnh trong đó mỗi tư thế được gắn nhãn với các điểm chính cụ thể cho hoạt động đó. Để thực hiện điều này, bạn sẽ cần một tập dữ liệu tùy chỉnh gồm các hình ảnh có chú thích mà mô hình có thể học được.
Trong quá trình đào tạo, bạn có thể điều chỉnh các thiết lập như kích thước lô (số lượng hình ảnh được xử lý cùng một lúc), tốc độ học (tốc độ mô hình cập nhật quá trình học của mình) và kỷ nguyên (số lần mô hình lặp lại tập dữ liệu) để cải thiện độ chính xác. Điều này giúp việc xây dựng các mô hình ước tính tư thế phù hợp với nhu cầu cụ thể của bạn dễ dàng hơn nhiều.
Bây giờ chúng ta đã thảo luận về ước tính tư thế là gì và nó hoạt động như thế nào, hãy cùng xem xét kỹ hơn một số trường hợp sử dụng thực tế của nó.
Ước tính tư thế đang dần trở thành một công cụ đáng tin cậy trong ngành chăm sóc sức khỏe, đặc biệt là trong vật lý trị liệu. Sử dụng AI và thị giác máy tính, các hệ thống này có thể theo dõi tư thế và chuyển động theo thời gian thực và cung cấp phản hồi, tương tự như những gì một nhà vật lý trị liệu sẽ cung cấp.
Ví dụ, một bệnh nhân đang hồi phục sau phẫu thuật đầu gối có thể sử dụng hệ thống ước tính tư thế để đảm bảo họ đang thực hiện các bài tập phục hồi chức năng đúng cách. Hệ thống có thể phát hiện bất kỳ chuyển động nào không chính xác và đưa ra các gợi ý để cải thiện, giúp bệnh nhân đi đúng hướng và tránh chấn thương.
Ngoài phục hồi chức năng, ước tính tư thế cũng đang được đưa vào các ứng dụng thể dục . Ví dụ, một người tập luyện tại nhà có thể sử dụng ứng dụng để kiểm tra tư thế của họ trong khi tập luyện. Ứng dụng có thể cung cấp phản hồi theo thời gian thực, chẳng hạn như điều chỉnh góc ngồi xổm hoặc đảm bảo lưng thẳng trong khi nâng tạ. Điều này giúp người dùng cải thiện tư thế và ngăn ngừa chấn thương mà không cần đến huấn luyện viên.
Ước tính tư thế đã thay đổi cách hoạt động của công nghệ chụp chuyển động trong giải trí, khiến nó trở nên đơn giản và dễ tiếp cận hơn. Trước đây, chụp chuyển động đòi hỏi phải đặt các điểm đánh dấu trên cơ thể một người và theo dõi chúng bằng các camera đặc biệt, điều này có thể phức tạp và tốn kém.
Hiện nay, với những tiến bộ trong AI và thị giác máy tính, chúng ta có thể sử dụng camera và thuật toán thông thường để theo dõi chuyển động cơ thể mà không cần điểm đánh dấu, giúp quá trình này hiệu quả và chính xác hơn, ngay cả theo thời gian thực.
Một ví dụ tuyệt vời về điều này là Disney's AR (Augmented Reality) Poser . Công cụ thú vị này cho phép bạn chụp ảnh bằng điện thoại và để một nhân vật kỹ thuật số sao chép tư thế của bạn trong thực tế tăng cường. Nó hoạt động bằng cách phân tích tư thế của bạn trong ảnh và khớp với nhân vật 3D, tạo ra một bức ảnh tự sướng AR vui nhộn, được cá nhân hóa.
Nghiên cứu hành vi động vật giúp các nhà khoa học hiểu cách động vật giao tiếp, tìm bạn tình, chăm sóc con non và sống theo nhóm. Kiến thức này rất quan trọng để bảo vệ động vật hoang dã và hiểu sâu hơn về thế giới tự nhiên.
Ước tính tư thế đơn giản hóa quá trình này bằng cách theo dõi chuyển động và tư thế của động vật bằng hình ảnh và video, mà không cần gắn cảm biến hoặc thẻ vào động vật. Các hệ thống này có thể tự động theo dõi tư thế của chúng, cung cấp thông tin chi tiết về các hành vi như chải chuốt, chơi đùa hoặc chiến đấu.
Một ví dụ thú vị về điều này là các nhà khoa học sử dụng ước tính tư thế để nghiên cứu hành vi của loài vượn . Trên thực tế, các nhà nghiên cứu đã biên soạn các tập dữ liệu như OpenApePose, chứa hơn 71.000 hình ảnh được gắn nhãn từ sáu loài vượn.
Sau đây là một số lợi ích chính mà ước tính tư thế có thể mang lại cho nhiều ngành công nghiệp khác nhau:
Mặc dù lợi thế của việc ước tính tư thế rất rõ ràng trong nhiều lĩnh vực, nhưng cũng có một số thách thức cần cân nhắc. Sau đây là một số hạn chế chính cần lưu ý:
Việc ước tính tư thế đã có một chặng đường dài từ những ngày đầu, phát triển từ các hệ thống sử dụng các điểm đánh dấu thành các công cụ có tác động được thúc đẩy bởi các mô hình học sâu như YOLO11 . Cho dù đó là cải thiện vật lý trị liệu, cung cấp năng lượng cho trải nghiệm AR tương tác hay hỗ trợ nghiên cứu động vật hoang dã, ước tính tư thế đang thay đổi cách máy móc hiểu chuyển động và tư thế. Khi công nghệ tiếp tục phát triển, việc giải quyết các hạn chế của nó sẽ là chìa khóa để mở ra nhiều ứng dụng thực tế hơn và giúp máy móc hiểu rõ hơn về cách chúng ta và các sinh vật sống khác di chuyển.
Bạn có tò mò về AI không? Hãy khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về các cải tiến như AI trong bán lẻ và thị giác máy tính trong ngành hậu cần trên các trang giải pháp của chúng tôi.
Bắt đầu hành trình của bạn với tương lai của machine learning