Tối ưu hóa các mô hình học sâu với TensorRT để suy luận nhanh hơn, hiệu quả hơn NVIDIA GPU. Đạt được hiệu suất thời gian thực với YOLO và ứng dụng AI.
TensorRT là trình tối ưu hóa suy luận Deep Learning (DL) hiệu suất cao và thư viện thời gian chạy được NVIDIA phát triển. Nó được thiết kế đặc biệt để tối đa hóa thông lượng suy luận và giảm thiểu độ trễ suy luận cho các ứng dụng học sâu chạy trên GPU NVIDIA . TensorRT lấy các mô hình mạng nơ-ron đã được đào tạo từ nhiều khuôn khổ khác nhau và áp dụng nhiều tối ưu hóa để tạo ra một công cụ thời gian chạy được tối ưu hóa cao để triển khai. Quy trình này rất quan trọng để triển khai các mô hình hiệu quả trong môi trường sản xuất, đặc biệt là khi tốc độ và khả năng phản hồi là yếu tố quan trọng.
TensorRT đạt được những cải tiến hiệu suất đáng kể thông qua một số kỹ thuật tinh vi:
Quy trình làm việc thường bao gồm việc lấy một mô hình đã được đào tạo (ví dụ, từ PyTorch hoặc TensorFlow , thường thông qua một định dạng trung gian như ONNX ) và đưa nó vào TensorRT trình tối ưu hóa. TensorRT phân tích mô hình, thực hiện tối ưu hóa đồ thị và tối ưu hóa mục tiêu cụ thể dựa trên độ chính xác và mục tiêu đã chỉ định GPU và cuối cùng tạo ra một kế hoạch suy luận được tối ưu hóa, được gọi là TensorRT engine. Tệp engine này sau đó có thể được triển khai để suy luận nhanh.
TensorRT có liên quan cao đến giai đoạn triển khai mô hình của vòng đời học máy . Khả năng tăng tốc đáng kể suy luận của nó làm cho nó trở nên không thể thiếu đối với các ứng dụng yêu cầu suy luận thời gian thực , chẳng hạn như phát hiện đối tượng với các mô hình như Ultralytics YOLO , phân đoạn hình ảnh và xử lý ngôn ngữ tự nhiên. Nó là một thành phần quan trọng trong NVIDIA phần mềm, cùng với các công cụ như CUDA , cho phép các nhà phát triển tận dụng toàn bộ tiềm năng của NVIDIA phần cứng, từ GPU trung tâm dữ liệu mạnh mẽ đến các mô-đun NVIDIA Jetson tiết kiệm năng lượng cho Edge AI . Ultralytics cung cấp khả năng tích hợp liền mạch, cho phép người dùng xuất các mô hình YOLO sang định dạng TensorRT để triển khai tối ưu, thường được sử dụng với các nền tảng như Triton Inference Server .
TensorRT được sử dụng rộng rãi trong nhiều ngành công nghiệp khác nhau, nơi cần suy luận AI nhanh chóng và hiệu quả:
Trong khi TensorRT tập trung vào việc tối ưu hóa suy luận cụ thể cho NVIDIA GPU và các công cụ khác hiện hữu trong hệ sinh thái:
TensorRT Điểm khác biệt chính của 'là sự tích hợp sâu sắc với NVIDIA phần cứng và các chiến lược tối ưu hóa mạnh mẽ của nó được thiết kế riêng cho GPU, thường mang lại điểm chuẩn hiệu suất cao nhất (xem Điểm chuẩn MLPerf ) trên NVIDIA nền tảng so với thời gian chạy mục đích chung hơn. Quản lý mô hình và triển khai có thể được sắp xếp hợp lý bằng cách sử dụng các nền tảng như Ultralytics HUB .