Không cần tới phần cứng, NVIDIA "buff" hiệu năng DeepSeek-R1 lên 2,7 lần chỉ nhờ tối ưu phần mềm

NVIDIA vừa công bố kết quả tham gia MLPerf Inference v6.0, khẳng định vị trí dẫn đầu trong lĩnh vực suy luận AI với nền tảng Blackwell Ultra. Theo bài đăng mới nhất từ công ty, số lần chiến thắng trong hạng mục huấn luyện (training wins) của NVIDIA cao hơn đơn vị đứng gần nhất tới chín lần, phản ánh khoảng cách hạ tầng đáng kể mà hãng đang duy trì. MLPerf Inference v6.0 được MLCommons cập nhật với nhiều mô hình mới, bao gồm DeepSeek-R1, GPT-OSS-120B và Mixtral 8x7B. GenK Do Choi So hiện là lớp nguồn chính của câu chuyện, và phần còn lại cần được đọc như một tín hiệu đang tiếp tục mở rộng. Ở mảng thiết bị, phần đáng đọc luôn nằm ở chỗ một thay đổi kỹ thuật có thực sự chạm vào cảm giác dùng máy, tuổi thọ, hay chi phí nâng cấp hay không.

Điều đang xảy ra

Các nguồn đang khớp nhau ở đâu

GenK Do Choi So hiện là lớp nguồn chính của câu chuyện, và phần còn lại cần được đọc như một tín hiệu đang tiếp tục mở rộng. MLPerf Inference v6.0 được MLCommons cập nhật với nhiều mô hình mới, bao gồm DeepSeek-R1, GPT-OSS-120B và Mixtral 8x7B. Phiên bản này cũng mở rộng phạm vi kiểm tra sang các mô hình ngôn ngữ lớn dạng dày đặc (dense LLM), mô hình kết hợp thị giác và ngôn ngữ, cùng hệ thống gợi ý sinh tạo, phản ánh đa dạng khối lượng công việc trong môi trường doanh nghiệp hiện nay. CEO Jensen Huang từng gọi MLPerf là bộ kiểm tra "khắt khe" nhất hiện có. NVIDIA vừa công bố kết quả tham gia MLPerf Inference v6.0, khẳng định vị trí dẫn đầu trong lĩnh vực suy luận AI với nền tảng Blackwell Ultra.

Chi tiết đáng giữ lại

MLPerf Inference v6.0 được MLCommons cập nhật với nhiều mô hình mới, bao gồm DeepSeek-R1, GPT-OSS-120B và Mixtral 8x7B. Phiên bản này cũng mở rộng phạm vi kiểm tra sang các mô hình ngôn ngữ lớn dạng dày đặc (dense LLM), mô hình kết hợp thị giác và ngôn ngữ, cùng hệ thống gợi ý sinh tạo, phản ánh đa dạng khối lượng công việc trong môi trường doanh nghiệp hiện nay. CEO Jensen Huang từng gọi MLPerf là bộ kiểm tra "khắt khe" nhất hiện có. Kết quả của GB300 NVL72 trong v6.0 cho thấy mức cải thiện rõ rệt so với v5.1: với DeepSeek-R1 ở chế độ Server đạt 8.064 token/giây/GPU, tăng 2,77 lần so với 2.907 token/giây/GPU trước đó; ở chế độ Offline đạt 9.821 token/giây/GPU, tăng 1,68 lần. Với Llama 3.1 405B, chế độ Server ghi nhận 259 token/giây/GPU (tăng 1,52 lần), chế độ Offline đạt 271 token/giây/GPU (tăng 1,21 lần). Ở mảng thiết bị, phần đáng đọc luôn nằm ở chỗ một thay đổi kỹ thuật có thực sự chạm vào cảm giác dùng máy, tuổi thọ, hay chi phí nâng cấp hay không.

Điểm đáng chú ý nhất

Tín hiệu hiện đủ đậm để không nên lướt qua, nhưng vẫn cần đọc nó với tâm thế theo dõi thêm thay vì đóng khung quá sớm. Với 1 lớp nguồn hiện có, phần nên đọc kỹ nhất là đoạn giao nhau giữa dữ kiện chắc chắn và cách thị trường đang phản ứng sớm với nó. Theo bài đăng mới nhất từ công ty, số lần chiến thắng trong hạng mục huấn luyện (training wins) của NVIDIA cao hơn đơn vị đứng gần nhất tới chín lần, phản ánh khoảng cách hạ tầng đáng kể mà hãng đang duy trì.

Điều cần theo dõi tiếp

Điều nên giữ trong tầm mắt là giá bán, độ phủ thiết bị và cảm giác dùng thật khi thay đổi này tới tay người dùng. Patrick Tech Media sẽ tiếp tục đối chiếu rollout, phản ứng người dùng và cách GenK Do Choi So cập nhật thêm các mảnh ghép kế tiếp. Ở vòng tổng hợp này, bài viết được kéo từ 1 tín hiệu và chốt lại còn 1 nguồn tham chiếu thật sự hữu ích cho người đọc.