Google ra mắt thuật toán nén bộ nhớ AI, giảm 50% chi phí vận hành mô hình

AI & Dữ liệu lớn

Google ra mắt thuật toán nén bộ nhớ AI, giảm 50% chi phí vận hành mô hình

BBWV - Google ra mắt TurboQuant, thuật toán nén bộ nhớ giúp giảm tới sáu lần dung lượng và cắt giảm chi phí vận hành cho các mô hình trí tuệ nhân tạo.

Hình ảnh: Shutterstock

Tác giả: Minh Khoa

26 tháng 03, 2026 lúc 5:00 PM

Google Research vừa phát hành bộ thuật toán TurboQuant với khả năng giảm trung bình tới 6 lần lượng bộ nhớ cần thiết cho các mô hình trí tuệ nhân tạo, theo VentureBeat, qua đó có thể cắt giảm đáng kể chi phí vận hành mô hình AI. Giải pháp này nhanh chóng được giới công nghệ quan tâm nhờ khả năng nén dữ liệu gần như không làm giảm chất, giải quyết một trong những rào cản phần cứng lớn nhất của ngành công nghiệp AI hiện nay.

Khi các mô hình ngôn ngữ lớn (LLM) ngày càng mở rộng cửa sổ ngữ cảnh để xử lý những tài liệu đồ sộ và các cuộc hội thoại phức tạp, hệ thống phải đối mặt với một thực tế phần cứng khắc nghiệt mang tên điểm nghẽn bộ nhớ đệm Key-Value (KV cache). Mỗi từ ngữ mà mô hình xử lý đều phải được lưu trữ dưới dạng một vector đa chiều trong bộ nhớ tốc độ cao. Đối với các tác vụ văn bản dài, lượng dữ liệu tạm thời này tăng nhanh, tiêu thụ phần lớn dung lượng RAM video (VRAM) của bộ xử lý đồ họa (GPU) trong quá trình suy luận. Hệ quả tất yếu là hiệu suất của mô hình bị suy giảm nghiêm trọng theo thời gian, kéo theo chi phí vận hành tăng vọt đối với các tổ chức phát triển AI.

TurboQuant được giới thiệu như một giải pháp phần mềm giúp tối ưu hóa việc xử lý bộ nhớ KV cache thông qua phương pháp lượng tử hóa vector. Đây là kết quả của một quá trình nghiên cứu kéo dài nhiều năm bắt đầu từ năm 2024, dựa trên các khung toán học nền tảng như PolarQuant và Quantized Johnson-Lindenstrauss. Theo nhóm phát triển, TurboQuant có thể nén bộ nhớ KV mà không cần huấn luyện lại mô hình. Thử nghiệm ban đầu cho thấy công nghệ này thu gọn không gian lưu trữ trung bình xuống 6 lần và tăng tốc độ tính toán attention logits lên tới 8 lần. Điểm khác biệt cốt lõi của TurboQuant nằm ở khả năng thu nhỏ không gian làm việc của AI nhưng vẫn duy trì nguyên vẹn độ chính xác và trí thông minh của mô hình gốc.

Một số người dùng mạng xã hội ví TurboQuant với công nghệ nén dữ liệu trong phim Silicon Valley, gợi nhớ đến hình ảnh ‘Pied Piper’ nổi tiếng. Đây là tên một công ty khởi nghiệp hư cấu trong loạt phim truyền hình Silicon Valley của đài HBO, nổi tiếng với thuật toán nén tệp tin thu nhỏ kích thước dữ liệu mà không làm mất thông tin. Sự tương đồng giữa khả năng nén của TurboQuant và công nghệ hư cấu trong phim khiến cộng đồng mạng thích thú, thậm chí gắn cho thuật toán này điểm số Weismann giả định là 5.2 theo đúng kịch bản phim.

Việc Google quyết định cung cấp miễn phí các thuật toán nền tảng và tài liệu nghiên cứu liên quan cho công chúng, bao gồm cả mục đích sử dụng thương mại, mở ra một giai đoạn mới cho việc phổ cập AI. Bằng cách loại bỏ rào cản về chi phí phần cứng đắt đỏ, TurboQuant cho phép các doanh nghiệp triển khai những mô hình ngôn ngữ lớn phức tạp hơn trên cơ sở hạ tầng hiện có. Giải pháp này được kỳ vọng giúp các tổ chức cắt giảm hơn 50% chi phí vận hành mô hình, một con số có ý nghĩa lớn trong bối cảnh cuộc đua phát triển AI ngày càng tốn kém. TurboQuant có thể mở ra hướng tiếp cận mới trong quản lý bộ nhớ cho các mô hình AI quy mô lớn.

Theo phattrienxanh.baotainguyenmoitruong.vn

https://phattrienxanh.baotainguyenmoitruong.vn/google-ra-mat-thuat-toan-nen-bo-nho-ai-giam-50-chi-phi-van-hanh-mo-hinh-56874.html

#Giảm chi phí vận hành AI

#mô hình ngôn ngữ lớn

#VRAM GPU

#Tối ưu hóa bộ nhớ AI

#Bộ nhớ KV cache

#Phim Silicon Valley

BÀI LIÊN QUAN