Google TurboQuant ลด KV Cache เหลือ 3-bit ประหยัด Memory ได้ถึง 6 เท่า เปิดเผยที่ ICLR 2026

KEEP_DARK

19/04/2026

Google TurboQuant ลด KV Cache เหลือ 3-bit ประหยัด Memory ได้ถึง 6 เท่า เปิดเผยที่ ICLR 2026

ทีมวิจัยของ Google DeepMind เผยผลงาน TurboQuant ในการประชุม ICLR 2026 (International Conference on Learning Representations) เทคนิค Quantization ที่สามารถลด KV Cache ของ Large Language Models (LLMs) จาก 16-bit เหลือเพียง 3-bit โดยไม่สูญเสียความแม่นยำอย่างมีนัยสำคัญ

KV Cache คืออะไร และทำไมถึงสำคัญ

เมื่อ LLM ประมวลผล Context ยาวๆ เช่น เอกสาร 100 หน้าหรือการสนทนาต่อเนื่อง โมเดลจำเป็นต้องเก็บ Key-Value (KV) Cache ไว้ใน GPU Memory เพื่อหลีกเลี่ยงการคำนวณซ้ำ ปัญหาคือ KV Cache มีขนาดใหญ่มาก ทำให้ Context Window ที่ยาวมากขึ้นต้องใช้ VRAM มหาศาล ซึ่งเป็นอุปสรรคหลักในการ Inference LLM ขนาดใหญ่

TurboQuant แก้ปัญหานี้อย่างไร

TurboQuant ใช้เทคนิค Adaptive Mixed-Precision Quantization ที่วิเคราะห์ความสำคัญของแต่ละ Attention Head แบบ Dynamic และจัดสรร Precision ที่ต่างกัน — Head สำคัญใช้ 4-bit, Head รองลงมาใช้ 3-bit, และ Head ที่ส่งผลน้อยที่สุดใช้เพียง 2-bit — ผลลัพธ์คือ Memory ลดลง 6 เท่า โดยที่คะแนน Benchmark ลดลงน้อยกว่า 0.5%

ผลกระทบในทางปฏิบัติ

ด้วย TurboQuant นักพัฒนาสามารถรัน Llama 3 70B บน GPU ขนาด 24GB ได้แล้ว (ที่ต้องการ 80GB เดิม) หรือเพิ่ม Context Window ของ Gemini 1.5 Pro จาก 1 ล้าน Token เป็น 6 ล้าน Token บน Hardware เดิม ซึ่งเปิดประตูสู่การวิเคราะห์เอกสารและ Codebase ขนาดใหญ่มากในราคาที่ประหยัดขึ้นมาก

Open Source หรือไม่

Google วางแผนปล่อย TurboQuant เป็น Open Source ผ่าน GitHub และจะรวมเข้าใน vLLM และ TensorRT-LLM ในอนาคตอันใกล้ คาดว่าชุมชนนักพัฒนาจะนำไปใช้ประโยชน์ได้ภายในไตรมาส 2 ปี 2026

ที่มา: ICLR 2026 / The Register / IEEE Spectrum