Hacker News

การผลิตเป็นชุดต่อเนื่องตั้งแต่หลักการแรก (2025)

การผลิตเป็นชุดต่อเนื่องตั้งแต่หลักการแรก (2025) การวิเคราะห์ที่ครอบคลุมของข้อเสนออย่างต่อเนื่องนี้มีการตรวจสอบโดยละเอียดของระบบปฏิบัติการคอร์ — Mewayz Business OS

1 นาทีอ่าน

Mewayz Team

Editorial Team

Hacker News

การแบ่งกลุ่มอย่างต่อเนื่องจากหลักการแรก (2025)

การแบทช์แบบต่อเนื่องเป็นเทคนิคการตั้งเวลาการอนุมานแบบไดนามิกที่เพิ่มปริมาณงานของฮาร์ดแวร์ให้สูงสุดโดยการแทรกคำขอใหม่ลงในแบทช์การประมวลผลที่ใช้งานอยู่ทันทีที่ช่องว่างเพิ่มขึ้น ซึ่งช่วยขจัดวงจรการคำนวณที่ไม่ได้ใช้งานระหว่างงาน การทำความเข้าใจจากหลักการแรกๆ เผยให้เห็นว่าเหตุใดจึงกลายเป็นสถาปัตยกรรมพื้นฐานสำหรับระบบการให้บริการ AI ประสิทธิภาพสูงทุกระบบที่ใช้งานในปี 2568

อะไรคือสาเหตุที่ทำให้การแบตช์แบบต่อเนื่องเกิดขึ้น และเหตุใดการแบทช์แบบคงที่จึงล้มเหลว

หากต้องการชื่นชมการแบทช์อย่างต่อเนื่อง คุณต้องทำความเข้าใจก่อนว่าสิ่งใดมาแทนที่ การจัดกลุ่มสแตติกแบบเดิมจะจัดกลุ่มคำขอในจำนวนคงที่ไว้ด้วยกัน ประมวลผลเป็นหน่วยเดียว และยอมรับเฉพาะคำขอใหม่หลังจากเสร็จสิ้นทั้งแบทช์แล้วเท่านั้น ข้อบกพร่องที่สำคัญคือโมเดลภาษาขนาดใหญ่สร้างโทเค็นที่มีความยาวผันแปรได้ คำขอหนึ่งอาจยุติลงหลังจากโทเค็น 20 อัน ในขณะที่คำขออีกอันในชุดเดียวกันจะทำงานที่ 2,000 GPU ทุกตัวในคลัสเตอร์ไม่ได้ใช้งานเพื่อรอลำดับที่ยาวที่สุดให้เสร็จสิ้นก่อนที่จะเริ่มงานใหม่ได้

การแบ่งกลุ่มอย่างต่อเนื่อง ซึ่งบุกเบิกในรายงานสำคัญปี 2022 เรื่อง "Orca: A Distributed Serving System for Transformer-Based Generative Models" ทำลายข้อจำกัดนี้โดยสิ้นเชิง มันทำงานในระดับการวนซ้ำมากกว่าระดับคำขอ หลังจากที่ส่งต่อโมเดลทุกครั้ง ตัวกำหนดเวลาจะตรวจสอบว่าลำดับใดถึงโทเค็นจุดสิ้นสุดของลำดับแล้วหรือไม่ หากมี ช่องนั้นจะถูกเรียกคืนทันทีและกำหนดให้กับคำขอที่อยู่ในคิว — ไม่ต้องรอ ไม่ต้องเสียเปล่า องค์ประกอบของแบทช์จะเปลี่ยนไปอย่างลื่นไหลในทุกขั้นตอนการถอดรหัส ทำให้การใช้งานฮาร์ดแวร์ใกล้เคียงกับค่าสูงสุดทางทฤษฎีตลอดเวลา

แคช KV โต้ตอบกับชุดต่อเนื่องในระดับระบบอย่างไร

แคชคีย์-ค่าคือโครงสร้างหน่วยความจำที่ทำให้การอนุมานของหม้อแปลงสามารถดำเนินการได้ สำหรับทุกโทเค็นที่ประมวลผล โมเดลจะคำนวณคีย์ความสนใจและค่าที่ต้องเก็บไว้ ดังนั้นโทเค็นที่ตามมาจะไม่ทำการคำนวณซ้ำซ้อน ในระบบแบตช์แบบคงที่ การจัดสรรแคช KV ตรงไปตรงมา: สำรองหน่วยความจำตามสัดส่วนกับความยาวลำดับสูงสุดสำหรับทุกคำขอในชุดงาน

💡 คุณรู้หรือไม่?

Mewayz ทดแทนเครื่องมือธุรกิจ 8+ รายการในแพลตฟอร์มเดียว

CRM · การออกใบแจ้งหนี้ · HR · โปรเจกต์ · การจอง · อีคอมเมิร์ซ · POS · การวิเคราะห์ แผนฟรีใช้ได้ตลอดไป

เริ่มฟรี →

การแบ่งกลุ่มอย่างต่อเนื่องจะทำให้สิ่งนี้ซับซ้อนอย่างหรูหรา เนื่องจากการร้องขอเข้าและออกจากแบตช์ในเวลาที่คาดเดาไม่ได้ ระบบจึงไม่สามารถจัดสรรบล็อกหน่วยความจำที่อยู่ติดกันคงที่ล่วงหน้าได้ นี่คือสาเหตุที่แน่ชัดว่าเหตุใด PagedAttention ของ vLLM ซึ่งเปิดตัวในปี 2023 จึงแยกออกจากการรวมกลุ่มอย่างต่อเนื่องในการใช้งานจริงได้ PagedAttention ยืมโมเดลการเพจหน่วยความจำเสมือนจากระบบปฏิบัติการ โดยแบ่งแคช KV ออกเป็นบล็อกที่มีขนาดเท่ากันซึ่งไม่ต่อเนื่องกัน หน้าแคชของลำดับสามารถกระจัดกระจายไปทั่วหน่วยความจำ GPU เช่นเดียวกับที่หน้าหน่วยความจำเสมือนกระจัดกระจายไปตาม RAM จริง ผลลัพธ์ที่ได้คือการสูญเสียหน่วยความจำเกือบเป็นศูนย์จากการกระจายตัว ซึ่งแปลโดยตรงเป็นขนาดแบตช์ที่สูงขึ้นและปริมาณงานที่สูงขึ้น โดยไม่ต้องลงทุนฮาร์ดแวร์เพิ่มเติม

กลไกการจัดกำหนดการหลักที่ทำให้การทำงานเป็นชุดต่อเนื่องมีอะไรบ้าง

การตัดสินใจกำหนดเวลาที่ขึ้นอยู่กับแต่ละระบบจะควบคุมทุกระบบการจัดชุดต่อเนื่อง:

นโยบายการจองล่วงหน้า: เมื่อแรงกดดันของหน่วยความจำสูงและคำขอที่มีลำดับความสำคัญสูงใหม่มาถึง ผู้จัดกำหนดการจะต้องตัดสินใจว่าจะจองลำดับที่มีลำดับความสำคัญต่ำที่ทำงานอยู่หรือไม่ สลับแคช KV เป็น CPU RAM หรือคำนวณใหม่ตั้งแต่ต้นในภายหลัง การขอใช้ Swap จะรักษาการคำนวณแต่ใช้แบนด์วิธ PCIe การคำนวณใหม่ทำให้วงจร GPU สิ้นเปลือง แต่ยังคงรักษาหน่วยความจำให้สะอาด

การควบคุมการรับเข้า: ผู้จัดกำหนดการจะต้องคาดการณ์ว่าแคช KV ของคำขอใหม่จะพอดีกับหน่วยความจำที่มีอยู่ตลอดอายุการใช้งานรุ่นเต็มหรือไม่ การประเมินค่าต่ำเกินไปทำให้หน่วยความจำไม่เพียงพอขัดข้องกลางลำดับ การประเมินค่าสูงเกินไปจะทำให้คิวอดอาหารโดยไม่จำเป็น ระบบสมัยใหม่ใช้การกระจายความยาวตามโปรไฟล์และบัฟเฟอร์การจองเพื่อปรับสมดุลความเสี่ยงเหล่านี้

การกรอกข้อมูลล่วงหน้าแบบเป็นก้อน: ขั้นตอนการกรอกข้อมูลล่วงหน้า — การประมวลผลพร้อมท์อินพุตของผู้ใช้ — มีขอบเขตในการคำนวณและสามารถผูกขาด GPU ได้ ซึ่งทำให้ขั้นตอนการถอดรหัสล่าช้าสำหรับลำดับที่กำลังทำงานอยู่ การกรอกล่วงหน้าแบบเป็นก้อนจะแยกข้อความแจ้งที่ยาวออกเป็นขนาดคงที่

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

ลองใช้ Mewayz ฟรี

แพลตฟอร์มแบบออล-อิน-วันสำหรับ CRM, การออกใบแจ้งหนี้, โครงการ, HR และอื่นๆ ไม่ต้องใช้บัตรเครดิต

เริ่มจัดการธุรกิจของคุณอย่างชาญฉลาดวันนี้

เข้าร่วมธุรกิจ 30,000+ ราย แผนฟรีตลอดไป · ไม่ต้องใช้บัตรเครดิต

พบว่าสิ่งนี้มีประโยชน์หรือไม่? แบ่งปันมัน

พร้อมนำไปปฏิบัติแล้วหรือยัง?

เข้าร่วมธุรกิจ 30,000+ รายที่ใช้ Mewayz แผนฟรีตลอดไป — ไม่ต้องใช้บัตรเครดิต

เริ่มต้นทดลองใช้ฟรี →

พร้อมที่จะลงมือทำหรือยัง?

เริ่มต้นทดลองใช้ Mewayz ฟรีวันนี้

แพลตฟอร์มธุรกิจแบบครบวงจร ไม่ต้องใช้บัตรเครดิต

เริ่มฟรี →

ทดลองใช้ฟรี 14 วัน · ไม่ต้องใช้บัตรเครดิต · ยกเลิกได้ทุกเมื่อ