Hacker News

Pengelompokan berkelanjutan dari prinsip pertama (2025)

Pengelompokan berkelanjutan dari prinsip pertama (2025) Analisis komprehensif berkelanjutan ini menawarkan pemeriksaan mendetail tentang kor - Mewayz Business OS.

4 min baca

Mewayz Team

Editorial Team

Hacker News

Batching Berkelanjutan dari Prinsip Pertama (2025)

Pengelompokan berkelanjutan adalah teknik penjadwalan inferensi dinamis yang memaksimalkan throughput perangkat keras dengan memasukkan permintaan baru ke dalam kumpulan pemrosesan aktif saat slot kosong, menghilangkan siklus komputasi menganggur antar pekerjaan. Memahaminya dari awal akan mengungkap mengapa hal ini telah menjadi arsitektur dasar untuk setiap sistem layanan AI berkinerja tinggi yang diterapkan dalam skala besar pada tahun 2025.

Apa Sebenarnya Batching Berkelanjutan dan Mengapa Batching Statis Gagal?

Untuk mengapresiasi pengelompokan berkelanjutan, Anda harus terlebih dahulu memahami apa yang digantikannya. Pengelompokan batch statis tradisional mengelompokkan sejumlah permintaan secara bersamaan, memprosesnya sebagai satu unit, dan hanya menerima permintaan baru setelah seluruh batch selesai. Kelemahan kritisnya adalah model bahasa yang besar menghasilkan token dengan panjang yang bervariasi — satu permintaan mungkin berakhir setelah 20 token sementara permintaan lainnya dalam batch yang sama berjalan selama 2.000. Setiap GPU di cluster diam menunggu urutan terpanjang selesai sebelum pekerjaan baru dapat dimulai.

Pengelompokan berkelanjutan, yang dipelopori dalam makalah penting tahun 2022 "Orca: Sistem Penyajian Terdistribusi untuk Model Generatif Berbasis Transformer", mematahkan batasan ini sepenuhnya. Ini beroperasi pada tingkat iterasi daripada tingkat permintaan. Setelah setiap penerusan melewati model, penjadwal memeriksa apakah ada urutan yang telah mencapai token akhir urutannya. Jika ya, slot tersebut akan segera diambil kembali dan ditetapkan ke permintaan antrean — tanpa perlu menunggu, tanpa pemborosan. Komposisi batch berubah dengan lancar pada setiap langkah decode, menjaga pemanfaatan perangkat keras mendekati maksimum teoritis setiap saat.

Bagaimana Cache KV Berinteraksi dengan Batching Berkelanjutan di Tingkat Sistem?

Cache nilai kunci adalah struktur memori yang membuat inferensi transformator dapat dilakukan. Untuk setiap token yang diproses, model menghitung kunci perhatian dan nilai yang harus dipertahankan sehingga token berikutnya tidak mengulangi komputasi yang berlebihan. Dalam sistem batching statis, alokasi cache KV sangatlah mudah: cadangan memori sebanding dengan panjang urutan maksimum untuk setiap permintaan dalam batch.

💡 TAHUKAH ANDA?

Mewayz menggantikan 8+ alat bisnis dalam satu platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Paket gratis tersedia selamanya.

Mulai Gratis →

Pengelompokan berkelanjutan memperumit hal ini dengan elegan. Karena permintaan masuk dan keluar dari batch pada waktu yang tidak dapat diprediksi, sistem tidak dapat melakukan pra-alokasi blok memori tetap yang berdekatan. Inilah sebabnya mengapa PagedAttention vLLM — yang diperkenalkan pada tahun 2023 — menjadi tidak terpisahkan dari pengelompokan berkelanjutan dalam penerapan produksi. PagedAttention meminjam model paging memori virtual dari sistem operasi, membagi cache KV menjadi blok-blok yang tidak bersebelahan dengan ukuran yang sama. Halaman cache suatu urutan dapat tersebar di seluruh memori GPU seperti halnya halaman memori virtual tersebar di seluruh RAM fisik. Hasilnya adalah hampir nol pemborosan memori akibat fragmentasi, yang secara langsung berarti ukuran batch lebih tinggi dan throughput lebih tinggi tanpa investasi perangkat keras tambahan.

Apa Mekanisme Penjadwalan Inti yang Membuat Pengelompokan Berkelanjutan Berfungsi?

Tiga keputusan penjadwalan yang saling bergantung mengatur setiap sistem batching berkelanjutan:

Kebijakan pencegahan: Ketika tekanan memori tinggi dan permintaan prioritas tinggi baru tiba, penjadwal harus memutuskan apakah akan mendahului urutan prioritas rendah yang sedang berjalan, menukar cache KV-nya ke RAM CPU, atau menghitung ulang dari awal nanti. Preemption berbasis swap mempertahankan komputasi tetapi menghabiskan bandwidth PCIe; komputasi ulang membuang siklus GPU tetapi menjaga memori tetap bersih.

Kontrol penerimaan: Penjadwal harus memprediksi apakah cache KV permintaan baru akan sesuai dengan memori yang tersedia sepanjang masa pakai generasi penuh. Meremehkan penyebab kerusakan kehabisan memori di tengah urutan; melebih-lebihkan akan membuat antrian menjadi kelaparan jika tidak perlu. Sistem modern menggunakan distribusi panjang yang diprofilkan dan buffer reservasi untuk menyeimbangkan risiko ini.

Pra-pengisian yang terpotong: Fase pra-pengisian — memproses perintah masukan pengguna — terikat pada komputasi dan dapat memonopoli GPU, sehingga menunda langkah-langkah dekode untuk urutan yang sudah berjalan. Pra-pengisian yang terpotong membagi perintah yang panjang menjadi ukuran tetap

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Coba Mewayz Gratis

Platform all-in-one untuk CRM, penagihan, proyek, HR & lainnya. Tidak perlu kartu kredit.

Mulai kelola bisnis Anda dengan lebih pintar hari ini.

Bergabung dengan 30,000+ bisnis. Paket gratis selamanya · Tidak perlu kartu kredit.

Apakah ini berguna? Bagikan itu.

Siap mempraktikkan ini?

Bergabunglah dengan 30,000+ bisnis yang menggunakan Mewayz. Paket gratis selamanya — tidak perlu kartu kredit.

Mulai Uji Coba Gratis →

Siap mengambil tindakan?

Mulai uji coba gratis Mewayz Anda hari ini

Platform bisnis semua-dalam-satu. Tidak perlu kartu kredit.

Mulai Gratis →

Uji coba gratis 14 hari · Tanpa kartu kredit · Batal kapan saja