Hacker News

Phân mẻ liên tục từ nguyên lý đầu tiên (2025)

Phân mẻ liên tục từ nguyên lý đầu tiên (2025) Phân tích toàn diện liên tục này cung cấp khả năng kiểm tra chi tiết về hệ điều hành kinh doanh Mewayz của nó.

9 đọc tối thiểu

Mewayz Team

Editorial Team

Hacker News

Phân đợt liên tục từ Nguyên tắc đầu tiên (2025)

Phân khối liên tục là một kỹ thuật lập lịch suy luận động giúp tối đa hóa thông lượng phần cứng bằng cách chèn các yêu cầu mới vào một lô xử lý đang hoạt động ngay khi một khe trống được giải phóng, loại bỏ các chu kỳ tính toán nhàn rỗi giữa các công việc. Hiểu nó từ những nguyên tắc đầu tiên sẽ tiết lộ lý do tại sao nó trở thành kiến trúc nền tảng cho mọi hệ thống phục vụ AI hiệu suất cao được triển khai trên quy mô lớn vào năm 2025.

Chính xác thì việc tạo khối liên tục là gì và tại sao việc tạo khối tĩnh lại thất bại?

Để đánh giá cao việc phân mẻ liên tục, trước tiên bạn phải hiểu những gì nó thay thế. Nhóm tĩnh truyền thống nhóm một số lượng yêu cầu cố định lại với nhau, xử lý chúng dưới dạng một đơn vị và chỉ chấp nhận các yêu cầu mới sau khi toàn bộ lô kết thúc. Lỗ hổng nghiêm trọng là các mô hình ngôn ngữ lớn tạo ra các mã thông báo có độ dài thay đổi - một yêu cầu có thể chấm dứt sau 20 mã thông báo trong khi một yêu cầu khác trong cùng một đợt chạy với giá 2.000. Mọi GPU trong cụm đều ở trạng thái chờ chờ chuỗi dài nhất hoàn thành trước khi bất kỳ công việc mới nào có thể bắt đầu.

Phân đợt liên tục, được tiên phong trong bài báo mang tính bước ngoặt năm 2022 "Orca: Hệ thống phục vụ phân tán cho các mô hình sáng tạo dựa trên máy biến áp", phá vỡ hoàn toàn hạn chế này. Nó hoạt động ở cấp độ lặp lại hơn là ở cấp độ yêu cầu. Sau mỗi lần chuyển tiếp qua mô hình, bộ lập lịch sẽ kiểm tra xem có bất kỳ chuỗi nào đã đạt đến mã thông báo cuối chuỗi hay không. Nếu có, vị trí đó ngay lập tức được lấy lại và gán cho yêu cầu xếp hàng đợi — không phải chờ đợi, không lãng phí. Thành phần hàng loạt thay đổi linh hoạt theo từng bước giải mã, luôn giữ mức sử dụng phần cứng gần mức tối đa theo lý thuyết.

Bộ đệm KV tương tác như thế nào với việc tạo khối liên tục ở cấp hệ thống?

Bộ nhớ đệm khóa-giá trị là cấu trúc bộ nhớ giúp cho việc suy luận của máy biến áp trở nên dễ điều khiển. Đối với mỗi mã thông báo được xử lý, mô hình sẽ tính toán các khóa và giá trị chú ý phải được giữ lại để các mã thông báo tiếp theo không lặp lại tính toán dư thừa. Trong hệ thống phân khối tĩnh, việc phân bổ bộ đệm KV rất đơn giản: dự trữ bộ nhớ tỷ lệ với độ dài chuỗi tối đa cho mọi yêu cầu trong lô.

💡 BẠN CÓ BIẾT?

Mewayz replaces 8+ business tools in one platform

CRM · Hóa đơn · Nhân sự · Dự án · Đặt chỗ · Thương mại điện tử · POS · Phân tích. Gói miễn phí vĩnh viễn có sẵn.

Bắt đầu miễn phí →

Việc phân đợt liên tục làm phức tạp điều này một cách tao nhã. Vì các yêu cầu vào và ra khỏi lô vào những thời điểm không thể đoán trước nên hệ thống không thể phân bổ trước các khối bộ nhớ liền kề cố định. Đây chính xác là lý do tại sao PagedAttention của vLLM — được giới thiệu vào năm 2023 — trở thành không thể tách rời khỏi việc phân đợt liên tục trong quá trình triển khai sản xuất. PagedAttention mượn mô hình phân trang bộ nhớ ảo từ hệ điều hành, chia bộ đệm KV thành các khối không liền kề có kích thước bằng nhau. Các trang bộ đệm của chuỗi có thể nằm rải rác trên bộ nhớ GPU giống như các trang bộ nhớ ảo nằm rải rác trên RAM vật lý. Kết quả là lãng phí bộ nhớ gần như bằng không do phân mảnh, điều này trực tiếp chuyển thành kích thước lô cao hơn và thông lượng cao hơn mà không cần đầu tư thêm phần cứng.

Cơ chế lập kế hoạch cốt lõi giúp thực hiện công việc phân đợt liên tục là gì?

Ba quyết định lập kế hoạch phụ thuộc lẫn nhau chi phối mọi hệ thống trộn liên tục:

Chính sách ưu tiên: Khi áp lực bộ nhớ cao và một yêu cầu có mức độ ưu tiên cao mới xuất hiện, bộ lập lịch phải quyết định xem có nên ưu tiên một chuỗi có mức độ ưu tiên thấp đang chạy hay không, hoán đổi bộ nhớ đệm KV của nó sang RAM CPU hay tính toán lại từ đầu sau đó. Quyền ưu tiên dựa trên trao đổi duy trì khả năng tính toán nhưng tiêu tốn băng thông PCIe; việc tính toán lại sẽ lãng phí chu kỳ GPU nhưng vẫn giữ cho bộ nhớ sạch sẽ.

Kiểm soát tiếp nhận: Bộ lập lịch phải dự đoán liệu bộ đệm KV của yêu cầu mới có phù hợp với bộ nhớ khả dụng trong toàn bộ vòng đời của nó hay không. Đánh giá thấp gây ra lỗi hết bộ nhớ ở giữa chuỗi; đánh giá quá cao sẽ làm hàng đợi bị bỏ đói một cách không cần thiết. Các hệ thống hiện đại sử dụng phân bố chiều dài được định hình và vùng đệm dự trữ để cân bằng những rủi ro này.

Điền trước theo khối: Giai đoạn điền trước — xử lý lời nhắc đầu vào của người dùng — bị ràng buộc về mặt tính toán và có thể độc quyền GPU, làm trì hoãn các bước giải mã cho các chuỗi đã chạy. Tính năng điền trước được chia nhỏ sẽ chia các lời nhắc dài thành kích thước cố định

Build Your Business OS Today

From freelancers to agencies, Mewayz powers 138,000+ businesses with 207 integrated modules. Start free, upgrade when you grow.

Create Free Account →

Dùng Thử Mewayz Miễn Phí

Nền tảng tất cả trong một cho CRM, hóa đơn, dự án, Nhân sự & hơn thế nữa. Không cần thẻ tín dụng.

Bắt đầu quản lý doanh nghiệp của bạn thông minh hơn ngay hôm nay.

Tham gia 30,000+ doanh nghiệp. Gói miễn phí vĩnh viễn · Không cần thẻ tín dụng.

Tìm thấy điều này hữu ích? Chia sẻ nó.

Sẵn sàng áp dụng vào thực tế?

Tham gia cùng 30,000+ doanh nghiệp đang sử dụng Mewayz. Gói miễn phí vĩnh viễn — không cần thẻ tín dụng.

Bắt đầu Dùng thử Miễn phí →

Sẵn sàng hành động?

Bắt đầu dùng thử Mewayz miễn phí của bạn ngay hôm nay

All-in-one business platform. No credit card required.

Bắt đầu miễn phí →

Dùng thử 14 ngày miễn phí · Không cần thẻ tín dụng · Hủy bất kỳ lúc nào