Hacker News

MiniMax M2.5 dirilis: 80,2% di SWE-bench Terverifikasi

MiniMax M2.5 dirilis: 80,2% di SWE-bench Terverifikasi Analisis komprehensif minimax ini menawarkan pemeriksaan mendetail tentang intinya — Mewayz Business OS.

4 min baca

Mewayz Team

Editorial Team

Hacker News

MiniMax M2.5 Dirilis: 80,2% di bangku SWE Terverifikasi

MiniMax M2.5 adalah model bahasa besar terbaru dari MiniMax, yang mencapai skor mengesankan 80,2% di SWE-bench Verified — salah satu tolok ukur paling ketat untuk mengevaluasi kemampuan rekayasa perangkat lunak dunia nyata dalam AI. Pencapaian ini menempatkan MiniMax M2.5 di antara model pengkodean papan atas secara global, menandakan lompatan besar dalam pengembangan yang dibantu AI dan penyelesaian masalah secara otonom.

Apa yang Diverifikasi SWE-bench dan Mengapa 80,2% Penting?

SWE-bench Verified adalah tolok ukur standar industri yang menguji model AI pada masalah GitHub nyata yang bersumber dari repositori sumber terbuka populer. Tidak seperti tolok ukur sintetis, SWE-bench Verified mengharuskan model untuk memahami basis kode yang ada, mengidentifikasi bug, dan mengirimkan patch yang berfungsi — tugas yang mencerminkan apa yang dilakukan insinyur perangkat lunak profesional setiap hari.

Skor 80,2% berarti MiniMax M2.5 berhasil menyelesaikan lebih dari empat dari lima masalah rekayasa perangkat lunak yang terverifikasi. Untuk konteksnya, sebagian besar model yang dirilis pada tahun 2024 kesulitan menembus ambang batas 50%. Mencapai 80,2% menunjukkan bahwa MiniMax M2.5 tidak hanya menghasilkan kode yang tampak masuk akal — tetapi juga memecahkan masalah pada tingkat yang menyaingi insinyur manusia yang terampil dalam banyak skenario.

“Skor 80,2% pada SWE-bench Verified bukan sekadar kemenangan dalam benchmark — ini mewakili perubahan mendasar dalam hal yang dapat diberikan oleh AI secara andal bagi tim perangkat lunak, beralih dari asisten yang suka membantu menjadi kontributor mandiri yang cakap.”

Apa Mekanisme Inti dibalik Performa MiniMax M2.5?

Hasil benchmark MiniMax M2.5 yang luar biasa disebabkan oleh beberapa kemajuan arsitektur dan pelatihan yang bekerja bersama-sama:

Pemahaman konteks yang diperluas: Model ini memproses basis kode yang besar secara holistik, mempertahankan penalaran yang koheren di ribuan baris kode tanpa kehilangan jejak ketergantungan atau cakupan variabel.

Ketepatan yang mengikuti instruksi: M2.5 menunjukkan keselarasan yang unggul antara niat pengguna dan keluaran yang dihasilkan, mengurangi halusinasi yang mengganggu model yang lebih kecil selama tugas debugging multi-langkah.

💡 TAHUKAH ANDA?

Mewayz menggantikan 8+ alat bisnis dalam satu platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Paket gratis tersedia selamanya.

Mulai Gratis →

Pembelajaran penguatan dari umpan balik eksekusi: Daripada belajar murni dari data preferensi manusia, M2.5 menggabungkan umpan balik dari hasil eksekusi kode aktual, yang mendasarkan pengetahuannya pada hasil empiris.

Penggunaan alat dan penalaran agen: Model dapat secara mandiri memanggil alat pencarian, menjalankan pengujian, dan mengulangi solusi — meniru alur kerja pengembang sebenarnya yang menangani masalah GitHub.

Generalisasi lintas repositori: M2.5 dilatih untuk beradaptasi dengan struktur proyek yang tidak dikenal, sehingga praktis untuk penerapan di dunia nyata dibandingkan domain sempit yang sudah terlihat sebelumnya.

Bagaimana MiniMax M2.5 Dibandingkan dengan Model AI Terkemuka Lainnya?

Lanskap persaingan untuk model AI yang berfokus pada pengkodean telah meningkat dengan cepat. OpenAI, Anthropic, Google DeepMind, dan sekarang MiniMax semuanya berlomba untuk mendemonstrasikan utilitas teknik yang sebenarnya. Meskipun GPT-4o dan Claude 3.5 Sonnet telah membukukan skor SWE-bench yang kompetitif, hasil 80,2% dari MiniMax M2.5 menempatkannya di antara model tingkat elit yang mampu melakukan perbaikan kode secara otonom.

Yang membedakan pendekatan MiniMax adalah kombinasi kinerja dan aksesibilitas. Banyak model berperforma terbaik memiliki biaya komputasi yang signifikan atau terkunci di balik API khusus perusahaan. MiniMax M2.5 diposisikan untuk menawarkan bantuan pengkodean AI berkemampuan tinggi kepada khalayak pengembang yang lebih luas, yang berpotensi mendemokratisasi akses ke dukungan rekayasa perangkat lunak tingkat agen.

Implikasinya di dunia nyata sangatlah signifikan: tim pengembangan yang sebelumnya mengandalkan teknisi senior untuk melakukan triase dan menambal bug yang kompleks kini dapat meningkatkan proses tersebut dengan model AI yang telah terbukti efektif dalam tugas-tugas perwakilan produksi yang terverifikasi.

Apa Pertimbangan Implementasi di Dunia Nyata untuk Tim yang Mengadopsi M2.5?

Skor benchmark yang tinggi memang menarik, namun penerapan praktisnya memerlukan pertimbangan yang cermat. Organisasi yang mengintegrasikan MiniMax M2.5 ke dalam pengembangannya

Streamline Your Business with Mewayz

Mewayz brings 207 business modules into one platform — CRM, invoicing, project management, and more. Join 138,000+ users who simplified their workflow.

Start Free Today →

Coba Mewayz Gratis

Platform all-in-one untuk CRM, penagihan, proyek, HR & lainnya. Tidak perlu kartu kredit.

Mulai kelola bisnis Anda dengan lebih pintar hari ini.

Bergabung dengan 30,000+ bisnis. Paket gratis selamanya · Tidak perlu kartu kredit.

Apakah ini berguna? Bagikan itu.

Siap mempraktikkan ini?

Bergabunglah dengan 30,000+ bisnis yang menggunakan Mewayz. Paket gratis selamanya — tidak perlu kartu kredit.

Mulai Uji Coba Gratis →

Siap mengambil tindakan?

Mulai uji coba gratis Mewayz Anda hari ini

Platform bisnis semua-dalam-satu. Tidak perlu kartu kredit.

Mulai Gratis →

Uji coba gratis 14 hari · Tanpa kartu kredit · Batal kapan saja