MiniMax M2.5 dirilis: 80,2% di SWE-bench Terverifikasi
MiniMax M2.5 dirilis: 80,2% di SWE-bench Terverifikasi Analisis komprehensif minimax ini menawarkan pemeriksaan mendetail tentang intinya — Mewayz Business OS.
Mewayz Team
Editorial Team
MiniMax M2.5 Dirilis: 80,2% di bangku SWE Terverifikasi
MiniMax M2.5 adalah model bahasa besar terbaru dari MiniMax, yang mencapai skor mengesankan 80,2% di SWE-bench Verified — salah satu tolok ukur paling ketat untuk mengevaluasi kemampuan rekayasa perangkat lunak dunia nyata dalam AI. Pencapaian ini menempatkan MiniMax M2.5 di antara model pengkodean papan atas secara global, menandakan lompatan besar dalam pengembangan yang dibantu AI dan penyelesaian masalah secara otonom.
Apa yang Diverifikasi SWE-bench dan Mengapa 80,2% Penting?
SWE-bench Verified adalah tolok ukur standar industri yang menguji model AI pada masalah GitHub nyata yang bersumber dari repositori sumber terbuka populer. Tidak seperti tolok ukur sintetis, SWE-bench Verified mengharuskan model untuk memahami basis kode yang ada, mengidentifikasi bug, dan mengirimkan patch yang berfungsi — tugas yang mencerminkan apa yang dilakukan insinyur perangkat lunak profesional setiap hari.
Skor 80,2% berarti MiniMax M2.5 berhasil menyelesaikan lebih dari empat dari lima masalah rekayasa perangkat lunak yang terverifikasi. Untuk konteksnya, sebagian besar model yang dirilis pada tahun 2024 kesulitan menembus ambang batas 50%. Mencapai 80,2% menunjukkan bahwa MiniMax M2.5 tidak hanya menghasilkan kode yang tampak masuk akal — tetapi juga memecahkan masalah pada tingkat yang menyaingi insinyur manusia yang terampil dalam banyak skenario.
“Skor 80,2% pada SWE-bench Verified bukan sekadar kemenangan dalam benchmark — ini mewakili perubahan mendasar dalam hal yang dapat diberikan oleh AI secara andal bagi tim perangkat lunak, beralih dari asisten yang suka membantu menjadi kontributor mandiri yang cakap.”
Apa Mekanisme Inti dibalik Performa MiniMax M2.5?
Hasil benchmark MiniMax M2.5 yang luar biasa disebabkan oleh beberapa kemajuan arsitektur dan pelatihan yang bekerja bersama-sama:
Pemahaman konteks yang diperluas: Model ini memproses basis kode yang besar secara holistik, mempertahankan penalaran yang koheren di ribuan baris kode tanpa kehilangan jejak ketergantungan atau cakupan variabel.
Ketepatan yang mengikuti instruksi: M2.5 menunjukkan keselarasan yang unggul antara niat pengguna dan keluaran yang dihasilkan, mengurangi halusinasi yang mengganggu model yang lebih kecil selama tugas debugging multi-langkah.
💡 TAHUKAH ANDA?
Mewayz menggantikan 8+ alat bisnis dalam satu platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Paket gratis tersedia selamanya.
Mulai Gratis →Pembelajaran penguatan dari umpan balik eksekusi: Daripada belajar murni dari data preferensi manusia, M2.5 menggabungkan umpan balik dari hasil eksekusi kode aktual, yang mendasarkan pengetahuannya pada hasil empiris.
Penggunaan alat dan penalaran agen: Model dapat secara mandiri memanggil alat pencarian, menjalankan pengujian, dan mengulangi solusi — meniru alur kerja pengembang sebenarnya yang menangani masalah GitHub.
Generalisasi lintas repositori: M2.5 dilatih untuk beradaptasi dengan struktur proyek yang tidak dikenal, sehingga praktis untuk penerapan di dunia nyata dibandingkan domain sempit yang sudah terlihat sebelumnya.
Bagaimana MiniMax M2.5 Dibandingkan dengan Model AI Terkemuka Lainnya?
Lanskap persaingan untuk model AI yang berfokus pada pengkodean telah meningkat dengan cepat. OpenAI, Anthropic, Google DeepMind, dan sekarang MiniMax semuanya berlomba untuk mendemonstrasikan utilitas teknik yang sebenarnya. Meskipun GPT-4o dan Claude 3.5 Sonnet telah membukukan skor SWE-bench yang kompetitif, hasil 80,2% dari MiniMax M2.5 menempatkannya di antara model tingkat elit yang mampu melakukan perbaikan kode secara otonom.
Yang membedakan pendekatan MiniMax adalah kombinasi kinerja dan aksesibilitas. Banyak model berperforma terbaik memiliki biaya komputasi yang signifikan atau terkunci di balik API khusus perusahaan. MiniMax M2.5 diposisikan untuk menawarkan bantuan pengkodean AI berkemampuan tinggi kepada khalayak pengembang yang lebih luas, yang berpotensi mendemokratisasi akses ke dukungan rekayasa perangkat lunak tingkat agen.
Implikasinya di dunia nyata sangatlah signifikan: tim pengembangan yang sebelumnya mengandalkan teknisi senior untuk melakukan triase dan menambal bug yang kompleks kini dapat meningkatkan proses tersebut dengan model AI yang telah terbukti efektif dalam tugas-tugas perwakilan produksi yang terverifikasi.
Apa Pertimbangan Implementasi di Dunia Nyata untuk Tim yang Mengadopsi M2.5?
Skor benchmark yang tinggi memang menarik, namun penerapan praktisnya memerlukan pertimbangan yang cermat. Organisasi yang mengintegrasikan MiniMax M2.5 ke dalam pengembangannya
Streamline Your Business with Mewayz
Mewayz brings 207 business modules into one platform — CRM, invoicing, project management, and more. Join 138,000+ users who simplified their workflow.
Start Free Today →Related Posts
- CXMT telah menawarkan chip DDR4 dengan harga sekitar setengah dari harga pasar yang berlaku
- Saya memberi Claude akses ke plotter pena saya
- Apa yang harus diketahui oleh setiap penulis kompiler tentang programmer (2015) [pdf]
- FDA mengatakan perusahaan dapat mengklaim "tidak ada pewarna buatan" jika mereka menggunakan pewarna alami
Coba Mewayz Gratis
Platform all-in-one untuk CRM, penagihan, proyek, HR & lainnya. Tidak perlu kartu kredit.
Dapatkan lebih banyak artikel seperti ini
Kiat bisnis mingguan dan pembaruan produk. Gratis selamanya.
Anda berlangganan!
Mulai kelola bisnis Anda dengan lebih pintar hari ini.
Bergabung dengan 30,000+ bisnis. Paket gratis selamanya · Tidak perlu kartu kredit.
Siap mempraktikkan ini?
Bergabunglah dengan 30,000+ bisnis yang menggunakan Mewayz. Paket gratis selamanya — tidak perlu kartu kredit.
Mulai Uji Coba Gratis →Artikel terkait
Hacker News
Bagaimana Big Diaper menyerap miliaran dolar ekstra dari orang tua di Amerika
Mar 8, 2026
Hacker News
Apple baru mulai bermunculan
Mar 8, 2026
Hacker News
Claude kesulitan mengatasi eksodus ChatGPT
Mar 8, 2026
Hacker News
Perubahan tujuan AGI dan garis waktu
Mar 8, 2026
Hacker News
Pengaturan Homelab Saya
Mar 8, 2026
Hacker News
Tampilkan HN: Skir – seperti Protocol Buffer tetapi lebih baik
Mar 8, 2026
Siap mengambil tindakan?
Mulai uji coba gratis Mewayz Anda hari ini
Platform bisnis semua-dalam-satu. Tidak perlu kartu kredit.
Mulai Gratis →Uji coba gratis 14 hari · Tanpa kartu kredit · Batal kapan saja