Protokol Coral Mengungguli Microsoft Sebanyak 34% Dengan Benchmark GAIA Teratas Untuk Mini-Model AI

Secara Singkat

Sistem multi-agen Coral Protocol mengungguli Magnetic-UI yang didukung Microsoft sebesar 34% pada GAIA Benchmark, menunjukkan bahwa orkestra cerdas dari model-model kecil dapat bersaing atau melampaui pendekatan AI skala besar tradisional.

Protokol Coral Menetapkan Tolak Ukur Baru Untuk Sistem AI Mini-Agent, Melampaui Microsoft Sebesar 34% Pada Uji GAIA

Infrastruktur terdesentralisasi untuk AI kolaboratif, Coral Protocol melaporkan bahwa sistem multi-agennya melampaui Magnetic-UI yang didukung Microsoft sebesar 34% pada GAIA Benchmark—hasil yang belum pernah terjadi sebelumnya yang menunjukkan bahwa penskalaan horizontal mungkin menawarkan pendekatan yang lebih efektif daripada memperbesar parameter model. Sistem protokol ini memanfaatkan orkestrasi cerdas di berbagai agen, daripada hanya fokus pada peningkatan ukuran model.

Penampilan ini menandai skor terverifikasi tertinggi pada GAIA Benchmark menggunakan agen mini, mendukung premis NVIDIA bahwa model kecil yang terkoordinasi dengan baik dapat memainkan peran kunci di masa depan AI. Hasilnya, menurut pengembang Coral, mencerminkan pergeseran konseptual dalam pendekatan terhadap skalabilitas AI daripada peningkatan murni dalam kekuatan sistem.

Sebagai protokol terbuka, Coral memfasilitasi ekspansi kemampuan AI dengan memungkinkan koordinasi antara agen-agen khusus secara global, alih-alih bergantung pada model umum terpusat. Arsitekturnya memungkinkan interaksi paralel dan aman di antara agen, meningkatkan fungsionalitas model bahasa dari semua ukuran dalam tugas yang memerlukan penalaran, perencanaan, dan pemecahan masalah yang canggih.

“Terobosan ini menandai titik balik dalam infrastruktur AI,” kata CTO Coral Caelum Forder dalam sebuah pernyataan tertulis. “Ini adalah bukti bahwa skala horizontal tidak hanya mungkin—tetapi praktis, dan Coral adalah cara paling efektif untuk melakukannya. Internet of Agents sekarang adalah kenyataan yang berfungsi. Jika Anda seorang pengembang agen, cukup Coralise saja. Jika Anda seorang pengembang aplikasi, bangunlah dengan lebih baik dengan biaya lebih rendah menggunakan infrastruktur kami,” tambahnya.

Coral Tops GAIA Benchmark, Memvalidasi Kekuatan Model Kecil Dalam Sistem Agensif Tingkat Lanjut

Di tengah meningkatnya persaingan untuk mengembangkan sistem agen canggih, banyak fokus tetap pada peningkatan model untuk mengelola kompleksitas tugas yang semakin meningkat. Tantangan kinerja Coral baru-baru ini mengguncang pendekatan yang berlaku, sejalan dengan temuan dari studi NVIDIA baru-baru ini yang menunjukkan bahwa sistem yang lebih kecil dapat memberikan kinerja tinggi tanpa mengorbankan kecepatan, keamanan, atau efisiensi. GAIA Benchmark, sebuah suite evaluasi komprehensif untuk AI canggih, dirancang untuk menilai seberapa baik sistem menangani tugas dunia nyata yang biasanya membutuhkan waktu dan keterampilan substansial dari para ahli manusia. Terdiri dari 450 prompt kompleks yang menguji kemampuan riset, analitis, dan penalaran, benchmark ini berfungsi sebagai metrik industri kunci untuk mengevaluasi efektivitas model bahasa besar serbaguna (LLM).

Sistem GAIA Agent milik Coral, yang digunakan dalam uji coba acuan, didasarkan pada Protokol Coral dan mengacu pada prinsip desain OWL milik CAMEL. Ini menggabungkan agen-agen khusus untuk melaksanakan berbagai tugas termasuk penelitian, analisis, kritik, perencanaan, dan navigasi web, semuanya berkomunikasi melalui infrastruktur server MCP milik Coral.

Memimpin peringkat GAIA Benchmark untuk model-model yang lebih kecil menunjukkan potensi Coral untuk memperluas fungsionalitas sistem AI melalui struktur berbasis grafik. Hasil ini menunjukkan bahwa agen yang berkinerja tinggi dan ringan dapat dibuat menggunakan model-model yang lebih kecil—memfasilitasi penanganan data yang lebih luas, integrasi ekosistem yang lebih lancar, dan komunikasi antar agen yang lebih baik.

"Peran model kecil dalam sistem agensi hingga saat ini telah kurang dihargai, tetapi arus mulai berubah," kata Caelum Forder. "Kami telah membuktikan bahwa model semacam itu dapat berkembang melampaui batas yang sebelumnya diketahui dan mengungguli para pendatang lama. Saya yakin mereka memiliki peran sentral dalam masa depan AI agensi," ia menyimpulkan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)