Nama: Microsoft Magma
Website/Sumber Utama: https://github.com/microsoft/Magma
Fungsi Utama: Model pondasi untuk agen AI multimodal yang dapat berinteraksi di lingkungan digital dan fisik.
Tipe: Proyek Open Source / Model AI
Cocok Untuk: Peneliti AI, pengembang robotika, dan peneliti pengalaman pengguna antar muka (UI)
Model Harga/Lisensi: Open Source (MIT License). Lihat Detail Lisensi
Highlight Utama: Kemampuan untuk memahami dan bertindak dalam lingkungan digital (navigasi UI) dan fisik (manipulasi robot) sekaligus.
Apa Itu Microsoft Magma?
Microsoft Magma adalah model pondasi AI multimodal pertama yang dirancang khusus untuk agen AI. Model ini tidak hanya memiliki kemampuan pemahaman bahasa-visual (vision-language) seperti model multimodal lainnya, tetapi juga dilengkapi dengan kemampuan untuk merencanakan dan bertindak dalam dunia visual-spasial. Magma menjembatani kecerdasan verbal, spasial, dan temporal untuk menangani tugas-tugas kompleks baik di lingkungan digital (seperti navigasi antarmuka pengguna) maupun lingkungan fisik (seperti manipulasi robotik).
Dikembangkan oleh Microsoft Research dan diterima di konferensi CVPR 2025, Magma dirancang untuk mentransfer pengetahuan dari data visual dan bahasa yang tersedia secara bebas ke dalam kemampuan yang dapat diterapkan di berbagai domain tugas.
Fitur Utama / Andalan
(Disimpulkan dari eksplorasi halaman fitur/dokumentasi)
Set-of-Mark (SoM) untuk Pendasaran Tindakan
- Deskripsi: Teknik yang memungkinkan model untuk mengidentifikasi dan menandai objek yang dapat diinteraksikan dalam gambar dengan angka numerik, seperti tombol yang dapat diklik di antarmuka pengguna atau bagian robot yang dapat digerakkan.
- Manfaat/Contoh: Memungkinkan navigasi UI yang efektif dengan mengidentifikasi tombol dan elemen yang dapat diklik secara akurat pada berbagai jenis antarmuka.
- Info Lebih Lanjut: Pelajari Lebih Lanjut
Trace-of-Mark (ToM) untuk Perencanaan Tindakan
- Deskripsi: Metode yang melatih model untuk memahami dinamika temporal video dan mengantisipasi keadaan masa depan sebelum bertindak, menggunakan jejak gerakan dari manipulasi robot atau tindakan manusia.
- Manfaat/Contoh: Meningkatkan kemampuan perencanaan tindakan, khususnya untuk tugas manipulasi robot dan pemahaman tindakan manusia dalam video instruksional.
- Info Lebih Lanjut: Pelajari Lebih Lanjut
Kemampuan Navigasi UI
- Deskripsi: Kemampuan untuk memahami layar antarmuka pengguna dan mengusulkan tindakan seperti mengklik tombol tertentu berdasarkan instruksi pengguna.
- Manfaat/Contoh: Dapat digunakan untuk navigasi web, aplikasi seluler, dan antarmuka pengguna lainnya, dengan kemampuan untuk menjalankan tugas seperti mencari cuaca atau mengirim pesan.
- Info Lebih Lanjut: Demo UI Navigation
Kemampuan Manipulasi Robot
- Deskripsi: Kemampuan untuk mengontrol lengan robot untuk melakukan tugas manipulasi fisik seperti mengambil, menempatkan, dan mendorong objek.
- Manfaat/Contoh: Dapat digunakan untuk mengontrol robot untuk mengambil benda seperti kaleng minuman, mendorong bungkus keripik, atau menempatkan objek di dalam wadah tertentu.
- Info Lebih Lanjut: Demo Robot Manipulation
Kelebihan (Pros)
(Disimpulkan dari berbagai halaman)
- Model tunggal yang menangani berbagai jenis tugas multimodal, baik di lingkungan digital maupun fisik.
- Performa state-of-the-art pada navigasi UI dan manipulasi robot, bahkan mengalahkan model-model yang dirancang khusus untuk tugas-tugas tersebut.
- Pendekatan pelatihan yang skalabel dengan memanfaatkan video tanpa label yang tersedia secara luas.
- Pemahaman spasial dan temporal yang kuat, memungkinkan penalaran yang lebih baik tentang objek dan tindakan dalam ruang.
- Tersedia sebagai open source dengan lisensi MIT, memungkinkan penggunaan dan pengembangan lebih lanjut oleh komunitas peneliti.
Kekurangan (Cons) / Batasan
(Disimpulkan dari eksplorasi)
- Masih menghadapi keterbatasan teknis dalam pengambilan keputusan langkah demi langkah yang kompleks yang memerlukan beberapa langkah dari waktu ke waktu.
- Saat ini hanya mendukung bahasa Inggris, dengan performa yang lebih buruk untuk bahasa lain.
- Seperti model AI lainnya, dapat menghasilkan konten yang tidak masuk akal atau membuat fakta yang terdengar masuk akal tetapi tidak akurat.
- Dirancang hanya untuk tujuan penelitian dan tidak dimaksudkan untuk digunakan dalam situasi produksi atau skenario berisiko tinggi.
Harga / Lisensi
(Dicari secara aktif dari tautan Pricing/License)
Model: Open Source
Lisensi: MIT License (Lihat File Lisensi)
Model ini dikembangkan dan didanai oleh Microsoft Research. Model ini dibagikan di bawah Lisensi MIT, yang memungkinkan penggunaan, modifikasi, dan distribusi ulang baik untuk tujuan komersial maupun non-komersial.
Contoh Penerapan & Observasi
(Berdasarkan dokumentasi, blog, use cases, komunitas)
- Navigasi Web: Dapat mengenali dan berinteraksi dengan elemen UI berbasis web untuk menyelesaikan tugas seperti mencari informasi cuaca atau mengaktifkan mode penerbangan.
- Manipulasi Robot: Dapat mengontrol lengan robot untuk mengambil dan menempatkan objek, serta mendorong objek lunak ke arah tertentu.
- Agen Game: Dapat mengontrol karakter dalam game 2D untuk mengumpulkan objek tertentu, menunjukkan kemampuan adaptasi ke lingkungan interaktif.
- Pemahaman Video: Dapat menafsirkan konten video, menjelaskan tindakan yang terjadi, dan memprediksi tindakan selanjutnya.
- Dokumentasi dan kode tersedia di repositori GitHub.
- Model tersedia untuk digunakan di Hugging Face dan Azure AI Foundry.
Tanggapan (0 )
โ
โ
โ