Solusi software AI kustom untuk bisnis Anda. Lihat Layanan →

Kirim AI

HuggingFaceTB: SmolVLM2 – Model AI Multimodal Ringan untuk Analisis Video & Gambar

SmolVLM2 adalah keluarga model multimodal ringan dari Hugging Face TB Research yang dirancang untuk memproses dan memahami konten visual seperti gambar dan video dengan arsitektur efisien. Dapat berjalan di perangkat mobile hingga laptop biasa, model ini menawarkan performa kompetitif dalam pemahaman video dan visual meski dengan ukuran kecil.

0
1
HuggingFaceTB: SmolVLM2 – Model AI Multimodal Ringan untuk Analisis Video & Gambar

Nama: SmolVLM2

Website/Sumber Utama: https://huggingface.co/spaces/HuggingFaceTB/SmolVLM2

Fungsi Utama: Model multimodal ringan untuk analisis dan pemahaman video serta gambar

Tipe: Model AI Multimodal Open Source

Cocok Untuk: Pengembang, peneliti AI, penggemar ML yang membutuhkan model efisien untuk perangkat dengan sumber daya terbatas

Model Harga/Lisensi: Open Source (Apache 2.0) Lihat Detail Lisensi

Highlight Utama: Model video terkecil dengan kemampuan pemahaman video tinggi yang dapat dijalankan bahkan di perangkat mobile

Apa Itu SmolVLM2?

SmolVLM2 adalah keluarga model multimodal ringan yang dikembangkan oleh tim Hugging Face TB (Textbook) Research dan dirilis pada Februari 2025. Model ini dirancang khusus untuk memproses dan memahami konten visual seperti gambar dan video dengan menggunakan arsitektur yang sangat efisien. Berbeda dengan model AI multimodal lain yang membutuhkan sumber daya komputasi besar, SmolVLM2 dapat berjalan di berbagai perangkat termasuk smartphone, laptop biasa, dan bahkan instans Google Colab gratis.

SmolVLM2 dirancang untuk menganalisis konten video dan gambar, menjawab pertanyaan tentang konten visual, membandingkan konten visual, dan mentranskripsikan teks dari gambar. Meskipun ukurannya kecil, model ini menunjukkan performa yang kompetitif pada berbagai tolok ukur pemahaman video dan visual seperti Video-MME, MLVU, dan MVBench.

Fitur Utama / Andalan

(Disimpulkan dari eksplorasi halaman fitur/dokumentasi)

Arsitektur Ultra-Efisien

  • Deskripsi: Tersedia dalam tiga varian ukuran: 256M, 500M, dan 2.2B parameter, dengan kebutuhan memori GPU yang sangat rendah (mulai dari 1.38GB untuk model 256M).
  • Manfaat/Contoh: Model 500M memiliki kemampuan pemahaman video yang
Arya AnggaraA
DITULIS OLEH

Arya Anggara

AI Enthusiast 🚀 | Software Engineer focused on developing AI-based solutions.

Tanggapan (0 )