Zero-Shot & Few-Shot Learning di Computer Vision Dijelaskan

Computer Vision, cabang kecerdasan buatan (AI) yang memungkinkan mesin untuk ‘melihat’ dan menginterpretasi dunia visual, telah mengalami kemajuan pesat. Namun, model Computer Vision tradisional seringkali menghadapi keterbatasan signifikan: mereka membutuhkan sejumlah besar data latih berlabel untuk setiap objek atau kelas yang ingin dikenali. Proses pengumpulan dan pelabelan data ini tidak hanya memakan waktu tetapi juga mahal, menghambat kemampuan model untuk beradaptasi dengan cepat terhadap objek atau skenario baru yang belum pernah ditemui sebelumnya. Keterbatasan inilah yang mendorong pengembangan pendekatan pembelajaran yang lebih fleksibel dan efisien data, yaitu Zero-Shot Learning (ZSL) dan Few-Shot Learning (FSL).

Zero-Shot Learning (ZSL): Mengenali yang Tak Terlihat

Zero-Shot Learning (ZSL) adalah paradigma dalam machine learning, khususnya computer vision, di mana model AI dilatih untuk dapat mengenali kelas objek yang sama sekali tidak ada dalam data pelatihannya. Ini berbeda secara fundamental dari supervised learning tradisional yang mengharuskan adanya contoh dari setiap kelas saat pelatihan. Bayangkan Anda bisa mengenali seekor ‘Okapi’ hanya dengan mendengar deskripsinya (“hewan seperti kuda dengan leher agak panjang, tubuh coklat, dan kaki belang seperti zebra”) tanpa pernah melihat gambarnya sekalipun. Itulah intuisi di balik ZSL.

Bagaimana ZSL Bekerja dalam Computer Vision?

Bagaimana model bisa mengenali sesuatu yang belum pernah dilihatnya? Kunci dari ZSL terletak pada pemanfaatan informasi tambahan atau pengetahuan sampingan (side information). Informasi ini berfungsi sebagai jembatan antara kelas yang terlihat (seen classes) selama pelatihan dan kelas yang tidak terlihat (unseen classes) saat pengujian. Bentuk informasi ini biasanya berupa:

Atribut Semantik: Deskripsi fitur visual atau fungsional objek (misalnya, ‘memiliki bulu’, ‘bisa terbang’, ‘berwarna kuning’, ‘memiliki garis-garis’).
Representasi Teks (Word Embeddings): Vektor numerik yang menangkap makna semantik dari nama kelas, seringkali dihasilkan oleh model pemrosesan bahasa alami (NLP).

Secara umum, proses ZSL melibatkan langkah-langkah berikut:

Pelatihan: Model dilatih pada dataset yang berisi gambar dari kelas seen beserta representasi semantik yang sesuai untuk setiap kelas tersebut. Tujuannya adalah agar model belajar memetakan fitur visual gambar ke ruang representasi semantik (misalnya, belajar menghubungkan gambar zebra dengan atribut ‘bergaris’, ‘berkaki empat’, ‘seperti kuda’).
Inferensi: Ketika model dihadapkan pada gambar dari kelas unseen, model pertama-tama mengekstrak fitur visual dari gambar tersebut. Kemudian, menggunakan pemetaan yang telah dipelajari, model memproyeksikan fitur visual ini ke ruang semantik. Di ruang semantik ini, model mencari representasi semantik kelas unseen (yang juga disediakan sebagai input) yang paling cocok atau paling dekat dengan proyeksi fitur visual gambar tersebut.

Baca juga: Image Captioning Dijelaskan Cara Kerja & Manfaat AI (2025)

Sebagai contoh sederhana: sebuah model dilatih untuk mengenali ‘kuda’ dan ‘zebra’ (kelas seen) beserta atributnya. Saat pengujian, model diberikan representasi semantik untuk ‘badak’ (misalnya, ‘besar’, ‘abu-abu’, ‘bercula satu’, ‘berkaki empat’). Jika kemudian ada gambar badak, model akan mengekstrak fitur visualnya, memetakannya ke ruang semantik, dan menemukan bahwa representasi semantik ‘badak’ adalah yang paling cocok. Dengan demikian, model mengklasifikasikan gambar tersebut sebagai ‘badak’ meskipun belum pernah melihat contoh badak saat pelatihan.

Pendekatan umum dalam ZSL meliputi metode berbasis embedding (mempelajari pemetaan langsung antara ruang visual dan semantik) dan metode generatif (menghasilkan fitur visual sintetis untuk kelas unseen berdasarkan representasi semantiknya).

Few-Shot Learning (FSL): Belajar Cepat dengan Data Minimal

Few-Shot Learning (FSL) adalah pendekatan machine learning yang memungkinkan model untuk menggeneralisasi dan mengenali kelas baru hanya dengan melihat sangat sedikit contoh data latih untuk kelas tersebut. Istilah “few” biasanya merujuk pada jumlah sampel yang kecil per kelas baru, seringkali hanya 1 hingga 5 contoh. Kondisi ini sering disebut sebagai ‘K-shot learning’, di mana K adalah jumlah sampel per kelas baru. Jika K=1, ini dikenal sebagai One-Shot Learning.

Konsep yang sering terkait adalah ‘N-way K-shot classification’, yang berarti tugas klasifikasi melibatkan N kelas yang belum pernah dilihat sebelumnya, dengan K contoh pendukung (support samples) untuk setiap kelasnya. Fokus utama FSL bukan hanya pada klasifikasi itu sendiri, tetapi pada kemampuan model untuk ‘belajar cara belajar’ (meta-learning) dari data yang terbatas.

Metode FSL dalam Computer Vision

Berbeda dengan ZSL yang tidak menggunakan contoh visual sama sekali untuk kelas baru, FSL memanfaatkan beberapa contoh. Bagaimana model bisa belajar efektif dari data yang begitu minim? Inti dari FSL adalah melatih model agar dapat beradaptasi dengan cepat pada tugas klasifikasi baru dengan data terbatas. Hal ini sering dicapai melalui strategi meta-learning:

Pelatihan (Meta-Training): Alih-alih dilatih pada satu dataset besar secara langsung, model FSL dilatih pada serangkaian banyak ‘episode’ atau tugas klasifikasi kecil. Setiap episode mensimulasikan skenario few-shot: model diberikan sejumlah kecil kelas (misalnya, N kelas) dengan sejumlah kecil contoh per kelas (K contoh, disebut ‘support set’), dan kemudian diuji kemampuannya untuk mengklasifikasikan contoh baru (‘query set’) dari kelas-kelas tersebut. Tujuannya adalah agar model belajar mengekstraksi fitur yang paling relevan dan mengembangkan strategi perbandingan atau adaptasi yang efektif, bukan menghafal kelas spesifik.
Adaptasi (Meta-Testing): Setelah meta-training, model diuji pada tugas few-shot yang sesungguhnya, melibatkan kelas-kelas yang benar-benar baru (tidak ada dalam meta-training). Dengan menggunakan beberapa sampel pendukung (support set) dari kelas baru ini, model diharapkan dapat dengan cepat menyesuaikan pengetahuannya untuk mengenali contoh-contoh (query set) dari kelas baru tersebut secara akurat.

Sebagai contoh: Sebuah model FSL dilatih melalui banyak episode pengenalan berbagai jenis bunga, di mana setiap episode hanya berisi beberapa jenis bunga dengan 1-5 gambar per jenis. Setelah pelatihan ini, jika diberikan 3 gambar jenis bunga baru (misalnya, 3 gambar Anggrek Bulan), model dapat dengan cepat ‘belajar’ fitur kunci Anggrek Bulan dari 3 contoh tersebut dan kemudian secara akurat mengidentifikasi gambar Anggrek Bulan lainnya.

Beberapa pendekatan FSL yang populer meliputi:

Metode Berbasis Metrik (Metric-based): Belajar fungsi jarak atau kesamaan untuk membandingkan contoh query dengan contoh support (misalnya, Prototypical Networks, Matching Networks).
Metode Berbasis Optimasi (Optimization-based): Melatih model agar parameternya dapat dioptimalkan dengan cepat menggunakan beberapa langkah gradien pada data support set (misalnya, MAML – Model-Agnostic Meta-Learning).
Metode Berbasis Memori atau Generatif: Menggunakan memori eksternal atau model generatif untuk membantu proses adaptasi.

Perbedaan Kunci: Zero-Shot vs Few-Shot Learning (ZSL vs FSL)

Meskipun keduanya bertujuan mengatasi keterbatasan data, ZSL dan FSL memiliki perbedaan mendasar:

Kebutuhan Data untuk Kelas Baru:
- ZSL: Membutuhkan nol (0) sampel visual dari kelas baru. Namun, wajib memerlukan informasi semantik (atribut, deskripsi teks, dll.) tentang kelas baru tersebut.
- FSL: Membutuhkan sedikit sampel visual (misalnya, 1-5) dari kelas baru. Informasi semantik eksplisit biasanya tidak wajib, karena model belajar dari struktur data dan kemiripan visual.
Jenis Informasi Tambahan:
- ZSL: Sangat bergantung pada ketersediaan dan kualitas informasi semantik eksplisit sebagai penghubung.
- FSL: Lebih fokus pada pembelajaran struktur dan hubungan antar data dalam episode pelatihan untuk memungkinkan adaptasi cepat.
Tujuan Utama:
- ZSL: Murni mengenali kelas yang belum pernah dilihat contoh visualnya sama sekali.
- FSL: Belajar dengan cepat dan menggeneralisasi dari sejumlah kecil contoh visual kelas baru.
Kasus Penggunaan Ideal:
- ZSL: Cocok ketika sama sekali tidak mungkin mendapatkan sampel visual untuk kelas baru, tetapi deskripsi atau atributnya tersedia (misalnya, spesies yang baru ditemukan, konsep abstrak).
- FSL: Ideal ketika memungkinkan untuk mengumpulkan beberapa sampel untuk kelas baru, tetapi tidak cukup banyak untuk pelatihan model standar (misalnya, diagnosis medis langka, personalisasi produk baru).

Aplikasi Praktis ZSL dan FSL dalam Computer Vision

Kemampuan ZSL dan FSL untuk bekerja dengan data minimal membuka berbagai aplikasi praktis yang sebelumnya sulit dicapai dengan metode tradisional, termasuk dalam konteks Computer Vision di Indonesia:

Pengenalan Objek Langka/Baru: Mengidentifikasi spesies flora/fauna endemik langka di Indonesia, mendeteksi produk baru atau cacat produksi spesifik di pabrik, mengenali anomali medis yang jarang terjadi pada citra radiologi.
Robotika dan AI Vision: Memungkinkan robot di gudang atau lingkungan domestik untuk mengenali dan berinteraksi dengan objek yang belum pernah diprogram secara eksplisit.
Personalisasi Konten Visual: Sistem rekomendasi e-commerce atau platform streaming dapat menyarankan produk atau konten visual baru berdasarkan preferensi pengguna yang baru terbentuk dengan sedikit interaksi.
Analisis Citra Satelit/Drone: Mendeteksi tipe bangunan baru, perubahan tutupan lahan spesifik, atau objek militer baru di area luas dengan data contoh terbatas.
Verifikasi Biometrik: Sistem pengenalan wajah atau tanda tangan dapat mendaftarkan dan mengenali individu baru hanya dengan beberapa contoh awal.

Pendekatan ini sangat relevan bagi bisnis yang ingin menerapkan solusi AI tanpa harus menunggu pengumpulan data besar. Platform AI seperti Kirim.ai dapat dimanfaatkan untuk membangun solusi machine learning untuk computer vision yang mengadopsi prinsip FSL untuk adaptasi cepat pada kasus penggunaan spesifik bisnis di Indonesia, mempercepat inovasi dan memberikan keunggulan kompetitif.

Tantangan dan Arah Masa Depan ZSL & FSL

Meskipun menjanjikan, ZSL dan FSL masih menghadapi beberapa tantangan:

Bias Domain (Domain Shift): Kinerja model dapat menurun drastis jika data uji (terutama untuk kelas baru) memiliki karakteristik yang sangat berbeda (misalnya, pencahayaan, sudut pandang) dari data yang digunakan selama (meta-)training.
Masalah Hub / Bias ke Kelas Seen (ZSL): Model ZSL seringkali cenderung salah mengklasifikasikan input dari kelas unseen sebagai salah satu kelas seen yang paling mirip, terutama jika ruang semantiknya padat.
Kualitas Informasi Semantik (ZSL): Kinerja ZSL sangat bergantung pada kualitas, kelengkapan, dan relevansi atribut atau deskripsi semantik yang digunakan. Mendefinisikan atribut yang baik bisa menjadi tantangan tersendiri.
Kompleksitas Arsitektur dan Pelatihan: Implementasi ZSL dan terutama FSL (dengan meta-learning) seringkali lebih kompleks daripada supervised learning standar.
Evaluasi yang Konsisten: Metrik evaluasi dan dataset benchmark untuk ZSL dan FSL masih terus berkembang untuk memastikan perbandingan yang adil antar metode.

Untuk mengatasi tantangan ini, penelitian terus berlanjut dengan fokus pada:

Pengembangan metode yang lebih tangguh terhadap pergeseran domain.
Teknik untuk mengurangi bias terhadap kelas seen (misalnya, Generalized ZSL/FSL yang mengevaluasi pada kelas seen dan unseen).
Cara yang lebih baik untuk memperoleh atau belajar representasi semantik.
Integrasi ZSL dan FSL untuk memanfaatkan keunggulan keduanya.
Model yang lebih efisien secara komputasi dan lebih mudah diimplementasikan.

Kesimpulan: Masa Depan Computer Vision yang Lebih Adaptif

Zero-Shot Learning (ZSL) dan Few-Shot Learning (FSL) mewakili langkah maju yang signifikan dalam bidang Computer Vision. Keduanya mengatasi salah satu hambatan terbesar: ketergantungan pada data latih berlabel dalam jumlah besar. ZSL memungkinkan pengenalan objek tanpa contoh visual melalui pengetahuan semantik, sementara FSL memungkinkan pembelajaran cepat dari segelintir contoh melalui meta-learning. Kemampuan ini membuka pintu untuk aplikasi AI Vision yang lebih fleksibel, adaptif, dan dapat diskalakan di berbagai domain.

Memahami dan mengadopsi pendekatan seperti ZSL dan FSL menawarkan peluang inovasi luar biasa dalam aplikasi AI. Tertarik memanfaatkan kekuatan AI untuk bisnis Anda? Pelajari lebih lanjut solusi kami atau hubungi kami untuk konsultasi mengenai bagaimana kami dapat membantu Anda mengimplementasikan kemampuan computer vision canggih ini.