Memahami Word Embeddings NLP Word2Vec, GloVe, dan FastText

Dalam dunia Natural Language Processing (NLP), komputer perlu memahami dan memproses bahasa manusia. Salah satu tantangan terbesar adalah bagaimana merepresentasikan kata-kata dalam format yang dapat dimengerti oleh komputer. Representasi kata menjadi kunci, dan word embeddings hadir sebagai solusi modern untuk mengubah kata ke dalam bentuk numerik. Tiga model word embeddings yang populer dan akan kita bahas adalah Word2Vec, GloVe, dan FastText.

Apa itu Word Embeddings?

Word embeddings adalah representasi vektor dari kata-kata. Setiap kata diubah menjadi vektor angka yang mewakili makna semantik dan hubungan antar kata. Vektor ini tidak acak, melainkan disusun sehingga kata-kata bermakna serupa atau sering muncul bersamaan akan memiliki vektor yang berdekatan.

Sebagai analogi, bayangkan sistem koordinat. Kata “raja” dan “ratu” mungkin berdekatan karena berkaitan dengan kerajaan. “Pria” dan “wanita” juga mungkin berdekatan. Hubungan antara “raja” dan “pria” mungkin mirip dengan “ratu” dan “wanita”. Dengan representasi vektor, komputer dapat “memahami” hubungan ini.

Mengapa Word Embeddings Penting dalam NLP?

Sebelum word embeddings, representasi kata yang umum adalah one-hot encoding. Namun, metode ini punya banyak keterbatasan, seperti tidak mampu menangkap makna semantik dan menghasilkan vektor berdimensi sangat tinggi. Word embeddings mengatasi ini dengan representasi yang lebih padat (dimensi rendah) dan menangkap makna semantik.

Baca juga: Jenis Data AI: Panduan Lengkap untuk Pemula dan Profesional

Word embeddings sangat berguna dalam berbagai aplikasi NLP, seperti:

Analisis Sentimen: Membantu model memahami sentimen teks (misalnya, ulasan produk) positif, negatif, atau netral.
Mesin Penerjemah: Menerjemahkan kata lebih akurat dengan konteks dan makna.
Chatbots: Membantu chatbots memahami pertanyaan dan memberi respons relevan.
Sistem Rekomendasi: Merekomendasikan produk, film, atau artikel yang relevan.
Pencarian Informasi: Meningkatkan akurasi pencarian dengan memahami kueri dan dokumen.

Contohnya, dalam analisis sentimen, kata “bagus,” “keren,” dan “memuaskan” akan berdekatan dan menandakan sentimen positif.

Word2Vec

Pengantar Word2Vec

Word2Vec adalah model word embeddings populer dari Google. Ia menggunakan jaringan saraf tiruan untuk mempelajari representasi vektor dari korpus teks besar.

Cara Kerja Word2Vec

Word2Vec punya dua arsitektur: Continuous Bag-of-Words (CBOW) dan Skip-gram. Keduanya memakai sliding window.

CBOW: Memprediksi kata target dari konteks kata di sekitarnya. Misalnya, “kucing itu ____ di atas meja”, CBOW memprediksi kata hilang (“tidur”) dari konteksnya.
Skip-gram: Kebalikan CBOW. Memprediksi kata konteks dari kata target. Dari kata “tidur”, ia memprediksi “kucing”, “itu”, “di”, “atas”, “meja”.

Training Word2Vec menyesuaikan bobot jaringan saraf agar model memprediksi kata (CBOW) atau konteks (Skip-gram) dengan akurat. Hasilnya adalah vektor kata (word embeddings) di bobot jaringan.

Kelebihan dan Kekurangan Word2Vec

Kelebihan:

Relatif cepat di-train.
Menangkap hubungan semantik dan sintaktik antar kata.

Kekurangan:

Tidak bisa menangani kata di luar kosakata (out-of-vocabulary atau OOV).
Kurang efektif untuk kata yang jarang muncul.

Contoh Penggunaan Word2Vec

Ilustrasi sederhana dengan library seperti Gensim di Python: Setelah melatih model, kita bisa dapatkan vektor “kucing”:


vektor_kucing = model.wv['kucing']

Mencari kata mirip “kucing”:

  
kata_mirip = model.wv.most_similar('kucing')

GloVe

Pengantar GloVe

GloVe (Global Vectors for Word Representation) dari Stanford University. Berbeda dari Word2Vec, GloVe memakai matrix factorization pada matriks ko-okurensi kata.

Cara Kerja GloVe

GloVe membuat matriks ko-okurensi yang menghitung seberapa sering pasangan kata muncul bersama dalam sliding window. Jika “kucing” dan “tidur” sering muncul bersama, nilai matriksnya tinggi. GloVe lalu memakai matrix factorization untuk reduksi dimensi menjadi vektor kata (word embeddings).

Baca juga: Aljabar Linear untuk AI Panduan Lengkap dengan Contoh Kode Python

Training GloVe mengoptimasi fungsi *loss* yang meminimalkan perbedaan antara perkalian dot produk vektor kata dan logaritma nilai ko-okurensi.

Kelebihan dan Kekurangan GloVe

Kelebihan:

Cepat di-train, terutama pada korpus besar.
Representasi vektor baik untuk kata yang sering muncul.

Kekurangan:

Sama seperti Word2Vec, tidak bisa menangani OOV.
Kurang baik untuk tugas yang perlu informasi sintaktik detail.

Contoh Penggunaan GloVe

Penggunaan GloVe mirip dengan Word2Vec, mendapatkan vektor kata dan mencari kata yang mirip dapat dilakukan setelah pelatihan model.

FastText

Pengantar FastText

FastText dari Facebook AI Research, pengembangan dari Word2Vec. FastText bisa menangani OOV dan kata jarang muncul.

Cara Kerja FastText

Mirip Skip-gram Word2Vec, tapi FastText memecah kata menjadi n-gram karakter (*subword information*). Misalnya, “kucing” menjadi “<ku”, “kuc”, “uci”, “cin”, “ing”, “ng>” (< dan > adalah penanda awal dan akhir kata).

Vektor “kucing” adalah penjumlahan vektor n-gram-nya. Jadi, FastText bisa hasilkan vektor untuk kata OOV, selama n-gram-nya ada di data pelatihan.

Kelebihan dan Kekurangan FastText

Kelebihan:

Menangani OOV dengan baik.
Lebih baik untuk kata jarang dari Word2Vec dan GloVe.
Menangkap informasi morfologis (bentuk kata).

Kekurangan:

Butuh memori lebih karena menyimpan vektor n-gram.
Training bisa lebih lama dari Word2Vec, jika n-gram panjang.

Contoh Penggunaan FastText

Serupa dengan Word2Vec dan GloVe, namun keunggulan FastText akan tampak saat menangani kata yang tidak terdapat dalam kosakata pelatihan.

Perbandingan Word2Vec, GloVe, dan FastText

Tabel perbandingan:

Fitur	Word2Vec	GloVe	FastText
Arsitektur Model	Neural Network (CBOW dan Skip-gram)	Matrix Factorization	Neural Network (Mirip Skip-gram)
Data Training	Korpus Teks	Matriks Ko-okurensi Kata	Korpus Teks
Kemampuan Menangani OOV	Tidak	Tidak	Ya
Kecepatan Training	Cepat	Cepat	Bisa lebih lambat dari Word2Vec
Kualitas Representasi Vektor	Baik untuk hubungan semantik dan sintaktik	Baik untuk hubungan semantik, kurang untuk sintaktik	Baik untuk hubungan semantik dan morfologis
Kasus Penggunaan Terbaik	Tugas-tugas NLP umum, di mana OOV bukan masalah besar	Ketika kecepatan training adalah prioritas utama, korpus sangat besar	Tugas-tugas di mana OOV sering muncul, analisis bahasa dengan morfologi kaya

Kesimpulan

Word embeddings adalah komponen penting di aplikasi NLP modern. Mereka membuat komputer memproses dan “memahami” bahasa manusia lebih baik. Word2Vec, GloVe, dan FastText adalah tiga model populer, masing-masing dengan kelebihan dan kekurangan. Pilih model berdasarkan kebutuhan proyek: kecepatan training, penanganan OOV, atau kualitas representasi vektor.

Baca juga: One-Shot & Zero-Shot Learning: Panduan Lengkap untuk Pemula

Untuk mulai dengan *word embedding*, banyak *resource* tersedia, seperti *library* Gensim. Jika Anda membutuhkan bantuan lebih lanjut dengan teknologi AI untuk mengembangkan bisnis, Pelajari lebih lanjut bagaimana Kirim.ai dapat membantu Anda.

Memahami Word Embeddings NLP Word2Vec, GloVe, dan FastText

Apa itu Word Embeddings?

Mengapa Word Embeddings Penting dalam NLP?

Word2Vec

Pengantar Word2Vec

Cara Kerja Word2Vec

Kelebihan dan Kekurangan Word2Vec

Contoh Penggunaan Word2Vec

GloVe

Pengantar GloVe

Cara Kerja GloVe

Kelebihan dan Kekurangan GloVe

Contoh Penggunaan GloVe

FastText

Pengantar FastText

Cara Kerja FastText

Kelebihan dan Kekurangan FastText

Contoh Penggunaan FastText

Perbandingan Word2Vec, GloVe, dan FastText

Kesimpulan

SEO Jago AI

Tanggapan (0 )

Tetap terhubung dengan AI

👋 Kami ada di media sosial

✨ 10 Kategori Terpopuler

AI

Eksplorasi

Edukasi

Open Source

Model

Riset

Ekonomi

NLP

Otomatisasi

Generatif