Variational Autoencoder (VAE): Panduan Lengkap dan Cara Kerjanya

Variational Autoencoder (VAE) adalah salah satu model generatif yang menarik perhatian dalam dunia deep learning. Tidak seperti model lain yang hanya belajar memetakan data, VAE memiliki kemampuan unik untuk menghasilkan data baru yang mirip dengan data yang telah dipelajarinya. Kemampuan inilah yang membuka banyak peluang baru dalam berbagai bidang, mulai dari seni hingga sains.

Mengenal Lebih Dekat Apa Itu Variational Autoencoder

Variational Autoencoder (VAE) adalah jenis jaringan saraf tiruan yang termasuk dalam kategori model generatif dalam ranah deep learning. Secara sederhana, VAE dapat diibaratkan sebagai seorang seniman yang belajar dari berbagai lukisan, lalu mampu menciptakan lukisan baru dengan gaya yang serupa. VAE tidak hanya meniru, tetapi juga memahami pola dan struktur yang mendasari data, sehingga dapat menghasilkan variasi baru yang realistis.

Dalam deep learning, VAE menjadi penting karena kemampuannya untuk mempelajari representasi data yang kompleks dan menghasilkan data baru. Hal ini berbeda dengan model diskriminatif yang hanya belajar membedakan antara jenis data yang berbeda. Keunikan VAE terletak pada pendekatannya yang probabilistik, yang memungkinkannya untuk menangkap variasi dan nuansa dalam data, sehingga menghasilkan output yang lebih beragam dan kreatif.

Baca juga: Apa itu Generative AI? Panduan Lengkap untuk Pemula

Perbedaan VAE dan Autoencoder

Untuk memahami VAE, kita perlu memahami konsep dasar dari autoencoder biasa. Autoencoder adalah jenis jaringan saraf yang dilatih untuk merekonstruksi inputnya sendiri. Autoencoder terdiri dari dua bagian utama:

Encoder: Mengubah input menjadi representasi yang lebih ringkas, yang disebut latent space atau ruang laten.
Decoder: Merekonstruksi input asli dari representasi latent space.

Tujuan autoencoder adalah untuk mempelajari representasi data yang efisien, dengan memaksa informasi melewati “bottleneck” di latent space.

Lalu apa yang membuat VAE menjadi istimewa? Perbedaan utamanya ada pada cara mereka memperlakukan latent space. Autoencoder biasa menghasilkan representasi deterministic, yang berarti setiap input dipetakan ke satu titik pasti di latent space. Sebaliknya, VAE menghasilkan representasi probabilistic. Ini berarti setiap input dipetakan ke distribusi probabilitas di latent space, bukan hanya satu titik.

Baca juga: Memahami Autoencoder: Konsep dan Penerapan Deep Learning

Perbedaan probabilistic vs deterministic ini memiliki konsekuensi penting. Karena VAE memetakan input ke distribusi, kita dapat mengambil sampel dari distribusi ini untuk menghasilkan data baru. Dengan kata lain, VAE tidak hanya belajar merekonstruksi data, tetapi juga belajar tentang variasi yang mungkin dalam data tersebut. Inilah yang memungkinkan VAE untuk menjadi model generatif, yang mampu menghasilkan data baru yang mirip dengan data asli, tetapi tidak identik.

Arsitektur dan Cara Kerja VAE

Membedah Arsitektur VAE: Encoder dan Decoder

Arsitektur VAE mirip dengan autoencoder biasa, tetapi dengan beberapa modifikasi penting.

Encoder: Dalam VAE, encoder tidak langsung menghasilkan vektor latent. Sebaliknya, encoder menghasilkan dua vektor: vektor mean (rata-rata) dan vektor standard deviation (standar deviasi). Kedua vektor ini mendefinisikan distribusi probabilitas (biasanya distribusi Gaussian) di latent space. Input dari encoder adalah data asli (misalnya, gambar), dan outputnya adalah parameter distribusi di latent space.
Decoder: Decoder dalam VAE mengambil sampel dari distribusi latent yang dihasilkan oleh encoder. Sampel ini kemudian digunakan untuk merekonstruksi data asli. Input dari decoder adalah sampel dari latent space, dan outputnya adalah rekonstruksi data asli (misalnya, gambar yang direkonstruksi).

Encoder dan decoder bekerja sama dalam proses VAE. Encoder belajar memetakan data ke distribusi latent yang bermakna, sementara decoder belajar merekonstruksi data dari sampel latent.

Memahami Lebih Jauh Konsep Latent Space

Latent space dalam VAE adalah ruang multidimensi tempat data direpresentasikan dalam bentuk yang lebih ringkas. Dalam VAE, latent space tidak hanya berisi titik-titik data, tetapi juga informasi tentang variasi data. Setiap titik dalam latent space VAE mewakili kemungkinan data baru.

Karena VAE menggunakan pendekatan probabilistik, latent space-nya tidak hanya berisi titik-titik tetap seperti pada autoencoder biasa. Sebaliknya, setiap input dipetakan ke distribusi probabilitas di latent space. Distribusi ini menggambarkan seberapa mungkin suatu titik di latent space mewakili input tersebut.

Struktur latent space yang probabilistik ini sangat penting. Ini memungkinkan VAE untuk:

Menangkap variasi: Dengan memetakan input ke distribusi, VAE dapat memahami berbagai kemungkinan variasi dalam data.
Menghasilkan data baru: Dengan mengambil sampel dari distribusi latent, VAE dapat menghasilkan data baru yang memiliki karakteristik serupa dengan data asli.
Melakukan interpolasi: Dengan mengubah nilai di latent space secara bertahap, kita dapat melihat perubahan yang halus pada data yang dihasilkan (misalnya, mengubah ekspresi wajah secara bertahap).

Reparameterization Trick: Kunci Sukses Pelatihan VAE

Salah satu tantangan utama dalam melatih VAE adalah bagaimana melakukan backpropagation melalui proses pengambilan sampel acak dari distribusi latent. Pengambilan sampel adalah operasi non-deterministik, yang berarti tidak memiliki gradien yang dapat digunakan untuk backpropagation.

Di sinilah reparameterization trick berperan. Alih-alih mengambil sampel langsung dari distribusi latent yang dihasilkan oleh encoder, kita memisahkan proses pengambilan sampel menjadi dua langkah:

Kita mengambil sampel dari distribusi standar (misalnya, Gaussian standar dengan mean 0 dan standar deviasi 1). Sampel ini adalah variabel acak yang independen dari parameter encoder.
Kita mengubah sampel ini menggunakan parameter (mean dan standar deviasi) yang dihasilkan oleh encoder. Transformasi ini bersifat deterministik dan memiliki gradien.

Secara matematis, reparameterization trick dapat ditulis sebagai berikut:

z = μ + ε * σ

dengan:

z: sampel dari latent space
μ: mean yang dihasilkan oleh encoder
ε: sampel dari distribusi standar
σ: standar deviasi yang dihasilkan oleh encoder

Dengan reparameterization trick, kita dapat menghitung gradien sehubungan dengan parameter encoder (μ dan σ) dan melakukan backpropagation seperti biasa.

Fungsi Loss: Rekonstruksi dan KL Divergence

Fungsi loss dalam VAE memiliki dua komponen utama:

Reconstruction Loss: Komponen ini mengukur seberapa baik VAE dapat merekonstruksi input asli. Biasanya, reconstruction loss dihitung menggunakan mean squared error (MSE) atau binary cross-entropy, tergantung pada jenis data yang digunakan.
KL Divergence: Komponen ini mengukur seberapa dekat distribusi latent yang dihasilkan oleh encoder dengan distribusi prior yang telah ditentukan (biasanya Gaussian standar). KL divergence mendorong distribusi latent agar tidak terlalu jauh dari distribusi prior, sehingga latent space tetap teratur dan terstruktur.

Rumus matematika untuk reconstruction loss (misalnya, menggunakan MSE) adalah:

Loss_rekonstruksi = (1/n) * Σ (x – x’)^2

dengan:

n: jumlah sampel data
x: input asli
x’: rekonstruksi input

Rumus matematika untuk KL divergence (untuk distribusi Gaussian) adalah:

KL(q(z|x) || p(z)) = 0.5 * Σ (μ^2 + σ^2 – log(σ^2) – 1)

dengan:

q(z|x): distribusi latent yang dihasilkan oleh encoder
p(z): distribusi prior (biasanya Gaussian standar)
μ: mean yang dihasilkan oleh encoder
σ: standar deviasi yang dihasilkan oleh encoder

Kedua komponen loss ini digabungkan untuk membentuk fungsi loss total VAE. Selama pelatihan, VAE berusaha untuk meminimalkan kedua komponen loss ini, yang berarti VAE belajar untuk merekonstruksi input dengan baik dan menjaga distribusi latent tetap teratur.

Beragam Aplikasi Variational Autoencoder

Generasi Gambar Menggunakan VAE

Salah satu aplikasi VAE yang paling populer adalah untuk menghasilkan gambar baru. Dengan melatih VAE pada dataset gambar (misalnya, wajah manusia), VAE belajar untuk memahami fitur-fitur penting yang membentuk gambar tersebut.

Setelah pelatihan, kita dapat menghasilkan gambar baru dengan mengambil sampel acak dari latent space dan meneruskannya ke decoder. Decoder kemudian akan menghasilkan gambar yang sesuai dengan sampel latent tersebut.

Prosesnya secara konseptual adalah sebagai berikut:

Ambil sampel acak dari distribusi prior di latent space.
Masukkan sampel tersebut ke decoder.
Decoder menghasilkan gambar baru berdasarkan sampel tersebut.

VAE dan Interpolasi Data

VAE juga dapat digunakan untuk melakukan interpolasi data. Misalnya, jika kita memiliki dua gambar wajah, kita dapat menggunakan VAE untuk menghasilkan gambar-gambar transisi yang mulus antara kedua wajah tersebut.

Interpolasi dilakukan dengan cara:

Meng-encode kedua gambar ke latent space menggunakan encoder. Ini menghasilkan dua titik di latent space.
Membuat jalur linier antara kedua titik tersebut di latent space.
Mengambil sampel dari titik-titik di sepanjang jalur tersebut.
Meneruskan sampel-sampel tersebut ke decoder untuk menghasilkan gambar-gambar transisi.

Aplikasi VAE Lainnya yang Tak Kalah Menarik

Selain menghasilkan gambar dan interpolasi data, VAE juga memiliki berbagai aplikasi lain, seperti:

Anomaly Detection: VAE dapat digunakan untuk mendeteksi anomali dalam data. Data yang tidak biasa akan memiliki reconstruction loss yang tinggi atau berada di luar distribusi latent yang dipelajari.
Data Compression: Latent space VAE dapat digunakan sebagai representasi data yang lebih ringkas, mirip dengan autoencoder biasa.
Drug Discovery: VAE dapat digunakan untuk menghasilkan molekul-molekul baru dengan sifat-sifat yang diinginkan, yang berpotensi untuk penemuan obat baru.

Baca juga: Peran AI dalam Percepatan Pengembangan Obat & Vaksin

Pemrosesan Bahasa Alami: VAE telah digunakan untuk menghasilkan teks.

Kesimpulan

Variational Autoencoder (VAE) adalah model generatif yang kuat dengan kemampuan untuk menghasilkan data baru yang mirip dengan data asli. VAE berbeda dari autoencoder biasa karena menggunakan pendekatan probabilistik, yang memungkinkannya untuk menangkap variasi dalam data dan menghasilkan output yang beragam.

Dengan memahami cara kerja VAE, termasuk arsitektur, latent space, reparameterization trick, dan fungsi loss, kita dapat mengaplikasikan VAE dalam berbagai bidang. Pengembangan dan penelitian VAE terus berlanjut dan memiliki potensi yang besar dalam pengembangan deep learning. Framework seperti TensorFlow dan PyTorch memudahkan untuk membangun dan melatih model VAE.

Kirim.ai, sebagai platform yang berfokus pada solusi berbasis AI, menyediakan berbagai alat dan teknologi, termasuk model-model generatif seperti VAE, memungkinkan Anda untuk menerapkan dan menyesuaikan VAE untuk berbagai kebutuhan, mulai dari pembuatan konten hingga pengembangan aplikasi inovatif. Pelajari lebih lanjut bagaimana Kirim.ai dapat membantu Anda memanfaatkan kekuatan AI, termasuk teknologi di balik VAE, untuk mendorong pertumbuhan bisnis Anda.