Tutorial Lengkap Autoencoder Python Keras untuk Reduksi Dimensi

Autoencoder adalah salah satu teknik deep learning yang menarik dan memiliki banyak aplikasi praktis. Dalam tutorial ini, kita akan mempelajari apa itu autoencoder, bagaimana cara kerjanya, dan bagaimana mengimplementasikannya menggunakan Python dan Keras untuk reduksi dimensi data. Mari selami lebih dalam konsep yang menarik ini. Pelajari lebih lanjut di bagian selanjutnya.

Apa itu Autoencoder dan Reduksi Dimensi?

Autoencoder adalah jenis jaringan saraf tiruan (neural network) yang dilatih untuk merekonstruksi inputnya sendiri. Jaringan ini dilatih secara unsupervised, yang berarti tidak memerlukan label data. Reduksi dimensi adalah proses mengurangi jumlah variabel acak (fitur) dalam suatu dataset, dengan tujuan menyederhanakan data, mengatasi curse of dimensionality, mengurangi overfitting, mempercepat proses training, dan memudahkan visualisasi.

Baca juga: Memahami Autoencoder: Konsep dan Penerapan Deep Learning

Autoencoder menawarkan pendekatan reduksi dimensi yang non-linear, berbeda dengan metode tradisional seperti PCA. Ini berarti autoencoder dapat menangkap hubungan yang lebih kompleks antar fitur. Autoencoder cocok ketika data memiliki hubungan non-linear antar fitur, diperlukan ekstraksi fitur yang lebih canggih, dan PCA tidak memberikan hasil memuaskan.

Kelebihan dan Kekurangan Autoencoder

Kelebihan: Mampu melakukan reduksi dimensi non-linear, mempelajari representasi data yang lebih kompleks, serta fleksibel dan dapat diadaptasi. Kekurangan: Lebih kompleks daripada PCA, sulit diinterpretasikan, dan rentan terhadap overfitting.

Konsep Dasar dan Teori Autoencoder

Autoencoder terdiri dari tiga komponen utama: encoder (mengubah input menjadi representasi ringkas), bottleneck/latent space (representasi terkompresi), dan decoder (merekonstruksi input). Arsitektur autoencoder biasanya simetris. Hidden layer menggunakan fungsi aktivasi untuk memperkenalkan non-linearity.

Untuk reduksi dimensi, kita fokus pada Undercomplete Autoencoder yang memiliki bottleneck lebih kecil dari dimensi input. Jenis lain adalah Sparse Autoencoder, Denoising Autoencoder, Contractive Autoencoder, dan Variational Autoencoder (VAE).

Autoencoder dilatih dengan meminimalkan reconstruction loss. Proses training meliputi forward pass, perhitungan loss function (misalnya MSE), dan backpropagation untuk memperbarui bobot.

Implementasi dengan Python dan Keras

Kita akan mengimplementasikan autoencoder sederhana untuk reduksi dimensi menggunakan dataset MNIST (gambar angka tulisan tangan) dan Keras.

Persiapan Data

import numpy as np
import matplotlib.pyplot as plt
from tensorflow import keras
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.datasets import mnist

# 1. Muat dataset MNIST
(x_train, _), (x_test, _) = mnist.load_data()

# 2. Normalisasi data
x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.

# 3. Reshape data (flatten)
x_train = x_train.reshape((len(x_train), np.prod(x_train.shape[1:])))
x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])))

print(x_train.shape)
print(x_test.shape)

Kode di atas mengimport library, memuat dataset, melakukan normalisasi, dan reshape data. Singkatnya, bagian ini menyiapkan data MNIST untuk digunakan dalam pelatihan dan pengujian autoencoder.

Membangun Model Autoencoder

# Ukuran latent space
encoding_dim = 32

# Input placeholder
input_img = Input(shape=(784,))

# "Encoded" - representasi input di latent space
encoded = Dense(encoding_dim, activation='relu')(input_img)

# "Decoded" - rekonstruksi input
decoded = Dense(784, activation='sigmoid')(encoded)

# Model autoencoder
autoencoder = Model(input_img, decoded)

# Model encoder
encoder = Model(input_img, encoded)

# Placeholder input ter-encode
encoded_input = Input(shape=(encoding_dim,))
# Layer terakhir autoencoder
decoder_layer = autoencoder.layers[-1]
# Model decoder
decoder = Model(encoded_input, decoder_layer(encoded_input))

autoencoder.summary()

Kode ini mendefinisikan ukuran latent space, input, layer encoder (aktivasi ReLU), layer decoder (aktivasi sigmoid), model autoencoder, model encoder, model decoder, dan menampilkan ringkasan model. Secara keseluruhan, bagian ini membangun arsitektur autoencoder, encoder, dan decoder yang akan digunakan.

Training Model Autoencoder

# Compile model
autoencoder.compile(optimizer='adam', loss='binary_crossentropy')

# Latih autoencoder
history = autoencoder.fit(x_train, x_train,
                epochs=50,
                batch_size=256,
                shuffle=True,
                validation_data=(x_test, x_test))

Model di-compile dengan optimizer Adam dan loss function binary cross-entropy. Model dilatih dengan input dan target yang sama. Proses training ini mengoptimalkan parameter model sehingga dapat merekonstruksi input dengan baik.

Evaluasi dan Visualisasi Hasil

# Evaluasi loss
loss = autoencoder.evaluate(x_test, x_test, verbose=0)
print(f"Test Loss {loss}")

# Prediksi rekonstruksi
decoded_imgs = autoencoder.predict(x_test)

# Visualisasi gambar asli dan rekonstruksi
n = 10
plt.figure(figsize=(20, 4))
for i in range(n):
    # Gambar asli
    ax = plt.subplot(2, n, i + 1)
    plt.imshow(x_test[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

    # Gambar rekonstruksi
    ax = plt.subplot(2, n, i + 1 + n)
    plt.imshow(decoded_imgs[i].reshape(28, 28))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)
plt.show()

# Visualisasi training loss
plt.figure(figsize=(12,6))
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Training and Validation Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
plt.show()

# Encode dan decode
encoded_imgs = encoder.predict(x_test)
decoded_imgs = decoder.predict(encoded_imgs)

Kode di atas menghitung loss, memvisualisasikan gambar asli vs. rekonstruksi, menampilkan grafik training loss, dan melakukan encoding-decoding. Bagian ini memberikan gambaran performa autoencoder dalam merekonstruksi input dan bagaimana proses training berjalan.

Studi Kasus Reduksi Dimensi

Bagian encoder dapat digunakan untuk mereduksi dimensi data. Kita mereduksi data MNIST menjadi 32 dimensi:

# Reduksi dimensi
encoded_imgs = encoder.predict(x_test)
print(encoded_imgs.shape)

Kode ini menggunakan bagian encoder dari autoencoder untuk mengubah data MNIST dari 784 dimensi menjadi 32 dimensi. Hasilnya menunjukkan dimensi data yang telah tereduksi.

Kesimpulan

Kita telah mempelajari konsep autoencoder, cara kerjanya, implementasinya dengan Python dan Keras, serta evaluasi dan visualisasinya. Autoencoder adalah alat untuk reduksi dimensi non-linear. Pengembangan lebih lanjut meliputi mencoba arsitektur berbeda, hyperparameter tuning, jenis autoencoder lain, dan dataset berbeda.

Baca juga: Peran Penting Matematika dalam AI Aljabar Linear hingga Probabilitas

Dengan memahami autoencoder, Anda membuka pintu ke berbagai aplikasi deep learning. Pelajari lebih lanjut tentang bagaimana Kirim.ai dapat membantu bisnis Anda. Jangan ragu untuk membagikan artikel ini dan tinggalkan komentar!

Referensi

Dokumentasi Keras: https://keras.io/
“Deep Learning” oleh Ian Goodfellow, Yoshua Bengio, dan Aaron Courville.
“Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow” oleh Aurélien Géron.
Blog post terkait autoencoder.