10 Kesalahan Machine Learning yang Harus Dihindari Pemula

Machine learning adalah cabang kecerdasan buatan (AI) yang memungkinkan komputer belajar dari data tanpa diprogram secara eksplisit. Konsep ini terdengar canggih, tetapi dalam praktiknya, banyak pemula yang terjebak dalam kesalahan umum. Artikel ini akan membahas 10 kesalahan machine learning yang sering terjadi, terutama bagi pemula, dan tentu saja, bagaimana cara menghindarinya. Dengan memahami dan mengatasi masalah ini, Anda dapat membangun model yang lebih akurat dan efektif.

Baca juga: 5 Konsep Dasar Machine Learning untuk Pemula, Pahami Sekarang!

1. Overfitting: Model Terlalu “Hafal” Data Latih

Bayangkan seorang siswa yang hanya menghafal soal-soal latihan ujian, tetapi tidak benar-benar memahami konsep di baliknya. Saat ujian sebenarnya, soalnya sedikit berbeda, dan siswa tersebut gagal. Inilah analogi sederhana dari overfitting. Model machine learning terlalu “hafal” dengan data latih (training data) sehingga tidak mampu menggeneralisasi dengan baik pada data baru (data uji/test data).

Misalnya, dalam model regresi linear, overfitting terjadi ketika model terlalu kompleks, misalnya menggunakan polinomial derajat tinggi, sehingga kurvanya “menempel” terlalu dekat dengan setiap titik data latih. Akibatnya, model memiliki akurasi tinggi pada data latih, tetapi rendah pada data uji. Hal serupa terjadi pada pohon keputusan (decision tree) yang terlalu dalam, di mana setiap daun hanya mewakili sedikit data latih. Lalu bagaimana cara mengatasi overfitting pada model regresi linear?

Cara Menghindari Overfitting

Gunakan lebih banyak data latih: Semakin banyak data, semakin sulit bagi model untuk “menghafal” semuanya.
Lakukan validasi silang (cross-validation): Bagi data menjadi beberapa *fold*, latih model pada sebagian *fold*, dan validasi pada *fold* yang tersisa. Ulangi proses ini untuk semua kombinasi *fold*.
Gunakan regularisasi (L1, L2): Tambahkan “penalti” pada kompleksitas model, sehingga mendorong model yang lebih sederhana.
Sederhanakan model: Kurangi jumlah fitur, kurangi kedalaman pohon, atau gunakan model yang secara inheren lebih sederhana.
Gunakan teknik ensemble (misalnya, Random Forest): Gabungkan beberapa model sederhana untuk mendapatkan model yang lebih kuat dan tahan terhadap overfitting.

2. Underfitting: Model Terlalu Sederhana

Underfitting adalah kebalikan dari overfitting. Model terlalu sederhana sehingga tidak mampu menangkap pola yang kompleks dalam data. Ibaratnya, kita mencoba menjelaskan fenomena rumit dengan penjelasan yang terlalu dangkal.

Misalnya, kita menggunakan model regresi linear untuk memodelkan hubungan non-linear antara dua variabel. Model linear akan menghasilkan garis lurus, yang jelas tidak sesuai dengan pola data yang melengkung. Akibatnya, model akan memiliki akurasi rendah, baik pada data latih maupun data uji. Jika menggunakan pytorch, anda bisa melakukan tutorial mengatasi overfitting dan underfitting pytorch yang banyak beredar.

Baca juga: Overfitting dan Underfitting Machine Learning: Panduan Lengkap

Cara Menghindari Underfitting

Gunakan model yang lebih kompleks: Misalnya, gunakan regresi polinomial daripada regresi linear, atau gunakan jaringan saraf tiruan (neural network) dengan lebih banyak layer dan neuron.
Tambahkan fitur yang relevan (feature engineering): Jika fitur yang ada tidak cukup informatif, buat fitur baru yang dapat membantu model menangkap pola dalam data.
Kurangi regularisasi: Jika Anda menggunakan regularisasi, kurangi kekuatannya agar model memiliki lebih banyak “kebebasan” untuk belajar.

3. Data Imbalance: Kelas Mayoritas Mendominasi

Data imbalance terjadi ketika proporsi kelas dalam data tidak seimbang. Misalnya, dalam deteksi penipuan kartu kredit, jumlah transaksi yang sah (bukan penipuan) jauh lebih banyak daripada transaksi yang merupakan penipuan. Ini menjadi masalah karena model cenderung “belajar” untuk selalu memprediksi kelas mayoritas (dalam hal ini, transaksi sah) untuk mendapatkan akurasi yang tinggi, padahal yang lebih penting adalah mendeteksi kelas minoritas (transaksi penipuan).

Jika 99% transaksi adalah sah dan hanya 1% yang merupakan penipuan, model yang selalu memprediksi “sah” akan memiliki akurasi 99%. Namun, model ini sama sekali tidak berguna karena tidak dapat mendeteksi penipuan sama sekali! Inilah contoh nyata bagaimana data imbalance machine learning bisa sangat mengecoh. Untuk mengatasi masalah ini, terutama jika Anda menggunakan scikit-learn, penting untuk mengetahui penyebab data imbalance dan cara mengatasinya di scikit-learn.

Baca juga: Mengatasi Imbalanced Data dalam Machine Learning: Panduan Lengkap

Cara Menangani Data Imbalance

Resampling:
- Oversampling: Gandakan data dari kelas minoritas.
- Undersampling: Kurangi data dari kelas mayoritas.
Gunakan metrik evaluasi model yang tepat: Jangan hanya gunakan akurasi. Gunakan precision, recall, F1-score, atau AUC (Area Under the ROC Curve).
Gunakan algoritma yang lebih tahan terhadap data imbalance: Algoritma berbasis pohon (seperti Random Forest atau Gradient Boosting) cenderung lebih baik dalam menangani data imbalance daripada algoritma seperti regresi logistik.
Gunakan teknik cost-sensitive learning: Berikan “bobot” yang lebih tinggi pada kesalahan klasifikasi kelas minoritas.

4. Data Leakage: Informasi “Bocor” dari Masa Depan

Data leakage terjadi ketika informasi dari luar data latih “bocor” ke dalam model selama pelatihan. Informasi ini bisa berasal dari data uji, atau bahkan dari “masa depan” (informasi yang seharusnya tidak tersedia saat model digunakan secara *real-time*). Akibatnya, model terlihat sangat bagus pada data latih dan validasi, tetapi performanya buruk saat digunakan pada data baru.

Misalnya, Anda ingin memprediksi apakah seorang pelanggan akan *churn* (berhenti berlangganan). Anda memasukkan fitur “jumlah keluhan ke customer service dalam sebulan terakhir”. Jika Anda memasukkan data keluhan *setelah* pelanggan tersebut *churn*, maka Anda telah membocorkan informasi dari masa depan! Saat model digunakan, Anda tidak akan tahu berapa banyak keluhan yang akan dibuat pelanggan tersebut. Mempelajari cara menghindari data leakage dalam machine learning sangat penting untuk membangun model yang dapat diandalkan.

Cara Menghindari Data Leakage

Pisahkan data latih, validasi, dan uji *sebelum* melakukan data preprocessing apa pun (seperti scaling, encoding, atau imputasi missing values).
Hati-hati dalam memilih fitur. Pastikan fitur yang Anda gunakan benar-benar tersedia saat model digunakan.
Jika menggunakan library seperti scikit-learn, gunakan pipeline untuk memastikan urutan preprocessing dan pelatihan model yang benar. Pipeline membantu mencegah data leakage karena preprocessing hanya dilakukan pada data latih, dan transformasinya diterapkan secara konsisten pada data validasi dan uji.

5. Feature Engineering yang Buruk

Feature engineering adalah proses memilih, mentransformasi, dan membuat fitur dari data mentah untuk meningkatkan performa model machine learning. Feature Engineering yang buruk bisa membuat model sulit belajar, bahkan jika data dasarnya berkualitas baik.

Misalnya, Anda memiliki data tanggal lahir. Jika Anda langsung memasukkan tanggal lahir ke dalam model, kemungkinan besar model tidak akan dapat menggunakannya dengan baik. Akan lebih baik jika Anda mengekstrak fitur seperti usia, hari dalam seminggu, atau apakah tanggal tersebut adalah hari libur. Contoh lain adalah membiarkan *feature* kategorikal tanpa diubah menjadi numerik (*one-hot encoding*). Atau menggunakan *feature* yang tidak relevan dengan masalah yang ingin diselesaikan. Banyak kesalahan feature engineering yang sering terjadi karena kurangnya pemahaman tentang data dan masalahnya.

Cara Melakukan Feature Engineering dengan Benar

Pahami data dan masalah yang ingin dipecahkan. Apa saja variabel yang relevan? Apa saja kemungkinan hubungan antar variabel?
Lakukan exploratory data analysis (EDA). Visualisasikan data, hitung statistik deskriptif, dan cari pola-pola menarik.
Pilih fitur yang relevan. Buang fitur yang tidak relevan atau redundan.
Transformasikan fitur:
- Scaling: Ubah skala fitur agar berada dalam rentang yang sama (misalnya, standarisasi atau normalisasi).
- Encoding: Ubah fitur kategorikal menjadi numerik (misalnya, one-hot encoding atau label encoding).
- Ekstraksi fitur: Buat fitur baru dari fitur yang sudah ada (misalnya, usia dari tanggal lahir).

6. Tidak Melakukan Validasi Model dengan Benar

Validasi model adalah proses mengukur seberapa baik model dapat menggeneralisasi pada data baru. Ini penting untuk menghindari overfitting dan memastikan bahwa model dapat digunakan secara efektif dalam *real world*. Data biasanya dibagi menjadi tiga bagian data latih (untuk melatih model), data validasi (untuk tuning hyperparameter), dan data uji (untuk evaluasi akhir).

Kesalahan umum adalah hanya menggunakan data latih untuk evaluasi. Ini akan memberikan hasil yang terlalu optimis (overfitting). Kesalahan lain adalah menggunakan data uji berkali-kali untuk tuning hyperparameter. Ini juga akan menghasilkan overoptimasi, karena model secara tidak langsung “belajar” dari data uji. Banyak yang bertanya, bagaimana cara melakukan validasi model yang benar?

Baca juga: Training, Validation, Test Set: Panduan Membangun Model AI

Cara Melakukan Validasi Model

Pisahkan data menjadi data latih, validasi, dan uji. Proporsi yang umum digunakan adalah 60-80% untuk data latih, 10-20% untuk data validasi, dan 10-20% untuk data uji.
Gunakan data latih *hanya* untuk melatih model.
Gunakan data validasi untuk tuning hyperparameter (misalnya, memilih nilai parameter regularisasi, atau jumlah layer dalam jaringan saraf).
Gunakan data uji *hanya sekali* untuk evaluasi akhir performa model.
Pertimbangkan teknik validasi silang (cross-validation) jika data terbatas.

7. Metrik Evaluasi yang Tidak Tepat

Metrik evaluasi digunakan untuk mengukur seberapa baik model bekerja. Memilih metrik yang tepat sama pentingnya dengan memilih algoritma yang tepat. Metrik yang berbeda cocok untuk masalah yang berbeda. Mengapa evaluasi model machine learning penting? Karena metrik yang salah akan memberikan gambaran yang salah tentang performa model.

Contoh klasik adalah menggunakan akurasi pada data imbalance. Seperti yang dijelaskan sebelumnya, model yang selalu memprediksi kelas mayoritas akan memiliki akurasi tinggi, tetapi tidak berguna. Contoh lain adalah menggunakan RMSE (Root Mean Squared Error) untuk masalah regresi di mana outlier sangat penting. RMSE akan sangat dipengaruhi oleh outlier.

Panduan Memilih Metrik yang Tepat

Pahami tujuan pemodelan. Apakah ini masalah klasifikasi (memprediksi kategori) atau regresi (memprediksi nilai kontinu)?
Perhatikan karakteristik data. Apakah datanya seimbang? Apakah ada outlier?
Pilih metrik yang relevan dengan tujuan dan karakteristik data:
- Klasifikasi: Akurasi, presisi, recall, F1-score, AUC, dll.
- Regresi: RMSE, MAE (Mean Absolute Error), R-squared, dll.

8. Tidak Menangani Missing Values

Missing values (nilai yang hilang) adalah masalah umum dalam data. Banyak algoritma machine learning tidak dapat memproses data dengan missing values, atau dapat memberikan hasil yang bias jika missing values tidak ditangani dengan benar.

Beberapa algoritma, seperti regresi linear dalam beberapa *library*, akan *error* jika ada missing values. Algoritma lain, seperti pohon keputusan, mungkin dapat menangani missing values secara *native*, tetapi hasilnya mungkin tidak optimal. Missing values juga dapat menyebabkan bias dalam analisis, terutama jika nilai yang hilang tidak acak (misalnya, orang dengan pendapatan tinggi cenderung tidak melaporkan pendapatannya).

Cara Menangani Missing Values

Hapus data dengan missing values: Ini hanya disarankan jika jumlah data yang hilang sedikit, dan penghapusan tidak akan menyebabkan bias.
Imputasi: Isi missing values dengan nilai estimasi:
- Mean/median/modus: Isi dengan nilai rata-rata, median, atau modus dari fitur tersebut.
- Model prediksi: Gunakan model machine learning untuk memprediksi nilai yang hilang berdasarkan fitur lain.

missing values

Hindari kesalahan preprocessing data yang disebabkan oleh penanganan *missing value* yang tidak tepat.

9. Mengabaikan Outliers

Outlier adalah nilai data yang jauh berbeda dari nilai data lainnya. Outlier dapat disebabkan oleh kesalahan pengukuran, variasi alami, atau kejadian langka.

Outlier dapat mendistorsi model, terutama model yang sensitif terhadap outlier seperti regresi linear. Misalnya, satu nilai pendapatan yang sangat tinggi dapat secara signifikan memengaruhi garis regresi.

Cara Menangani Outlier

Deteksi outlier:
- Visualisasi: Gunakan box plot, scatter plot, atau histogram untuk melihat apakah ada nilai yang jauh dari nilai lainnya.
- Statistik: Gunakan metode statistik seperti z-score atau IQR (Interquartile Range) untuk mengidentifikasi outlier.
Tangani outlier:
- Hapus: Jika outlier adalah kesalahan atau noise, hapus dari data.
- Transformasi: Jika outlier adalah nilai yang valid, tetapi mendistorsi model, coba transformasi data seperti log transformation.
- Gunakan model yang lebih tahan terhadap outlier: Model berbasis pohon, seperti Random Forest, cenderung lebih tahan terhadap outlier daripada regresi linear.
- Lakukan *capping* atau *flooring*: Yaitu membatasi nilai *maximum* dan *minimum* dari sebuah *feature*.

Penting untuk diingat bahwa penanganan yang salah pada *outlier* juga menjadi salah satu kesalahan preprocessing data yang harus dihindari

10. Kurangnya Pemahaman tentang Algoritma

Setiap algoritma machine learning memiliki cara kerja, asumsi, kekuatan, dan kelemahannya masing-masing. Menggunakan algoritma tanpa memahami cara kerjanya seperti mengendarai mobil tanpa tahu cara kerjanya. Anda mungkin bisa sampai ke tujuan, tetapi Anda tidak akan tahu apa yang harus dilakukan jika terjadi masalah, dan Anda tidak akan dapat mengoptimalkan performanya.

Contohnya, menggunakan regresi linear untuk data yang jelas-jelas non-linear. Atau menggunakan algoritma *supervised learning* (seperti regresi atau klasifikasi) pada data yang tidak memiliki label (tidak ada variabel target). *User* yang baru belajar *supervised learning* sering melakukan kesalahan pemula dalam supervised learning karena kurangnya pemahaman tentang algoritma.

Pemilihan algoritma yang kurang tepat juga sering terjadi di *unsupervised learning*. Misalnya, ada kesalahan dalam pemilihan metode *clustering* karena data preprocessing yang salah pada unsupervised learning.

Panduan Memilih Algoritma yang Tepat

Pahami jenis masalah yang ingin Anda pecahkan:
- Klasifikasi: Memprediksi kategori (misalnya, spam atau bukan spam).
- Regresi: Memprediksi nilai kontinu (misalnya, harga rumah).
- Clustering: Mengelompokkan data yang mirip (misalnya, segmentasi pelanggan).
- Reduksi dimensi: Mengurangi jumlah fitur dengan tetap mempertahankan informasi penting.
Pahami karakteristik data Anda. Apakah datanya linear atau non-linear? Apakah ada outlier? Apakah ada missing values?
Pelajari berbagai algoritma machine learning. Pahami cara kerjanya, asumsi, kekuatan, dan kelemahannya.
Lakukan eksperimen dengan beberapa algoritma. Bandingkan performanya menggunakan metrik evaluasi yang tepat.

Kesimpulan

Machine learning adalah bidang yang menarik dan menjanjikan, tetapi juga penuh dengan tantangan. Dengan memahami 10 kesalahan umum yang telah dibahas dalam artikel ini dan menerapkan solusi yang disarankan, Anda dapat meningkatkan kualitas model machine learning Anda secara signifikan. Ingatlah bahwa machine learning adalah proses iteratif. Teruslah belajar, bereksperimen, dan tingkatkan keterampilan Anda.

Jika Anda membutuhkan bantuan lebih lanjut dalam mengimplementasikan solusi machine learning yang efektif, atau ingin mengembangkan platform digital berbasis AI, Kirim.ai siap membantu. Dengan berbagai layanan, mulai dari pengembangan aplikasi mobile, website, hingga strategi pemasaran digital, Kirim.ai dapat membantu Anda mencapai tujuan bisnis Anda. Pelajari lebih lanjut tentang bagaimana Kirim.ai dapat memberdayakan bisnis Anda dengan solusi berbasis AI.