TUTUP
SCROLL UNTUK MELANJUTKAN MEMBACA
Gabung di IDN Times

Kapan Data Dikatakan Imbalanced dalam Model Machine Learning?

Data yang imbalance memicu model machine learning jadi bias

ilustrasi visualisasi data yang mengindikasikan terjadinya ketidakseimbangan (imbalance) (freepik.com/master1305)

Dalam ranah data science dan machine learning, data yang tidak seimbang atau imbalanced data adalah salah satu tantangan yang sulit diatasi. Ketidakseimbangan data terjadi ketika distribusi kelas dalam dataset sangat tidak merata. Hal ini bisa dilihat selang antara satu atau lebih kelas memiliki jumlah sampel yang jauh lebih sedikit dibandingkan dengan kelas lainnya. Kondisi ini dapat menyebabkan algoritma machine learning menjadi bias terhadap kelas yang lebih dominan, sehingga cenderung mengabaikan kelas yang kurang terwakili (minoritas). Akibatnya, performa model dalam memprediksi data dari kelas yang kurang terekspos menjadi tidak optimal.

Imbalanced data merujuk pada situasi di mana jumlah sampel dalam setiap kelas memiliki perbedaan secara signifikan. Misalnya, ada sebuah dataset yang digunakan untuk mendeteksi penipuan kartu kredit. Ternyata, dari sekian banyak data yang ter-capture hanya 1 persen dari transaksi terindikasi penipuan. Sementara 99 persen lainnya adalah transaksi yang sah. Dalam kasus ini, dataset yang merekam indikasi penipuan jumlahnya sangat sedikit dibandingkan dengan kelas transaksi sah. Tentu saja, melihat fenomena ini membuat data jadi timpang dan tidak seimbang. Sebagai seorang praktisi data, kira-kira kapan waktu yang tepat untuk menduga bahwa data dikatakan imbalanced dalam model machine learning? Mari perhatikan setiap indikatornya lewat artikel berikut.

1. Proporsi kelas dalam suatu dataset tidak merata

ilustrasi visualisasi data yang mengindikasikan terjadinya ketidakseimbangan (imbalance) (freepik.com/wirestock)

Penyebab utama suatu data dikatakan tidak seimbang adalah proporsi kelas yang tidak merata. Sebelum beranjak lebih jauh, setidaknya kamu perlu mengetahui soal istilah kelas minoritas dan kelas mayoritas agar memudahkan dalam proses pemahaman. Hal ini dilakukan agar penjelasan soal penyebab imbalanced data dapat tergambarkan bagi orang awam. Katakanlah dalam sebuah dataset yang digunakan untuk mendeteksi penipuan transaksi, terdapat dua kelas utama: kelas transaksi sah (selanjutnya disebut kelas mayoritas) dan kelas penipuan (selanjutnya disebut kelas minoritas).

  • Kelas Mayoritas: Kelas yang memiliki jumlah sampel lebih banyak dibandingkan dengan kelas lainnya. Dalam contoh deteksi fraud dalam penipuan transaksi, kelas mayoritas digambarkan dalam transaksi sah yang biasanya mencakup sebagian besar dari dataset, misalnya 95 persen dari total transaksi.
  • Kelas Minoritas: Kelas yang memiliki jumlah sampel lebih sedikit dibandingkan dengan kelas lainnya. Dalam konteks yang sama, kelas minoritas adalah transaksi penipuan yang mungkin hanya mencakup 5 persen dari total transaksi.

Bayangkan sebuah perusahaan kartu kredit memiliki dataset yang berisi 100 ribu transaksi untuk dianalisis. Dari jumlah tersebut, 95 ribu adalah transaksi sah (kelas mayoritas) dan hanya 5 ribu yang merupakan transaksi penipuan (kelas minoritas). Ketidakseimbangan ini bisa menyebabkan beberapa masalah kritis dalam proses analisis dalam model machine learning. Dalam kasus ini, kelas transaksi sah menjadi kelas mayoritas karena jumlahnya yang jauh lebih besar dibandingkan dengan kelas penipuan yang menjadi kelas minoritas. Hal ini menandakan ketidakseimbangan data yang cukup signifikan, di mana model cenderung lebih banyak memperhatikan kelas mayoritas dan mengabaikan kelas minoritas, yang pada gilirannya dapat mengakibatkan kinerja model yang buruk dalam mendeteksi transaksi penipuan yang sebenarnya. Oleh karena itu, penting untuk mengatasi ketidakseimbangan ini agar model dapat memberikan prediksi yang lebih akurat dan andal.

Baca Juga: NVIDIA Rilis Project G-Assist, Bikin Gaming Lancar Dibantu AI

2. Kesenjangan dalam proporsi antar kelas di suatu dataset

ilustrasi identifikasi email spam (freepik.com/rawpixel.com)

Sebuah penelitian yang dilakukan oleh Pratama et.al., tahun 2021 tentang Penanganan Imbalanced Data yang diterbitkan oleh Jurnal Eksplora Informatika menjelaskan bahwa ada satu tahap yang perlu dilakukan terlebih dahulu sebelum menuju ke tahap data mining. Tahap tersebut adalah pengecekan kondisi data apakah perlu penanganan atau tidak sehingga meminimalisasi terjadinya imbalanced class.

Salah satu penyebabnya adalah kesenjangan antar kelas menjadi tidak proporsional, di mana jumlah sampel dalam satu atau lebih kelas jauh lebih sedikit dibandingkan dengan kelas lainnya. Ketidakseimbangan ini dapat menyebabkan model machine learning bias terhadap kelas mayoritas dan kurang memperhatikan kelas minoritas. Akibatnya, performa model dalam memprediksi kelas minoritas menjadi kurang optimal, yang dapat mengarah pada keputusan atau hasil akhir yang tidak akurat atau tidak seimbang.

Misalnya dalam kasus deteksi email spam, jika dataset yang digunakan untuk melatih model memiliki jumlah email spam yang sangat sedikit dibandingkan dengan email non-spam, model cenderung lebih baik dalam memprediksi email yang murni tanpa spam daripada email yang merupakan spam. Dalam situasi seperti ini, model dapat mengabaikan pola-pola yang terkait dengan email spam karena jumlahnya sedikit dalam dataset. Akibatnya, ketika diterapkan pada data baru, model mungkin gagal secara signifikan dalam mengidentifikasi email spam. Dengan demikian, perilaku ini dapat meningkatkan risiko bagi pengguna untuk menerima pesan-pesan yang tidak diinginkan atau berbahaya di kotak masuk mereka.

3. Evaluasi metrik performansi model machine learning yang menyesatkan

ilustrasi data scientist mendeteksi penyakit langka dengan mempertimbangkan jumlah false positive (freepik.com/freepik)

Pada kasus dataset yang tidak seimbang, metrik akurasi yang tinggi bisa jadi keputusan yang menyesatkan karena model cenderung memprediksi kelas yang dominan dengan sangat baik namun gagal dalam mendeteksi kelas minoritas. Hal ini berarti bahwa meskipun model tampak performanya baik secara keseluruhan, sebenarnya ia mungkin tidak memberikan prediksi yang akurat untuk kasus-kasus yang lebih jarang atau kritis.

Contohnya, dalam konteks klasifikasi deteksi penyakit langka, seperti kanker langka atau penyakit genetik yang jarang terjadi. Jika data yang digunakan untuk melatih model memiliki ketidakseimbangan data yang signifikan antara pasien yang menderita penyakit langka dengan pasien yang tidak, maka hasil metrik akurasi bisa menyesatkan. Model yang didasarkan pada metrik tersebut mungkin cenderung memprediksi bahwa pasien tidak menderita penyakit karena kebanyakan sampel berasal dari kelas mayoritas (pasien sehat), sehingga meminimalkan jumlah false positive (pasien sehat diprediksi sehat) tetapi meningkatkan false negative (pasien sehat diprediksi menderita penyakit) untuk kasus penyakit langka tersebut. 

Maka dari itu, perlu kehati-hatian dalam mengevaluasi performa model, terutama ketika menghadapi kasus di mana kelas yang diamati tidak seimbang. Peningkatan false negative (pasien sehat diprediksi menderita penyakit) dapat memiliki konsekuensi serius, terutama dalam konteks kesehatan, di mana kesalahan dalam mendeteksi kondisi penyakit dapat berdampak pada kehidupan dan kesejahteraan pasien. Oleh karena itu, penting untuk menimbang baik-baik antara mengurangi false positive dan false negative, terutama dalam situasi di mana salah satu jenis kesalahan tersebut memiliki dampak yang lebih besar dari yang lain.

4. Ketimpangan dalam visualisasi data

ilustrasi visualisasi data yang mengindikasikan terjadinya ketidakseimbangan (imbalance) (freepik.com/master1305)

Inilah alasan mengapa visualisasi data sebegitu pentingnya di dunia data. Ketimpangan dalam visualisasi data dapat menjadi ciri suatu data terindikasi imbalance. Melalui visualisasi, kita dapat dengan cepat mengidentifikasi pola distribusi yang tidak merata antara kelas-kelas data. Grafik seperti histogram, pie chart, atau scatter plot dapat memberikan gambaran visual yang jelas tentang proporsi relatif dari setiap kelas dalam dataset.

Dengan melihat visualisasi data, baik data scientist maupun data analyst dapat lebih memahami struktur data dan mengambil langkah-langkah yang tepat untuk menangani ketidakseimbangan data tersebut, seperti menggunakan teknik oversampling, undersampling, atau pembobotan kelas. Dengan demikian, visualisasi data tidak hanya membantu dalam pemahaman data secara keseluruhan, tetapi juga menjadi alat yang berguna dalam mengidentifikasi masalah ketidakseimbangan yang mungkin mempengaruhi kinerja model machine learning.

Verified Writer

Reyvan Maulid

Penyuka Baso Aci dan Maklor

IDN Times Community adalah media yang menyediakan platform untuk menulis. Semua karya tulis yang dibuat adalah sepenuhnya tanggung jawab dari penulis.

Rekomendasi Artikel

Berita Terkini Lainnya