Overfitting dan Underfitting Data


Dalam machine learning peran dataset sangat vital, dimana itu digunakan sebagai materi training atau melatih mesin untuk membuat model nantinya.

Bagi yang membuat dataset sendiri tentu saja masalah Overfitting dan Underfitting kerap ditemui dalam membuat model. Sehingga akurasi yang dihasilkan pun tidak akurat, atau apabila hasil akurat apabila dicoba dengan data asli susah untuk mendapatkan hasil yang memuaskan.

Sebelum itu kita pahami sedikit pengertian dari Overfitting dan Underfitting :

Overfitting adalah suatu keadaan dimana data yang digunakan untuk training itu 'best case' nya. Sehingga apabila dilakukan test dengan menggunakan data yang berbeda dapat mengurasi akurasi atau hasil yang dibuat tidak sesuai yang diharapkan.

Underfitting adalah keadaan dimana model data training yang kita buat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalaam training data.

Solusinya bagaimana?

Idealnya kita harus mencari titik tengah diantara Underfitting dan Overfiting. Memang kedengaranya mudah tapi dalam prakteknya lumayan sulit.  Untuk membatasi Overfitting terdapat beberapa cara  yang bisa dicoba.
  • Gunakan resampling teknik untuk mengestimasi akurasi model, bisa menggunakan teknik k-fold cross validation. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda. Misal 50:50, 30:70: 70:30 sehingga nantinya akan menemukan akurasi yang cukup optimal.
  • Cek kembali validitas dari dataset. Dataset yang kita gunakan bisa dicek ulang, apakah masih ada peluang untuk terjadi Overfittin.
Jadi?

Dengan mengurangi atau memperkecil terjadinya Overfitting dan Underfitting akan meningkatkan akurasi model yang kita buat atau pada saat validasi model tersebut.

Komentar

Postingan populer dari blog ini

Masalah Kependudukan Yang Terjadi di Indonesia

Pengertian, Sejarah dan Perkembangan Web