Rabu, 07 Agustus 2019

KONSEP DASAR JST 5: NORMALISASI DAN STANDARDISASI

Salah satu syarat agar suatu data sampel dapat diolah dengan Parzen-window dalam PNN dan CPNN adalah data tersebut harus dinormalisasi atau di-standardisasi. Kata “atau” disini bukan berarti normalisasi sama dengan standardisasi, tetapi data sampel yang dijadikan training dapat dinormalisasi, atau jika tidak dapat distandardisasi. Normalisasi sendiri digunakan untuk mengukur data (scale the data) atribut sehingga nilainya berada dalam rentang nilai yang lebih kecil (smaller range), seperti -1,0 sampai 1,0 atau 0,0 sampai 1,0. Normalisasi data umumnya digunakan untuk algoritma klasifikasi. Normalisasi umumnya dibutuhkan ketika kita bekerja dengan data/atribut pada skala yang berbeda sangat jauh (misal panjang jalan vs diameter amoeba), sehingga menyebabkan “dilution in effectiveness” dari atribut yang sama-sama penting (pada skala yang lebih rendah) karena atribut lain dengan nilai skala yang lebih besar. Secara sederhana, ketika atribut-atribut yang digunakan memiliki nilai dengan skala yang berbeda, dapat memicu performa model yang buruk ketika melakukan proses data mining. Sehingga atribut-atribut data tersebut perlu dinormalisasi sehingga ‘mereka’ memiliki skala atau ukuran atau dimensi yang sama.

Berikut merupakan contoh data yang perlu dinormalisasi atau distandardisasi:
HUJAN
(mm)
SUHU
(°C)
TEKANAN
(mb)
0.2
27,0
1003,1
0.1
30,1
1008,9
14
20,0
1001,0
0.8
19,8
1006,9
0.1
21,3
1005,8
0
24,8
1009,9
0
29,4
1003,9

Berdasarkan contoh di atas, dapat kita ketahui jika variabel hujan, suhu, dan tekanan memiliki “satuan” yang berbeda, masing-masing yaitu mm, celcius, dan mb. Konsep normalisasi atau standardisasi akan (atau bertujuan) menyamakan satuan variabel/atribut/data-data tersebut. Sehingga setelah dinormalisasi data dilakukan, variabel-variabel tersebut akan memiliki dimensi/ukuran/skala yang sama. Terdapat beberapa metode normalisasi data:

1.       Decimal scaling
Normalisasi dilakukan dengan memindahkan “decimal point” dari suatu nilai pada data. Normalisasi data dengan teknik ini dilakukan dengan membagi setiap nilai pada data dengan nilai absolut maksimum pada data. Nilai vi pada data dinormalisasi menjadi videngan menggunakan rumus berikut:
dimana j adalah nilai integer terkecil dengan nlai maksimum kurang dari 1 (max(|vi’|)<1.

Misalkan data input kita: -10, 201, 301, -401, 501, 601, 801. Hasil normalisasi data diatas dihasilkan dari
Langkah 1               : Nilai absolut maksimum dalam data adalah 701
Langkah 2               : Membagi data yang tersedia dengan 1000 (j = 3)
Hasil                      : Hasil normalisasi data tersebut adalah: -0.01, 0.201, 0.301, -0.401, 0.501, 0.601, 0.701

2.    Min-Max Normalization
Dalam teknik data normalisasi, transformasi linear dilakukan pada data asli. Nilai maksimum dan minimum dari data dipertimbangkan dalam rumus berikut.
dimana,
A                                                   : data atribut
Min(A), Max(A)                           : nilai maksimum dan minimum dari A
v'                                                   : nilai baru dari setiap data masukan
v                                                    : nilai lama dari setiap data masukan
new_max(A), new_min(A)      : nilai maksimum dan minimum dalam range nilai tersebut

3.       z-Score Normalization (zero-mean Normalization)
Dalam teknik ini, normalisasi data didasarkan pada nilai rata-rata (mean) dan standar deviasi (standard deviation) dari data dengan rumus berikut:
dimana,
v', v           : nilai data baru dan lama
σA              : standar deviasi
A               : nilai rata-rata A
4.       Normalisasi
       Salah satu teknik normalisasi lain dilakukan dengan rumus berikut:
            atau,
Sementara itu, standardisasi adalah proses menjadikan variabel-variabel menjadi skala yang sama. Secara umum memiliki tujuan yang sama dengan normalisasi namun tekniknya yang berbeda. Standardisasi dilakukan dengan salah satu metode berikut (dikutip dari support.minitab.com):

1.       Mengurangi nilainya dengan rata-rata dan dibagi dengan standar deviasi

2.       Mengurangi nilainya dengan rata-rata 

3.       Membaginya dengan standar deviasi

Nah sekarang sudah tahu kan bagaimana cara menormalisasi atau men-standardisasi data-data yang kita miliki sebelum dilakukan pengolahan dengan PNN dan CPNN? Yang perlu kita ingat sekali lagi adalah normalisasi tidak sama dengan standardisasi. Lantas pilih normalisasi atau standardisasi? Bebas. Keduanya memiliki tujuan yang sama, jadi silakan bisa memilih untuk menormalisasi atau men-standardisasi data asalkan konsisten dengan metodenya. Normalisasi atau standardisasi tidak akan mengubah bentuk data, hanya nilainya saja yang berubah sesuai dengan metode yang kita kehendaki. Hasilnya, setelah dilakukan normalisasi/standardisasi pada data maka kita dapat membandingkan data-data tersebut dan satuan dari data tersebut “hilang”. Okay, see you on my next post!


1 komentar:

  1. Thank you atas penjelasannya, sangat mudah dipahami.

    BalasHapus