Salah satu syarat agar suatu data sampel dapat diolah dengan Parzen-window
dalam PNN dan CPNN adalah data tersebut harus dinormalisasi atau
di-standardisasi. Kata “atau” disini
bukan berarti normalisasi sama dengan standardisasi, tetapi data sampel yang
dijadikan training dapat
dinormalisasi, atau jika tidak dapat distandardisasi. Normalisasi sendiri
digunakan untuk mengukur data (scale the
data) atribut sehingga nilainya berada dalam rentang nilai yang lebih kecil
(smaller range), seperti -1,0 sampai
1,0 atau 0,0 sampai 1,0. Normalisasi data umumnya digunakan untuk algoritma
klasifikasi. Normalisasi umumnya dibutuhkan ketika kita bekerja dengan
data/atribut pada skala yang berbeda sangat jauh (misal panjang jalan vs diameter
amoeba), sehingga menyebabkan “dilution
in effectiveness” dari atribut yang sama-sama penting (pada skala yang
lebih rendah) karena atribut lain dengan nilai skala yang lebih besar. Secara
sederhana, ketika atribut-atribut yang digunakan memiliki nilai dengan skala
yang berbeda, dapat memicu performa model yang buruk ketika melakukan proses data mining. Sehingga atribut-atribut
data tersebut perlu dinormalisasi sehingga ‘mereka’ memiliki skala atau ukuran atau
dimensi yang sama.
Berikut merupakan contoh data yang perlu dinormalisasi atau
distandardisasi:
HUJAN
(mm)
|
SUHU
(°C)
|
TEKANAN
(mb)
|
0.2
|
27,0
|
1003,1
|
0.1
|
30,1
|
1008,9
|
14
|
20,0
|
1001,0
|
0.8
|
19,8
|
1006,9
|
0.1
|
21,3
|
1005,8
|
0
|
24,8
|
1009,9
|
0
|
29,4
|
1003,9
|
Berdasarkan contoh di atas, dapat kita ketahui jika variabel hujan, suhu,
dan tekanan memiliki “satuan” yang berbeda, masing-masing yaitu mm, celcius,
dan mb. Konsep normalisasi atau standardisasi akan (atau bertujuan) menyamakan
satuan variabel/atribut/data-data tersebut. Sehingga setelah dinormalisasi data
dilakukan, variabel-variabel tersebut akan memiliki dimensi/ukuran/skala yang
sama. Terdapat beberapa metode normalisasi data:
1. Decimal scaling
Normalisasi dilakukan dengan
memindahkan “decimal point” dari
suatu nilai pada data. Normalisasi data dengan teknik ini dilakukan dengan
membagi setiap nilai pada data dengan nilai absolut maksimum pada data. Nilai vi pada data dinormalisasi
menjadi vi’ dengan
menggunakan rumus berikut:
dimana j adalah nilai integer terkecil dengan nlai maksimum kurang dari 1
(max(|vi’|)<1.
Misalkan data input kita: -10, 201,
301, -401, 501, 601, 801. Hasil normalisasi data diatas dihasilkan dari
Langkah 1 : Nilai absolut maksimum dalam data adalah 701
Langkah 2 : Membagi data yang tersedia dengan 1000 (j = 3)
Hasil : Hasil normalisasi
data tersebut adalah: -0.01, 0.201, 0.301, -0.401, 0.501, 0.601, 0.701
2. Min-Max Normalization
Dalam teknik data normalisasi,
transformasi linear dilakukan pada data asli. Nilai maksimum dan minimum dari data
dipertimbangkan dalam rumus berikut.
dimana,
A :
data atribut
Min(A), Max(A) :
nilai maksimum dan minimum dari A
v' :
nilai baru dari setiap data masukan
v :
nilai lama dari setiap data masukan
new_max(A), new_min(A) : nilai maksimum dan minimum dalam
range nilai tersebut
3. z-Score Normalization (zero-mean
Normalization)
Dalam teknik ini, normalisasi data
didasarkan pada nilai rata-rata (mean)
dan standar deviasi (standard deviation)
dari data dengan rumus berikut:
dimana,
v',
v : nilai data baru dan lama
σA : standar deviasi
A : nilai rata-rata A
4. Normalisasi
Salah satu teknik normalisasi lain dilakukan dengan rumus berikut:
atau,
Sementara itu, standardisasi adalah proses menjadikan variabel-variabel
menjadi skala yang sama. Secara umum memiliki tujuan yang sama dengan
normalisasi namun tekniknya yang berbeda. Standardisasi dilakukan dengan salah
satu metode berikut (dikutip dari support.minitab.com):
1.
Mengurangi nilainya dengan rata-rata dan dibagi
dengan standar deviasi
2.
Mengurangi nilainya dengan rata-rata
3.
Membaginya dengan standar deviasi
Nah sekarang
sudah tahu kan bagaimana cara menormalisasi atau men-standardisasi data-data
yang kita miliki sebelum dilakukan pengolahan dengan PNN dan CPNN? Yang perlu
kita ingat sekali lagi adalah normalisasi tidak sama dengan standardisasi. Lantas pilih normalisasi atau
standardisasi? Bebas. Keduanya
memiliki tujuan yang sama, jadi silakan bisa memilih untuk menormalisasi atau
men-standardisasi data asalkan konsisten dengan metodenya. Normalisasi atau
standardisasi tidak akan mengubah bentuk
data, hanya nilainya saja yang berubah sesuai dengan metode yang kita
kehendaki. Hasilnya, setelah dilakukan normalisasi/standardisasi pada data
maka kita dapat membandingkan data-data
tersebut dan satuan dari data tersebut “hilang”. Okay, see you on my next post!
Thank you atas penjelasannya, sangat mudah dipahami.
BalasHapus