Setelah mengenal aturan Bayes (baca postingan ini), pembelajaran selanjutnya untuk dapat memahami PNN dan CPNN adalah
terkait probability density function (PDF).
Selain istilah tersebut, aku juga sekilas membaca ada istilah lain yang
mirip-mirip, yaitu probability
distribution function. Terus kepo
dong, apakah itu istilah yang sama atau berbeda? Well, setelah baca-baca aku menemukan jika istilah probability distribution function atau probability function terkadang digunakan
untuk menyebut PDF. Namun, istilah
tersebut tidak standar di kalangan para probabilists
atau ahli statistik (statisticians).
Sumber lain menjelaskan bahwa probability
distribution function dapat digunakan ketika distribusi probabilitas
didefinisikan sebagai fungsi umum dari seluruh himpunan berdasar dari semua
nilai yang ada, atau dapat disebut fungsi distribusi kumulatif (cumulative distribution function) atau probability mass function (PMF)
dibandingkan “density”. Secara umum,
PMF digunakan dalam konteks variabel acak yang nilainya diskret (discrete random variable), sementara PDF
digunakan dalam konteks variabel acak yang kontinyu.
"Pertanyaan yang muncul kemudian
adalah: apa perbedaan diskret dan kontinyu?"
Variabel dikatakan DISKRET, jika jumlahnya “terbatas” atau
dapat dihitung (countable). Jadi jumlah
kelas dalam suatu himpunan itu dibatasi atau terbatas pada nilai tertentu,
tidak mungkin ada nilai atau kondisi diantara kelas yang tersedia, kurang dari
nilai paling kecil dalam himpunan data tersebut, atau nilai yang lebih besar
dibandingkan nilai paling besar dalam himpunan data tersebut. Misalkan dalam
suatu kasus terdapat beberapa kelas:
1. Kondisi jumlah perawanan
- 1 okta
- 2 okta(s)
- 3 okta(s)
- 4 okta(s)
- 5 okta(s)
- 6 okta(s)
- 7 okta(s)
- 8 okta(s)
2. Kondisi cuaca
- Hujan
- Cerah
3. Kategori bencana
- Aman
- Waspada
- Bahaya
Sementara itu, variabel dikatakan KONTINYU apabila datanya kontinyu, nah
lo bingung nggak? Hahaha. Dibilang tidak terbatas, itu ya terbatas tapi gimana
ya. Jadi nilai suatu kelas dalam himpunan itu bisa jadi kurang dari nilai
paling kecil dalam himpunan data tersebut, lebih besar dibandingkan nilai
paling besar dalam himpunan data tersebut, atau nilainya berada diantara 2
kelas nilai yang ada dalam himpunan data tersebut, sehingga dapat dikatakan
nilai dalam himpunan tersebut bersifat kontinyu, seperti tidak ada batasnya,
bisa berapa aja. Try to check the example
below and assume this example as a
set of data:
1. Suhu
- 27.0
- 25.1
- 20.3
- 30.2
- 28.1
- 25.4
- 23.2
- 25.9
2. Kelembapan (RH)
- 70
- 65
- 80
- 100
- 70
- 80
- 90
- 90
Oke lebih lanjut tentang PDF, dikutip
dari Wikipedia, teori probabilitas pdf
didefinisikan sebagai fungsi yang
nilainya pada sampel tertentu (titik) dalam ruang sampel (himpunan nilai peluang
dari variabel acak) dapat diinterpretasikan sebagai probabilitas relatif
(relative likelihood) dimana dari variabel acak tersebut sama dengan sampel. Duh
kok mumet, ya aku? Hahaha! I try my best to make it easy to understand
but that’s how the translate turn out into, lol. Secara sederhana, jika sebelumnya kita memanfaatkan perhitungan
peluang biasa dan aturan Bayes pada data-data diskret, perhitungan PDF
digunakan untuk menghitung peluang pada data-data yang sifatnya kontinyu.
Misalnya kita mengambil contoh himpunan suhu diatas, coba hitung peluang suhu
27.5 [P(27.5)]? Hayo gimana caranya? Hal tersebut tentu berbeda jika
dibandingkan dengan saat kita diminta mencari peluang kondisi cuaca cerah atau
hujan seperti pada postingan sebelumnya. Sekarang kondisinya kita tahu bahwa
nilai 27.5 tidak ada dalam himpunan tersebut dan kita tidak dapat memanfaatkan
perhitungan peluang atau Bayes biasa seperti sebelumnya untuk menghitung
peluang kemunculan suhu 27.5, disinilah peran dari PDF tersebut berada.
Umumnya, peluang suhu 27.5 akan
ditulis [P(27.5)], hal tersebut dilakukan dengan asumsi data digambarkan dalam kurva
distribusi normal. Secara teoritis harusnya dituliskan sebagai [P(27.5 |
normal)], tergantung jenis kurva distribusi data yang digunakan. Contoh kurva
distribusi normal pada gambar di bawah ini menggambarkan bahwa data-data yang umumnya banyak berpusat
(terkumpul) di sekitar nilai
rata-ratanya (µ)
dengan nilai sebaran tertentu sebesar nilai
simpangan bakunya (σ). Jadi bentuk dari kurva PDF distribusi normal ditentukan
oleh dua hal, yaitu:
a.
nilai
rata-rata (µ)
b.
nilai
simpangan baku (σ)
Nah
untuk bisa menggambar kurva PDF seperti gambar di atas, kalian bisa coba me-running script yang saya tuliskan berikut pada aplikasi R atau RStudio.
Jadi kita sudah tahu kan bagaimana cara untuk menggambarkan PDF dalam
grafik distribusi normal? Nah, agar pemahaman kita terhadap PDF lebih dalam kita perlu tahu bagaimana perhitungan
untuk mendapatkan nilai PDF secara manual itu seperti apa, yaitu dengan menggunakan rumus:
Dimana,
nilai rata-ratanya (µ) dihitung berdasarkan
Sementara
nilai simpangan bakunya (σ) dihitung berdasarkan
Diketahui:
x : nilai variabel acak yang ingin
dicari PDF-nya
µ : nilai
rata-rata
σ : nilai
simpangan baku
xi : nilai variabel dalam suatu
sampel himpunan
n : jumlah
variabel acak dalam sampel himpunan
Jadi,
sudah ada gambaran kan PDF itu seperti apa? Mengapa kita menghitung probabilitas
dengan PDF bukan dengan menggunakan aturan Bayes? Jika kamu sudah bisa menjawab
pertanyaan tersebut artinya kamu sudah cukup paham konsep PDF. So, see you on my next post yaa!
0 komentar:
Posting Komentar