Selasa, 06 Agustus 2019

KONSEP DASAR JST 3: PROBABILITY DENSITY FUNCTION (PDF)

Setelah mengenal aturan Bayes (baca postingan ini), pembelajaran selanjutnya untuk dapat memahami PNN dan CPNN adalah terkait probability density function (PDF). Selain istilah tersebut, aku juga sekilas membaca ada istilah lain yang mirip-mirip, yaitu probability distribution function. Terus kepo dong, apakah itu istilah yang sama atau berbeda? Well, setelah baca-baca aku menemukan jika istilah probability distribution function atau probability function terkadang digunakan untuk menyebut PDF. Namun, istilah tersebut tidak standar di kalangan para probabilists atau ahli statistik (statisticians). Sumber lain menjelaskan bahwa probability distribution function dapat digunakan ketika distribusi probabilitas didefinisikan sebagai fungsi umum dari seluruh himpunan berdasar dari semua nilai yang ada, atau dapat disebut fungsi distribusi kumulatif (cumulative distribution function) atau probability mass function (PMF) dibandingkan “density”. Secara umum, PMF digunakan dalam konteks variabel acak yang nilainya diskret (discrete random variable), sementara PDF digunakan dalam konteks variabel acak yang kontinyu.

"Pertanyaan yang muncul kemudian adalah: apa perbedaan diskret dan kontinyu?"

Variabel dikatakan DISKRET, jika jumlahnya “terbatas” atau dapat dihitung (countable). Jadi jumlah kelas dalam suatu himpunan itu dibatasi atau terbatas pada nilai tertentu, tidak mungkin ada nilai atau kondisi diantara kelas yang tersedia, kurang dari nilai paling kecil dalam himpunan data tersebut, atau nilai yang lebih besar dibandingkan nilai paling besar dalam himpunan data tersebut. Misalkan dalam suatu kasus terdapat beberapa kelas:
1. Kondisi jumlah perawanan
- 1 okta
- 2 okta(s)
- 3 okta(s)
- 4 okta(s)
- 5 okta(s)
- 6 okta(s)
- 7 okta(s)
- 8 okta(s)
2. Kondisi cuaca
- Hujan
- Cerah
3. Kategori bencana
- Aman
- Waspada
- Bahaya
Sementara itu, variabel dikatakan KONTINYU apabila datanya kontinyu, nah lo bingung nggak? Hahaha. Dibilang tidak terbatas, itu ya terbatas tapi gimana ya. Jadi nilai suatu kelas dalam himpunan itu bisa jadi kurang dari nilai paling kecil dalam himpunan data tersebut, lebih besar dibandingkan nilai paling besar dalam himpunan data tersebut, atau nilainya berada diantara 2 kelas nilai yang ada dalam himpunan data tersebut, sehingga dapat dikatakan nilai dalam himpunan tersebut bersifat kontinyu, seperti tidak ada batasnya, bisa berapa aja. Try to check the example below and assume this example as a set of data:
1. Suhu
- 27.0
- 25.1
- 20.3
- 30.2
- 28.1
- 25.4
- 23.2
- 25.9
2. Kelembapan (RH)
- 70
- 65
- 80
- 100
- 70
- 80
- 90
- 90
Oke lebih lanjut tentang PDF, dikutip dari Wikipedia, teori probabilitas pdf didefinisikan sebagai fungsi yang nilainya pada sampel tertentu (titik) dalam ruang sampel (himpunan nilai peluang dari variabel acak) dapat diinterpretasikan sebagai probabilitas relatif (relative likelihood) dimana dari variabel acak tersebut sama dengan sampel. Duh kok mumet, ya aku? Hahaha! I try my best to make it easy to understand but that’s how the translate turn out into, lol. Secara sederhana, jika sebelumnya kita memanfaatkan perhitungan peluang biasa dan aturan Bayes pada data-data diskret, perhitungan PDF digunakan untuk menghitung peluang pada data-data yang sifatnya kontinyu. Misalnya kita mengambil contoh himpunan suhu diatas, coba hitung peluang suhu 27.5 [P(27.5)]? Hayo gimana caranya? Hal tersebut tentu berbeda jika dibandingkan dengan saat kita diminta mencari peluang kondisi cuaca cerah atau hujan seperti pada postingan sebelumnya. Sekarang kondisinya kita tahu bahwa nilai 27.5 tidak ada dalam himpunan tersebut dan kita tidak dapat memanfaatkan perhitungan peluang atau Bayes biasa seperti sebelumnya untuk menghitung peluang kemunculan suhu 27.5, disinilah peran dari PDF tersebut berada.
Umumnya, peluang suhu 27.5 akan ditulis [P(27.5)], hal tersebut dilakukan dengan asumsi data digambarkan dalam kurva distribusi normal. Secara teoritis harusnya dituliskan sebagai [P(27.5 | normal)], tergantung jenis kurva distribusi data yang digunakan. Contoh kurva distribusi normal pada gambar di bawah ini menggambarkan  bahwa data-data yang umumnya banyak berpusat (terkumpul) di sekitar nilai rata-ratanya (µ) dengan nilai sebaran tertentu sebesar nilai simpangan bakunya (σ). Jadi bentuk dari kurva PDF distribusi normal ditentukan oleh dua hal, yaitu:
a.       nilai rata-rata (µ)
b.       nilai simpangan baku (σ)


Nah untuk bisa menggambar kurva PDF seperti gambar di atas, kalian bisa coba me-running script yang saya tuliskan berikut pada aplikasi R atau RStudio.


Jadi kita sudah tahu kan bagaimana cara untuk menggambarkan PDF dalam grafik distribusi normal? Nah, agar pemahaman kita terhadap PDF lebih dalam kita perlu tahu bagaimana perhitungan untuk mendapatkan nilai PDF secara manual itu seperti apa, yaitu dengan menggunakan rumus:

Dimana, nilai rata-ratanya (µ) dihitung berdasarkan


Sementara nilai simpangan bakunya (σ) dihitung berdasarkan

Diketahui:
(phi)           :22/7
x                 : nilai variabel acak yang ingin dicari PDF-nya
µ                 : nilai rata-rata
σ                 : nilai simpangan baku
xi                : nilai variabel dalam suatu sampel himpunan
n                 : jumlah variabel acak dalam sampel himpunan

Jadi, sudah ada gambaran kan PDF itu seperti apa? Mengapa kita menghitung probabilitas dengan PDF bukan dengan menggunakan aturan Bayes? Jika kamu sudah bisa menjawab pertanyaan tersebut artinya kamu sudah cukup paham konsep PDF. So, see you on my next post yaa! 




0 komentar:

Posting Komentar