Sunday, January 18, 2009

Error Type

Pengambilan keputusan dan kesimpulan mengenai populasi dalam statistika dapat dilakukan melalui statistika inferensia, namun tentunya hal ini akan menimbulkan pertanyaan mengenai bagaimana keakuratan atau seberapa baik pengambilan keputusan tersebut atau dapat juga seberapa kesalahan yang mungkin terjadi dalam pengambilan keputusan statistics. Kesalahan yang terjadi ini karena pengambilan keputusan tersebut hanya didasarkan pada data sampel.

Tahun 1930, Jerzy Neyman (1894-1981) and Egon Pearson (1895-1980), mengatakan bahwa dua hal yang harus diperhatikan dalam uji hypotesis berkenaan dengan type error, yaitu mengurangi sebisa mungkin atau sekecil-kecilnya peluang menolak hypotesis dan uji yang harus dilakukan adalah menolak hypotesis yang salah.

Terdapat dua tipe kesalahan dari pengambilan keputusan tersebut, yaitu type I error dan type II error.

Type I error is stating that the result stating that the result of sampling are unacceptable when in reality the population from which the sample was taken meets the stated requirements. (Aft, 1998)

Bila diterjemahkan secara mudah, peluang dari Type I error merupakan peluang menolak asumsi yang dianggap benar. Type I error disimbulkan dengan α (alpha) atau disebut juga level of significance atau significance level. Significance level sebesar α berarti bahwa terdapat peluang sebesar 1 – α untuk menerima asumsi yang dianggap benar atau 1 – α asumsi tersebut benar. Kita menginginkan untuk membuat significance level sekecil mungkin untuk mencapai tujuan menerima H0 (hypothesis null).

Type II error is stating that the result stating that the result of sampling are acceptable when in reality the population from which the sample was taken doesn’t meet the stated requirements. (Aft, 1998)

Peluang Type II error merupakan peluang menerima asumsi yang dianggap salah, dilambangkan dengan (beta dalam huruf Yunani). Namun dalam kehidupan sehari-hari beta jarang digunakan, karena perimbangan teori dan praktis.

Berikut ini beberapa contoh matriks untuk memahami Type I error dan Type II error
1. Kasus penyebaran penyakit

2. Kasus pengambilan keputusan dalam persidangan

Friday, January 16, 2009

The Lure of Statistics in Data Mining

Judul tersebut diambil dari Journal of Statistics Education Volume 16, Number 1 (2008), www.amstat.org/publications/jse/v16n1/grover.html. Ditulis oleh Lovleen Kumar Grover and Rajni Mehra Guru Nanak Dev University, India, BBK DAV College for Women, India. Bila diterjemahkan dalam bahasa Indonesia kurang lebih artinya adalah daya tarik statistika pada data mining. Dalam abstraknya penulis menjelaskan bahwa pada dasarnya penerapan data mining hampir sama seperti statistika, berhubungan dengan “learning from data” dan “turning data into information”. Dengan menggunakan data yang besar seperti dalam statistika, data mining mempunyai konotasi bahwa ilmu ini berguna untuk mencari sesuatu di dalam data untuk menduga suatu ide atau gagasan. Saat ini kita mencoba untuk mendiskusikan persamaan dan perbedaan antara statistician dan data miners. Artikel ini bertujuan untuk menjembatani dan menjelaskan gap antara dua komunitas ini.

Jurnal ini dibagi ke dalam lima pokok bahasan. Dalam point pendahuluan, penulis membahas mengenai kemungkinan aspek yang paling penting dari aplikasi statistika. Kemudian mendiskusikan mengenai data melalui kacamata statistician. Artikel ini diakhiri dengan diskusi mengenai perbedaan antara statistician dan data miners, termasuk didalamnya mengenai aktivitasnya yang berkenaan dengan data.

Dalam pendahuluan, penulis menjelaskan bahwa statistika dan data mining secara keilmuan hampir sama. Statistician dan data miners menggunakan beberapa teknik keilmuan yang sama. Pada mulanya, statistika dikembangkan dari pecahan matematika lebih dari satu abad yang lalu dan digunakan untuk membantu scientist dalam proses observasi dan design experiment untuk menghasilkan hasil yang akurat yang berhubungan dengan metode penelitian. Akhir-akhir ini muncul isu bahwa data mining dapat pula digunakan untuk menganalisa jumlah sample yang besar untuk menemukan pola dan aturan tertentu. Selain itu, data mining merupakan aplikasi dari statistika dalam bentuk eksplorasi data dan meramalkan pola dari data dengan jumlah yang besar (Berry-Linoff (1997)). Oleh karena itu seperti statistika, data mining tidak hanya untuk membuat model dan memprediksi saja namun juga dapat digunakan untuk menyelesaikan suatu proses.

Pada mulanya data mining digunakan untuk memfasilitasi perusahaan untuk masalah marketing dan sales. Tapi saat ini, tehnik data mining digunakan juga untuk masalah yang lain seperti law enforcement, radio astronomy, medicines, dan industrial process control, dll. Data miners dalam proses mengembangkan algoritma mengambil dari statistika, ilmu komputer, dan riset lainnya. Penerapan data mining dikombinasikan berdasarkan hal-hal berikut ini:
a. Sifat dari tugas dari data mining
b. Sifat dari data yang tersedia
c. Skill dan kecenderungan dari data miners
Oleh karena statistika dan data mining merupakan suatu proses yang berhubungan dengan data maka masalah utamanya adalah bagaimana mendapatkan data untuk informasi, dari informasi untuk suatu pengetahuan, dari pengetahuan untuk pengambilan keputusan dan dari pengambilan keputusan untuk suatu tindakan. Dengan begitu, kita dapat mengatakan bahwa kita sedang berada dalam lautan informasi tetapi tidak mendapatkan pengetahuan dari informasi tersebut. Perbaikan dalam hal ini terdapat pada data mining dan atau statistika. Dengan dibutuhkannya banyak data dalam segala bidang maka harus ada suatu database (kumpulan data-data) untuk menyelesaikan yang berhubungan dengan hal itu. Database yang besar ini dapat menjadi suatu sumber daya. Dari sinilah awal mula terciptanya data mining. Proses dari data mining ini disebut sebagai KDD (Knowledge Discovery in Data Mining). Aktivitas utama dari data mining antara lain adalah classification, estimation, prediction, affinity grouping or association rules, clustering; and description dan visualization. Kemajuan tekhnologi terutama pada bidang komputer, dapat membantu menyederhanakan proses analisa, walaupun dibutuhkan data dalam jumlah yang besar. Hal ini membuat peneliti tidak melibakan lagi data dalam jumlah yang kecil namun dalam jumlah yang besar.

Pada pembahasan kedua, penulis memberi judul mengenai “data mining dan statistika”. Beberapa tehnik data mining ditemukan statistician atau terdapat dalam software statistika, yang merupakan perluasan dari statistika standard. Meskipun data miners dan statistician mempunyai memiliki kesamaan dalam beberapa hal, namun data mining mempunyai pendekatan yang berbeda dengan statistika dalam beberapa hal, antara lain:
a. Data miners mengasumsikan membutuhkan lebih banyak data dan proses data
b. Data miners mengasumsikan bahwa mereka tergantung pada ketepatan waktu dalam proses data dimanapun
c. Sangat sulit untuk design experiment dalam dunia bisnis tanpa data mining
Hal ini merupakan perbedaan pendekatan dari statistika. Salah satunya adalah mengenai data, perbedaan utama antara data bisnis dan data scientific adalah data bisnis merupakan data yang sudah terpotong dan tersensor (truncated and cencored data) sedangkan data scientific merupakan data asli yang tidak terpotong dan tersensor (non truncated and non cencored data). Apabila dilihat dari metodologi dan algoritma dalam menganalisa data, sangat sulit untuk dibedakan apakah itu statistika atau data mining. Pada kenyataannya, dalam industri masyarakat tidak akan pernah menanyakan ”Apakah anda seorang data miners atau statistician?”. Yang paling penting adalah bagaimana masyarakat industri puas terhadap hasil yang diperoleh, tanpa melihat apakah itu data miners atau statistician. Sebagai seorang yang melayani customer, anda (baik itu sebagai data miners maupun statistician) ingin mencoba tehnik statistika atau algoritma tertentu untuk menyelesaikan masalah customer.

Dengan memanfaatkan metode analisis yang sudah advance dalam data mining, bisnis dapat meningkatkan keuntungan, memaksimalkan efiseinsi operasional, memotong biaya dan meningkatkan kepuasan pelanggan. Sedangkan statistika membuat hal ini untuk model prediksi atau membangun suatu model klasifikasi. Tanpa statistika maka tidak ada analisa yang efektif. Tanpa analisa yang efektif maka tidak ada business inteligence. Tanpa business inteligence, bagaimana anda dapat berharap untuk mengasimilasi banyak data dengan konsisten yang pada akhirnya dapat membuat keputusan yang berarti dalam kompetisi industri anda ?

Dengan statistika, anda dapat mentransformasi data anda ke dalam proses bisnis anda. Menggunakan statistika dalam data mining dapat secara meningkatakan secara signifikan (data) pada perusahaan anda. Saat ini dalam area bisnis, merupakan tantangan untuk tetap konsisten dalam market dan dapat memprediksi mengenai masa depan industri. Jika anda tidak dapat mengumpulkan (mining) terhadap data anda, maka nantinya anda akan merasa bersalah terhadap salah aset perusahaan anda ini, yaitu data.

Walaupun dalam statistika hanya memperhatikan suatu contoh (sample) dalam memutuskan suatu populasi, sedangkan masalah data mining selalu melibatkan data populasi, namun disinilah statistika dapat berperan. Disisi lain data mining hanya berguna untuk menemukan data saja dan disini sehingga tidak membutuhkan statistika, misal seperti dalam hal expreimental design dan survey design. Data mining mempunyai asumsi bahwa yang terpenting adalah data yang sudah dikumpulkan dan ini berkaitan dengan bagaimana cara menemukan rahasia dalam data tersebut. Untuk studi lebih lanjut mengenai persamaan dan perbedaan statistika dan data mining dapat dilihat di Hand (1999a, 1999b).

Selanjutnya pada point ketiga penulis memberi judul “Does Data Mining Mean Statistics or More Than Statistics ?”. Terus terang saya tidak berusaha menerjemahkan dalam bahasa Indonesia karena saya khawatir hal ini dapat mengubah makna sesungguhnya. Secara nyata, data mining merupakan bentuk yang sama dengan mengeruk data (data dredging) atau memancing data (data fishing) dan telah digunakan untuk proses menguraikan data dengan harapan dapat mengidentifikasi suatu pola. Data memang tidak memiliki kesamaan, data mempunyai perbedaan ketika diintepretasikan sebagai suatu pola. Masalahnya adalah banyak pola akan secara mudah membentuk suatu pola acak dan tidak berdasarkan suatu struktur tertentu. Bagi statistician, data mining menyampaikan sesuatu yang sia-sia dalam proses penyampaian data.

Perbedaan statistika dengan data mining salah satunya terletak pada jumlah sample. Statistician mempunyai type bahwa mereka tidak terkait hanya dengan data yang berjumlah besar saja. Ini mungkin tidak berlebih-lebihan untuk mengatakan bahwa statistician mempunyai terkait dengan analisa data primer. Sedangkan data miners mempunyai keterkaitan dengan data sekunder. Faktanya kita mungkin mendefinisikan data miners sebagai proses analisa terhadap data sekunder dari database dengan jumlah besar dengan tujuan mendapatkan hubungan dalam data tersebut,

Isu utama dari data mining berguna untuk menemukan pola dan struktur dalam data base. Tentu saja dengan komputer hal ini sangat mudah untuk mencari pola dan struktur dari suatu data. Sebelum mencari pola dan struktur data yang dilakukan pertama kali adalah mendefinisikan sesuatu yang menarik pada pola dan struktur yang akan ditentukan. Tentunya sesuatu yang menarik berdasarkan kebutuhan dan keinginan. Ketika mencari pola atau struktur, kompromisasi dibutuhkan dalam masalah yang spesifik dan umum. Namun, data mining tidak mengetahui ketepatan dari pola untuk ketepatan hasil. Di sisi lain definisi pola yang lain dapat pula diaplikasikan untuk data tersebut. Pada saat memilih pola lain untuk diaplikasikan, maka timbul peluang atau probablity dalam proses analisanya. Masalah ini sama seperti dalam statistics model. Dalam point ini penulis menjelaskan bahwa data miners harus belajar mengenai statistika.

Pada point selanjutnya, penulis membahas mengenai perlu tidaknya data mining masuk dalam kurikulum pengajaran mahasiswa statistika. Penulis menjabarkan hal-hal yang berhubungan dengan statistika, data mining, dan bahkan ilmu komputer dalam pembahasan ini, terutama dalam hubungannya dengan pengajaran terhadap mahasiswa. Statistika merupakan curriculum yang tradisional yang digambarkan dengan data yang kecil, data yang bersih, data yang statis dan acak, dan selalu dikumpulkan dengan pertanyaan yang specific. Data seperti itu tidak dapat diaplikasikan dalam konteks data mining. Karena bagi statisticians yang klasik, data dalam jumlah besar dapat menjadi masalah, tapi bagai data miners hal ini merupakan masalah yang sepele.

Data mining dan statistika merupakan dua hal yang unik. Masalah teoretis timbul dalam data mining. Hal ini nampak bahwa data miners dapat diletakkan dalam konteks statistika secara luas, karena sama-sama menggunakan data. Dengan begini, statistika lebih cenderung untuk menjadi inclusif, berwawasan luas dan berkenaan dengan metodologi, berhubungan dengan ilmu atau disiplin ilmu yang lain, dan dapat digunakan oleh semua orang. Mayoritas data miners harus mempunyai keahlian statistika. Untuk itu dibutuhkan perubahan dalam curriculum statistika dengan melibatkan data miners. Hal ini agar data miners tidak sering melakukan kesalahan dalam menganalisa data. Bahkan terkadang software statistics seperti SAS, S-PLUS, SPSS, and STATISTICA, dijual sebagai software data mining dan bukan sebagai software statistics.

Faktanya pertanyaan yang sering muncul adalah apabila mahasiswa statistika ingin mengaplikasika statistika mereka pada industri, bagaimana caranya dan apa yang harus dipersiapkan ? Beberapa pelajaran statistika berhubungan dengan algorithma data mining dan melalui software dapat dikembangkan algortima tersebut. Pengajar harus memulai memberikan pelajaran pada mahasiswa statistika mengenai hal –hal yang berhubungan dengan data base. Mahasiswa statistika juga harus sadar mengenai tantangan untuk menyimpan, mengakses, dan “menggerakan” jumlah data yang besar dengan visualisasi yang efektif untuk presentasi.

Statistika mempunyai kontribusi pada data mining antara lain pada:
1. Model probabilitias.
2. Ide mengenai kesalahan dalam pengukuran (measurement error)
3. Ide mengenai statistical significance
4. Mengenai hubungan sebab akibat
Dengan adanya perkembangan tehnologi, data mining nantinya akan sering berhubungan dengan komputer. Sehingga pertanyaan untuk yang akan datang adalah apakah statistika tetap memasukan data mining di dalamnya atau memasukkannya sebagai bagian dari ilmu komputer ?

Terakhir, apabila ditanyakan apakah data mining termasuk dalam kurikulum statistik ? Hal ini harus dijawab secara antusias “Ya”, Data mining esensinya adalah analisis statistika. Seperti pengalaman yang menjelaskan kepada kita bahwa statistika lemah dalam mengenalkan ide-ide penting, maka saat ini dengan adanya data mining, statistika dapat mengangkat reputasinya dalam hal ide. Apabila ini tidak manfaatkan maka statistika hanya untuk statistician sendiri, dan akan susah diaplikasikan oleh orang lain.

Point terakhir yang menjadi pembahsan penulis adalah mengenai kesimpulan dari jurnal ini. Statistician dan data miners memecahkan masalah yang sama. Namun demikian, secara sejarah displin ilmu menjadi masalahnya, kedua ilmu ini mempunyai perbedaan. Perdebatan ”perbedaan antara statistika dan data mining” disimpulkan bahwa tidak menjadi penting apakah itu statistika maupun data mining. Begitupula dengan masalah ”computation”, karena ”computation” merupakan inti dari proses dalam data mining maka sangat lumrah jika ahli komputer mengatakan bahwa data mining merupakan bagian dari ilmu mereka. Meskipun demikian, tehnik di dalam data mining, secara umum merupakan aplikasi dari statistics. Referensi mengenai statistics dan data mining dapat dilihat pada Berry and Linoff (1997, 2000), Chatfield (1997), Friedman (1998), Hand (1999a, 1999b), Hastie et al. (2001). (krisnafr)


(diringkas sesuai dengan jurnal asli dengan keterbatasan oleh Krisna Rahmantya)

Monday, January 12, 2009

Penduga selang (Interval estimator)

Penduga ini dilakukan karena dalam penduga titik, penduga tak bias yang paling efisien pun kecil kemungkinannya menduga parameter populasi secara tepat betul. Memang benar bahwa ketelitian (akurasi) dapat ditingkatkan dengan memperbesar contoh, tetapi ini tidak menjamin bahwa nilai dugaan titik yang berasal dari suatu contoh akan tepat sama dengan parameter populasi yang diduganya. Untuk itu akan lebih baik apabila dapat ditentukan sebuah selang diantara parameter yang sebenarnya.

Suatu nilai duga selang dalam bentuk B1 < µ < B2 mungkin lebih informative karena B1 dan B2 dapat ditentukan sebagai fungsi dari sample. Secara garis besar, untuk menentukan penduga selang suatu parameter yang tidak diketahui, Θ, B1 dan B2 ditentukan sedemikian rupa sehingga: P(B1 < Θ < B2) = (1-α).

Selang yang dimaksud B1 < Θ < style="font-style: italic;">(lower confidence limit) dan batas kepercayaan atas (upper confidence limit) . Sedangkan (1-α) disebut sebagai koefisien kepercayaan (confidence coefficient).

Intepretasi dari selang kepercayaan 100 (1-α)% atau 95%, jika α ditentukan 5% adalah: Jika kita mempunyai 100 selang kepercayaan, maka paling banyak 5 di antaranya tidak berisi atau mengandung parameter populasi yang diduga. Namun kita tidak tahu dimana ke-100 selang tersebut yang terdapat atau tidak terdapat parameter populasi. Dengan demikian, pernyataan selang kepercayaan akan lebih berarti 95% dipercaya bahwa selang tersebut mengandung parameter yang diduga.

Penduga titik (Point of estimator)

Disebut sebagai penduga titik karena statistic ini menduga suatu titik dalam populasi dari sample.

Sifat-sifat penduga
1. Tak bias, dimana nilai penduga sample harus sama dengan nilai sebenarnya dari parameter yang diduga. Namun hal ini tidak mudah karena akan selalu diperoleh statistic (nilai duga) yang berbeda dari setiap penarikan sample.
2. Efisiensi, apabila terdapat nilai duga dengan variance yang kecil. Untuk mengetahuinya dengan cara membandingkan variance dari dua nilai duga.
3. Konsistensi, apabila nilai penduga yang diperoleh dari proses perhitungan berulang kali dari sample semakin mendekati parameter yang diduga maka penduga tersebut dinamakan penduga yang konsisten.

Sebagai contoh, misal dalam menduga parameter kita menggunakan mean. Mean ini diperoleh dari sample yang diperoleh dari populasi. Dalam statistika, mean ini disebut dengan statistic penduga titik (point estimate of statistics), karena hanya menduga satu titik atau satu nilai saja.

Bagaimana keakuratan pendugaan ? Hal ini sulit dijawab, meskipun begitu penduga titik ini dapat menjadi penduga yang baik, karena tidak dibatasi pada confidence interval. Keterbatasan dalam pendugaan titik ini terjadi apabila pendugaan ini dilakukan berulang kali namun hasilnya selalu berbeda, baik dengan selisih yang kecil maupun besar. Penduga titik dapat diperoleh melalui beberapa metode antara lain melalui Metode Kemungkinan Maksimum (Maximum Likelihood Methods) dan Metode Kuadrat Terkecil (Least Square Methods).

Dalam berbagai kondisi, penduga titik ternyata belum mampu memberikan informasi yang cukup tentang parameter populasi, karena nilainya tergantung pada contoh yang diambil. Maka dari itu pendugaan terhadap parameter akan lebih baik jika disajikan dalam bentuk selang, di mana dalam selang tersebut diharapkan terletak nilai yang sebenarnya dari populasi (disebut juga pendugaan selang). Selang yang dibuat mengandung derajat kepercayaan atau peluang tertentu bahwa parameter yang diduga terdapat di dalam selang tersebut.

Pendugaan Parameter

Masalah pendugaan merupakan salah satu hal yang penting dalam statistika inferensial. Pendugaan ini berawal dari ketidakmungkinan menghitung seluruh anggota populasi untuk mengetahui parameter dalam populasi tersebut, sehingga yang dilakukan adalah menghitung atau memeriksa beberapa anggota populasi (sample) untuk diambil keputusan dan kesimpulan mengenai parameter dalam populasi. Hasil dari contoh populasi (sample) ini hanya merupakan nilai duga terhadap parameter populasi. Pendugaan terhadap parameter populasi menggunakan statistic yang diperoleh melalui perhitungan tertentu dari sample.

Keputusan dan kesimpulan yang diperoleh bukanlah parameter populasi namun merupakan penduga parameter populasi. Proses yang dilakukan ini merupakan proses induktif, yaitu membuat kesimpulan untuk keseluruhan berdasarkan sebagian. Konsekuensi dari hal ini adalah adanya kesimpulan yang diperoleh yang bersifat tidak pasti. Meskipun tidak pasti namun ada aturan-aturan penduga yang harus dipatuhi agar penduga parameter dapat mewakili parameter populasi.

Dari penjelasan diatas, Yitnosumarto, 1992, mendefinisikan penduga sebagai anggota peubah acak dari statistik yang mungkin untuk sebuah parameter. Besaran sebagai hasil penerapan penduga terhadap data dari contoh disebut nilai duga (estimate). Ada dua jenis pendugaan, yaitu pendugaan titik (point of estimator) dan pendugaan selang (interval estimator).

Thursday, January 1, 2009

Konsep Inferensial

Seperti yang telah dijelaskan sebelumnya dalam Konsep Statistika, konsep inferensial atau statistika inferensial mencakup semua metode yang berhubungan dengan analisis sebagian data untuk kemudian sampai pada peramalan atau penarikan kesimpulan mengenai data, selain itu berfungsi untuk menangani pendugaan parameter, pengujian hipotesis, pembuatan keputusan, penarikan kesimpulan dan peramalan mengenai populasi berdasarkan contoh (generalisasi).

Statistika inferensial merupakan inti dari statistika itu sendiri dan elemen dalam pengujian statistika inferensial adalah hipotesis nol (H0) dan hipotesis alternative (H1), statistic uji, dan daerah penolakan. Kemudian kriteria pengujian yang umum digunakan adalah membandingkan statistic uji dengan titik kritis, menghitung p-value dan membandingkannya dengan alpha, dan membuat penduga selang dan memeriksa apakah selang menggunakan nilai yang dihipotesiskan dalam H0.

Statistika inferensial selalu mempunyai sifat yang tidak pasti, karena mendasarkan pada informasi parsial yang diperoleh dari sebagian data (sample). Ketidakpastian dalam statistika inferensial ini menimbulkan peluang (probability). Suatu kesimpulan dari data (sample) yang akan diberlakukan untuk populasi, atau disebut juga sebagai pendugaan terhadap parameter populasi, mempunyai peluang kesalahan dan kebenaran (kepercayaan) yang dinyatakan dalam bentuk prosentase.

Bila level of significance (disimbolkan dengan alpha dalam huruf Yunani) sebesar 5% maka confidence level sebesar 95%, artinya apabila dalam pengambilan keputusan kita meyakini bahwa peluang kesalahan sebesar 5% maka taraf kepercayaan yang kita tentukan adalah 95%. Sebagai contoh apabila diketahui koefisien korelasi sebesar 0.63 untuk level of significance 5% berarti hubungan variable sebesar 0.63 itu berlaku pada 95 dari 100 sampel yang diambil dari suatu populasi. Menurut Sugiyono, 2008, secara operasional level of significance lebih dikenal dengan taraf signifikansi atau siginifikansi, yang artinya adalah kemampuan untuk digeneralisasikan dengan kesalahan tertentu, ada hubungan signifikan berarti hubungan itu dapat digeneralisasikan.

Menurut Wallpole, 1995, statistika inferensia dapat dikelompokkan menjadi dua hal, yaitu pendugaan dan pengujian hipotesis. Untuk membedakan keduanya perhatikan ilustrasi berikut, seorang calon dalam suatu pemilihan mungkin ingin menduga proporsi sebenarnya pemilih yang akan memilihnya, dengan cara mengambil contoh acak sebanyak 100 orang pemilih untuk ditanyai pendapatnya. Proporsi pemilih yang menyukai calon tersebut dalam contoh dapat digunakan sebagai nilai dugaan bagi proporsi populasi yang sebenarnya. Pengetahuan mengenai sebaran penarikan contoh bagi proporsi memungkinkan kita untuk mengetahui derajat ketelitian nilai dugaan tersebut. Hal ini termasuk dalam masalah pendugaan. Namun seringkali kadang masalah yang dihadapi bukan sekedar pendugaan parameter populasi seperti itu, tetapi berupa perumusan segugus kaidah yang dapat membawa kita pada suatu keputusan akhir yaitu menerima atau menolak suatu pernyataan atau hipotesis mengenai populasi. Prosedur perumusan yang berhubungan dengan menerima dan menolak hipotesis disebut sebagai pengujian hipotesis.