Wednesday, March 25, 2009

Normality Test – Kolmogorov Smirnov

Kolmogorov Smirnov Test (K-S Test) merupakan uji dalam statistics nonparametric yang digunakan untuk uji dua sampel dari distribusi data yang sama. K-S Test dalam statistic non parametric befungsi sama seperti Mann-Whitney Test. K-S Test mempunyai keuntungan bahwa uji ini tidak memperhatikan asumsi dari distribusi data (secara tehnik ini bisa dikatakan bahwa uji ini bebas sebaran dan nonparametric). Namun demikian, dalam hal sensitivitas, uji t lebih baik daripada K-S Test.

K-S Test (Chakravart, Laha, and Roy, 1967) digunakan untuk menentukan distribusi suatu data sampel. Selain itu, dapat juga digunakan untuk menguji kenormalan suatu data digunakan dengan cara menstrandarkan sampel kemudian membandingkannya dengan distribusi normal. K-S Test dibentuk berdasarkan fungsi distribusi empiric (empirical distribution function – ECDF). Misal terdapat data Y1, Y2, … YN, maka ECDF didefinisikan dengan EN = n(i) / N, di mana n(i) merupakan jumlah dari Yi yang diurutkan dari kecil ke besar.

Keuntungan K-S Test adalah statistic-nya tidak bergantung pada fungsi distribusi kumulatif dari sebaran yang akan diuji. Selain itu keuntungan lainnya terletak pada exact test, yaitu chi square goodness of fit, bergantung pada suatu ukuran contoh saja. Namun K-S Test juga memiliki kelemahan, yaitu:
1. Hanya dapat diaplikasikan untuk distribusi kontinyu
2. Cenderung sensitive pada pusat distribusi
Keterbatasan untuk masalah no 2 dapat diatasi dengan menggunakan Anderson Darling test.

K-S Test Analysis
-. Hipotesis dari K-S Test:
H0: Data mengikuti sebaran normal
H1: Data tidak mengikuti sebaran nomal
-. Statistik uji:

di mana:
F merupakan fungsi komulatif distribusi yang akan diuji dan harus berupa distribusi kontinyu.

-. Significance level: alpha

-. Daerah kritis: Tolak H0 apabila nilai kritis D lebih besar dari nilai kritis pada table, atau peliang nilai kritis D lebih kecil dari significance level (alpha).


Contoh: Data tinggi badan siswa dalam cm
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

Sama seperti Anderson Darling Test, K-S Test juga dapat dilakukan dengan mudah melalui Minitab versi 15. Dalam software tersebut, perhitungan K-S Test dapat melalui menu Stat > Basic statistics > Normality test.


Kemudian pilih Kolmogorov Smirnov dalam menu Test of Normality.


-. Hipotesis dari Kolmogorov Smirnov Test:
H0: Data mengikuti sebaran normal
H1: Data tidak mengikuti sebaran normal
-. α : 5 %
-. Teori pengambilan keputusan:
Terima H0 -> P-Value > α.
Tolak H0 -> P-Value < α. Output Kolmogorov Smirnov Test


Intepretasi Output Kolmogorov Smirnov Test
-. Graphic: dari probability plot terlihat plot data sampel berada di sekitar garis lurus (expected value), ini menunjukkan bahwa data tinggi badan menyebar normal.

-. Statistic value
a. Mean = 150.4, rata-rata data 150.4 cm, artinya nilai memusat pada nilai 150.4 cm

b. St. Dev = 3.306, standard deviasi sebesar 3.306. Nilai standard deviasi tidak terlalu besar, ini menunjukkan keragaman data tidak terlalu besar yang artinya data bersifat homogen.

c. N = 50, jumlah sampel yang dihitung adalah 50 data d. KS = 0.057, nilai Kolmogorov Smirnov sebesar 0.057. Nilai ini relative kecil, yang berarti terima H0 atau data menyebar normal, namun dari nilai KS ini belum dapat diputuskan secara pasti apakah data menyebar normal atau tidak, karena tidak ada parameter yang pasti untuk menentukan menyebar normal.

d. P-Value = >0.150, nilai P-Value sebesar lebih dari 0.150. P-Value > 5%, artinya terima H0 yang menyatakan bahwa data menyebar normal.


Selain Minitab versi 15, K-S Test dapat juga melalui SPSS versi 16, ada dua cara untuk mendapatkan statistic dari K-S Test, yaitu melalui descriptive statistics dan nonparametric test.
1. Melalui descriptive statistics, prosedurnya adalah: Analyze > Descriptive statistics > Explore


Kemudian Explore > Plot > (klik) Normality plots with test > Continue > OK

Output K-S Test


Intepretasi K-S Test
Dari kolom kolmogorof Smirnov, nampak bahwa statistic-nya sebesar 0.067 dengan df sebesar 50, df ini adalah degree of freedom (derajat bebas) untuk kasus ini df = n, dan sig 0.200. Untuk menentukan data tersebut menyebar mengikuti sebaran normal atau tidak adalah dengan melihat sig. Sig sama seperti p-value, sehingga apabila sig > 0.05 maka terima H0, yang artinya data menyebar mengikuti sebaran normal.

2. Melalui Nonparametric test, prosedurnya adalah Analyze > Nonparametric Test > 1 Sample K-S




Output K-S Test


Intepretasi K-S Test

a. N = 50, artinya jumlah sampel sebanyak 50.

b. Mean = 150.37, artinya rata-rata sebesar 150.37

c. Standard deviation = 3.31, artinya standard deviasi sebesar 3.31, dari statistic ini terlihat bahwa standard deviasi relative kecil.

d. Positive = 0.117, artinya pengurangan antara distribusi kumulatif teoretik dengan distribusi kumulatif teoretik yang menghasilkan angka positive terbesar.

e. Negative = -0.164, artinya pengurangan antara distribusi kumulatif teoretik dengan distribusi kumulatif teoretik yang menghasilkan angka negative terbesar.

f. Absolute = 0.067, artinya dari perbandingan negative dan positif, yang terbesarlah yang dimasukkan dalam absolute.

g. Kolmogorov Smirnov Z = 0.567, artinya jika Z di bawah 1.97 maka dapat dikatakan tidak ada perbedaan antara distribusi teoretik dan distribusi empiric, dan berarti data menyebar normal.

h. Asymp. Sig. (2-tailed) = 0.905, artinya nilai ini sama seperti p-value, jika lebih besar dari 0.05 atau 5% maka terima H0 dan berarti data menyebar sesuai dengan distribusi normal.

i. Test distribution is Normal, artinya dalam table tersebut dijelaskan bahwa yang diuji adalah sebaran normal.

Monday, March 23, 2009

Normality Test – Anderson Darling

Normality test (uji sebaran normal) adalah uji yang digunakan untuk mengatahui apakah data menyebar mengikuti sebaran normal atau tidak.

Mengapa data harus mengikuti sebaran normal ?
Perlu diketahui bahwa analisis yang memerlukan adanya pendugaan terhadap parameter populasi yang diamati disebut analisis parametric. Dalam pendugaan parameter umumnya menggunakan statistic uji F, t, z dan khi-kuadrat. Statistic uji tersebut (F, t, z dan khi-kuadrat) diturunkan dari sebaran normal, sehingga sebelum melakukan analisis uji parametric diperlukan asumsi kenormalan data, karena analisis ini menghendaki data yang menyebar normal. Tidak terpenuhi asumsi ini akan berpengaruh terhadap resiko salah dalam penarikan kesimpulan, sehingga akan menghasilkan kesimpulan yang kurang dapat dipercaya atau menyimpang dari keadaan yang sebenarnya, (Solimun, 1998).

Beberapa uji kenormalan antara lain:
1. Anderson Darling Test
2. Kolmogorov Smirnov Test
3. Ryan Joiner Test
4. Saphiro Wilk Test

Sebelum menjelaskan uji-uji tersebut, Anda dapat menguji kenormalan data dengan plot kenormalan data (normal probability plot), di mana plot dari data tersebut dibentuk antara nilai data dengan nilai harapan data tersebut (expected value). Nilai harapan merupakan nilai yang Anda harapkan mendekati nilai populasi sebenarnya. Jika distribusi tersebut menyebar normal, maka plot data sample berada di sekitar garis lurus, yang merupakan nilai harapan.

Probability plot dari data yang menyebar normal


Probability plot dari data yang tidak menyebar normal


Anderson Darling Test

Anderson Darling Test adalah nama dari Theodore Wilbur Anderson, Jr. (1918–?) dan Donald A. Darling (1915–?), mereka menemukan statistic untuk menguji kenormalan data, dengan jumlah data yang kecil yaitu n kurang dari sama dengan 25 (n=<25). style="font-weight: bold;">D’Angostris & Stephens (1981), menyatakan bahwa uji ini berdasarkan pada pengujian fungsi sebaran komulatif empiris yang mendasari fungsi sebaran dari data contoh. Dalam pengujian ini, fungsi sebaran empiris menaksir fungsi sesungguhnya dari sebaran tersebut, karena fungsi sebaran empiris mendekati (konvergen ke fungsi sebaran sesungguhnya). Uji ini digunakan untuk memutuskan apakah contoh acak (data) berasal dari fungsi normal atau tidak. Menurut Stephens (1974), uji Anderson Darling digunakan sebagai uji kenormalan atau kebaikan suai (goodness of fit) untuk peubah kuantitatif. Anderson Darling Test bisa digunakan untuk menguji kenormalan berbagai macam sebaran data, yaitu sebaran normal, lognormal, exponensial, weibull, sebaran logistic.

Anderson Darling Test ini digunakan untuk mengetahui distribusi dari data sampel. Uji ini merupakan modifikasi dari Kolmogorov Smirnov Test (K-S Test), yaitu K-S Test yang telah diboboti. K-S Test merupakan uji yang bebas distribusi, artinya tidak bergantung pada distribusi data tertentu yang diuji. Sedangkan Anderson Darling Test, menggunakan distribusi data tertentu dalam menghitung nilai kritis. Kelebihan Anderson Darling Test adalah uji ini lebih sensitif daripada K-S Test, namun mempunyai kelemahan yaitu nilai kritis tersebut harus dihitung dari setiap distribusi data sampel. Anderson Darling Test yang merupakan variasi dari Kolmogorov Smirnov Test, menggunakan p-value untuk mengukur apakah sebaran tertentu tersebut menyebar normal atau tidak. P-Value adalah peluang bahwa sampel yang diuji terletak pada distribusi normal dari suatu populasi. Jika p-value lebih kecil dari 0.05 maka tolak hipotesa awal (H0).


Dalam software Minitab versi 15, Anderson Darling Test digunakan untuk membandingkan fungsi komulatif distribusi dari data sampel (the empirical cumulative distribution function) dengan nilai harapan (expected value) dari data tersebut. Jika perbedaan nilai observasi data tersebut cukup besar maka uji ini menolak hipotesis nol (H0), yang berarti data tidak menyebar normal.

-. Hipotesis dari Anderson Darling Test:
H0: Data mengikuti sebaran tertentu
H1: Data tidak mengikuti sebaran tertentu

-. Statistik uji:

di mana:

F merupakan fungsi komulatif distribusi (cumulative distribution function) dari distribusi tertentu.

-. Significance level: alpha

-. Daerah kritis: Nilai kritis dari Anderson Darling Test bergantung pada distribusi yang akan diuji. Secara statistics, keputusan menolak H0 apabila A lebih besar dari nilai kritis yang telah ditentukan.

Anderson Darling Test dapat dilakukan dengan mudah melalui beberapa software statistics, salah satunya Minitab versi 15. Dalam software tersebut, perhitungan uji Anderson Darling dapat melalui menu Stat > Basic statistics > Normality test ,



Kemudian pilih Anderson-Darling dalam menu Test of Normality.


Contoh: Data tinggi badan siswa dalam cm:

148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

-. Hipotesis dari Anderson Darling Test:
H0: Data mengikuti sebaran normal
H1: Data tidak mengikuti sebaran normal
-. α : 5 %
-. Teori pengambilan keputusan:
Terima H0 --> P-Value > α.
Tolak H0 --> P-Value < α.

Output Anderson Darling Test



Intepretasi Output Anderson Darling Test
-. Graphic: dari probability plot terlihat plot data sampel berada di sekitar garis lurus (expected value), ini menunjukkan bahwa data tinggi badan menyebar normal.

-. Statistic value:
a. Mean = 150.4, rata-rata data 150.4 cm, artinya nilai memusat pada nilai 150.4 cm

b. St. Dev = 3.306, standard deviasi sebesar 3.306. Nilai standard deviasi tidak terlalu besar, ini menunjukkan keragaman data tidak terlalu besar yang artinya data bersifat homogen.

c. N = 50, jumlah sampel yang dihitung adalah 50 data

d. AD = 0.239, nilai Anderson Darling sebesar 0.239. Nilai ini relative kecil, yang berarti terima H0 atau data menyebar normal, namun dari nilai AD ini belum dapat diputuskan secara pasti apakah data menyebar normal atau tidak, karena tidak ada parameter yang pasti untuk menentukan menyebar normal.

e. P-Value = 0.769, nilai P-Value sebesar 0.769. P-Value > 5%, artinya terima H0 yang menyatakan bahwa data menyebar normal.

Wednesday, March 18, 2009

Metode Pendeteksian Outliers

Setelah pada artikel sebelumnya membahas mengenai outlier, pada artikel ini akan dibahas mengenai metode pendeteksian outlier. Metode ini sudah dibahas pada salah satu bagian pada artikel sebelumnya, dan pada artikel ini akan dibahas dengan lebih detail. Sebagian besar artikel ini bersumber pada artikel yang ditulis oleh Soemartini, mahasiswa Jurusan Statistika, FMIPA, Universitas Padjajaran, tahun 2007 dengan judul Pencilan (Outlier) selain juga tambahan dari saya.

Beberapa metode yang untuk mengetahui outlier:
1. Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.

Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier.
Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.

2. Description Statistics

Metode ini sebenarnya lebih tepat digunakan untuk mengeksplorasi data, berfungsi meringkas informasi untuk membantu pengambilan keputusan dan meringkas data mentah sehingga didapatkan pola sebaran data dan menyajikan informasi di dalam data, selain itu untuk mendapatkan gambaran tentang bentuk sebaran data. Dari description statistics diperoleh mean, median, modus, standard deviasi, dan statistic lainnya yang dapat ditentukan sendiri. Dengan statistic tersebut kita dapat mengetahui gambaran mengenai penyebaran data, untuk outlier tidak dapat langsung diketahui tapi harus melalui perhitungan tambahan yaitu untuk batas atas ditentukan sebesar mean + 2*standard deviasi dan batas bawah ditentukan sebesar mean - 2*standard deviasi. Outlier adalah data yang berada di luar batas atas dan batas bawah tersebut. Outlier dapat juga dilihat jika standard deviation > mean maka terdapat data outlier.

3. Boxplot
Dalam statistics analysis, Box Plot merupakan metode graphic yang mudah digunakan dan diintepretasikan untuk memperoleh informasi dari sebuah sample. Boxplot pertama kali dikenalkan oleh American Statistician, John Tukey, pada tahun 1977. Box Plot dapat menyediakan informasi mengenai range, mean, median, kenormalan dari sebaran, dan kemiringan/kemencengan (skewness) dari sebaran.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical.

Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu:
a. Rata-rata (mean)
b. Median atau Q2 merupakan data yang terletak di tengah dari keseluruhan data, membagi data menjadi dua bagian yang sama besar (50%). Median ditunjukkan dengan garis horizontal.
c. Q1, Q1 merepresentasikan seluruh data yang terdapat pada 25 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar..
d. Q3, yaitu seluruh data yang terdapat pada 75 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar.
e. Outlier, yaitu data yang terletak diluar 1.5 * jarak antar quartile

4. Steam – Leaf Diagram
Diagram ini merupakan bagian dari statistika deskripif, digunakan untuk mengetahui keragaman data dengan cara membuat statistika tataan (ordered statistics) berupa penyusunan data dari kecil ke besar. Disebut juga diagram dahan daun, karena salah satu bentuk statsitik tataan yang dikelompokan berdasarkan dahan dan daun. Daun menunjukkan digit terakhir dari data, sedangkan digit di awal ditunjukkan dengan daun. Diagram dahan daun sama seperti diagram frekuensi, karena lebar dari baris dahan untuk kelas sama dengan frekuensi dalam kelas tersebut. Diagram ini disusun baris per baris secara vertical dan cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil.

Keuntungan dalam diagram dahan daun daripada diagram frekuensi antara lain :
a. Diagram dahan daun tidak hanya menampilkan frekuensi dari tiap interval, namun menampilkan juga semua data beserta frekuensinya.
b. Dapat melihat pola sebaran data, kita tetap memiliki data aslinya yang akan memudahkan proses mengurutkan data yang banyak diperlukan dalam analisa data.
c. Secara tidak langsung dapat digunakan untuk mengurutkan data, dibandingkan dengan pengurutan secara langsung dari sekumpulan data.
d. Dapat melihat kesimetrikan data dengan cara sederhana dibandingkan dengan pemeriksaan kenormalan data yang membutuhkan perhitungan peluang.
e. Dapat langsung membandingkan sebaran dari dua kumpulan data

5. Bland Altman Test
Bland & Altman plot merupakan method statistika yang digunakan untuk membandingkan dua tehnik pengukuran. Dalam method graphic ini selisih (atau rasio) antara dua tehnik pengukuran tersebut diplotkan dengan rata-ratanya. Bland Altman Test digunakan untuk mengetahui hubungan antara selisih dan rata-rata, selain itu untuk mengetahui outliers (pencilan, yaitu nilai pengamatan yang berbeda dengan pengamatan yang lain).

6. Leverage Values, DfFits, Cook’s Distance, dan DfBeta(s)
Dalam artikel Soemartini didefinisikan arti dari masing-masing metode :
a. Leverage Values: menampilkan nilai leverage (pengaruh) terpusat.
b. DfFITS atau Standardized DfFIT: menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan, yang sudah distandarkan.
c. Cook’s Distance: menampilkan nilai jarak Cook
d. DfBETA(s): menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk mendeteksi pencilan pada variabel bebas.
Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :
a. Leverage > (2p-1)/n -> terdapat outlier/ pencilan
b. DfFITS > 2*sqrt (p/n) -> terdapat outlier/ pencilan
c. Cook’s Distance > F(0.5; p, n-p) -> terdapat outlier/ pencilan
d. DfBETA(s) > 2/sqrt(n) -> terdapat outlier/ pencilan
di mana n = jumlah observasi (sampel); p = jumlah parameter

Thursday, March 12, 2009

Bland Altman Test

Bland & Altman plot merupakan metode statistika yang digunakan untuk membandingkan dua tehnik pengukuran. Dalam method graphic ini selisih (atau rasio) antara dua tehnik pengukuran tersebut diplotkan dengan rata-ratanya. Bland Altman Test digunakan untuk mengetahui hubungan antara selisih dan rata-rata, selain itu untuk mengetahui outliers (pencilan, yaitu nilai pengamatan yang berbeda dengan pengamatan yang lain). Bland Altman Test mempunyai beberapa ketentuan, antara lain adalah:
1. Skala variable yang diukur adalah skala kontinyu (skala interval dan rasio)
2. Ada pengulangan dalam variable tersebut
3. Variable yang diulang atau diukur harus mempunyai jumlah yang sama.



Graph tersebut menggambarkan scatter diagram dari selisih dan rata-rata dari dua pengukuran yang dibandingkan. Garis horizontal merupakan rata-rata dari selisih dan rata-rata selisih ditambah dan dikurangi dengan 1.96 kali dari standard deviasi selisih.

Cara membaca plot tersebut adalah apabila terdapat pengamatan atau titik dalam plot yang berada diluar 1.96 kali standard deviasi selisih berarti pengamatan tersebut berbeda dengan pengamatan lainnya (dianggap outliers). Begitu pula sebaliknya apabila berada di dalam 1.96 kali standard deviasi selisih berarti pengamatan tersebut mempunyai kesamaan dengan pengamatan yang lain atau dengan kata lain bukan sebagai outliers.

Repeatability
Bland & Altman Test dapat digunakan pula untuk mengukur repeatability dalam suatu metode dengan cara membandingkan pengukuran yang diulang dalam suatu data. Grafikdapat juga digunakan untuk mengetahui variabilitas atau ketepatan dalam suatu metode. Dalam repeatability test ini selisih dari rata-rata harus bernilai nol, karena hal ini menunjukkan bahwa dengan pengukuran yang berbeda, hasil yang diperoleh tidak mengalami perbedaan atau hasilnya tetap sama.

Dalam repeatability digunakan suatu koefisien yang disebut dengan Coefficient of Repeatability (CR), koefisien ini diperoleh dengan cara 1.96 kali standard deviasi selisih dua pengukuran, atau:

CR ini mempunyai makna bahwa semakin kecil nilainya (CR) maka semakin dekat (sama) antara dua percobaan yang diuji dan semakin besar maka semakin berbeda antara dua percobaan tersebut. Hanya saja besar kecilnya nilai CR tidak dapat ditentukan.

Wednesday, March 11, 2009

Steam – Leaf Diagram

Diagram ini merupakan bagian dari statistika deskripif, digunakan untuk mengetahui keragaman data dengan cara membuat statistika tataan (ordered statistics) berupa penyusunan data dari kecil ke besar. Disebut juga diagram dahan daun, karena salah satu bentuk statisitik tataan yang dikelompokan berdasarkan dahan dan daun. Daun menunjukkan digit terakhir dari data, sedangkan digit di awal ditunjukkan dengan daun. Diagram dahan daun sama seperti diagram frekuensi, karena lebar dari baris dahan untuk kelas sama dengan frekuensi dalam kelas tersebut. Diagram ini disusun baris per baris secara vertical dan cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil.

Cara membuat diagram dahan daun:
1. List digit 0 – 9 dalam sebuah kolom yang disebut sebagai dahan (satuan, puluhan, persepuluhan, dll bergantung pada magnitude data)
2. Tempatkan digit kedua pada dahan yang sesuai
3. Untuk memudahkan penentuan ukuran pemusatan, tempatkan daun secara berurutan (dari kecil ke besar)
4. Dahan dapat diuraikan ke dalam beberapa sub dahan
Contoh:
1.5 -> dahan = 1, daun = 5
27 -> dahan = 2, daun =7
1907 -> dahan 190, daun = 7

Keuntungan dalam diagram dahan daun daripada diagram frekuensi antara lain :
1. Diagram dahan daun tidak hanya menampilkan frekuensi dari tiap interval, namun menampilkan juga semua data beserta frekuensinya.
2. Dapat melihat pola sebaran data, kita tetap memiliki data aslinya yang akan memudahkan proses mengurutkan data yang banyak diperlukan dalam analisa data.
3. Secara tidak langsung dapat digunakan untuk mengurutkan data, dibandingkan dengan pengurutan secara langsung dari sekumpulan data.
4. Dapat melihat kesimetrikan data dengan cara sederhana dibandingkan dengan pemeriksaan kenormalan data yang membutuhkan perhitungan peluang.
5. Dapat langsung membandingkan sebaran dari dua kumpulan data

Ciri – cirinya antara lain:
1. Data asli masih tampak sehingga memudahkan pemeriksaan
2. Pusat data mudah diketahui
3. Penyimpangan terhadap kesetangkupan data mudah dideteksi
4. Data pencilan dapat dideteksi.

Sebaran data dapat dilihat dari penguraian dahan ini. Semakin banyak dahan maka semakin rendah daun yang didapatkan. Frekuensi komulatif menunjukkan peringkat data dan dapat digunakan untuk menentukan ukuran pemusatan data.
Contoh yang digunakan sama dengan contoh pada artikel Box Plot, berikut ini terdapat data tinggi badan siswa dalam cm:
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4
Maka stem – leaf diagramnya adalah sebagai berikut:
Frek. Kumulatif dahan daun
2 14 22
4 14 45
10 14 667777
23 14 8888888999999
(10) 15 0000001111
17 15 22222233333
6 15 4445
2 15 6
1 15
1 16 0
Dari diagram tersebut tampak bahwa mean dan median terletak pada nilai 150 cm dan pencilan adalah 160 cm.

Thursday, March 5, 2009

Box Plot

Dalam statistics analysis, Box Plot merupakan metode graphic yang mudah digunakan dan diintepretasikan untuk memperoleh informasi dari sebuah sample. Box Plot pertama kali dikenalkan oleh American Statistician, John Tukey, pada tahun 1977. Box Plot dapat menyediakan informasi mengenai range, mean, median, kenormalan dari sebaran, dan kemiringan/kemencengan (skewness) dari sebaran. John Tukey memperkenalkan metode yang efisien untuk menampilkan lima summary dalam data. Metode ini dikenal dengan Box Plot (atau Box and Whisker plot) mengukur median, quartile atas dan bawah, data maksimum dan minimum.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical.

Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu:
1. Rata-rata (mean)
2. Median atau Q2 merupakan data yang terletak di tengah dari keseluruhan data, membagi data menjadi dua bagian yang sama besar (50%). Median ditunjukkan dengan garis horizontal.
3. Q1, merepresentasikan seluruh data yang terdapat pada 25 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar..
4. Q3, yaitu seluruh data yang terdapat pada 75 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar.
5. Outlier, yaitu data yang terletak diluar 1.5 * jarak antar quartile

Dalam Box Plot dikenal juga yang disebut dengan hamparan (H-spread) atau jarak antar quartile (range interquartile-IQR), yaitu jarak antara Q1 dan Q3.

“Step” didefinisikan sebagai 1.5*H-spread. Pagar dalam (inner fences) adalah 1 * “Step”, Q1 - 1.5*H-spread dan Q3 + 1.5*H-spread, sedangkan pagar luar (outer fences) adalah 2* “Step” atau 3*H-spread, Q1 - 3*H-spread dan Q3 + 3*H-spread. Data yang terletak diluar pagar dalam (inner fences) disebut outlier, dan data yang terletak di luar pagar luar (outer fences) disebut data ekstrem.

Intepretasi dari Box Plot adalah sebagai berikut:
1. Box mengandung 50% dari data. Tepi atas dari box disebut Q3 (75% dari data) dan tepi bawah dari box disebut Q1(25 % dari data).
2. Garis yang terdapat pada box disebut dengan median data (Q2)
3. Apabila jarak antara tepi bawah dan tepi atas ke median data tidak sama, berarti distribusi data tersebut tidak simetris (skew).
4. Titik terakhir dari garis vertical merupakan nilai maksimum dan minimum, kecuali jika terdapat outlier dalam data tersebut. Panjang garis vertical tersebut adalah 1.5 kali inter quartile range (IQR = Q3 – Q1)
5. Titik yang berada di luar garis tersebut disebut dengan outlier.
6. Luas kotak menunjukkan besar kecilnya keragaman data.
7. Data yang terletak di antara dua pagar dalam merupakan data yang baik karena masih merupakan anggota kelompok data.
8. Garis whisker, jarak antara Q1 dan statistic peringkat paling dekat dengan pagar dalam dan jarak antara Q3 dengan statistic peringkat yang bernilai paling dekat dengan pagar dalam.


Misal berikut ini terdapat data tinggi badan siswa dalam cm:
148.7 149.8 147.9 152.1 152.1
147.9 150.4 160.0 150.5 150.4
147.3 142.6 153.4 149.3 153.8
144.7 154.9 152.7 150.5 151.0
149.2 154.0 152.7 147.2 145.8
149.9 151.2 148.0 148.0 153.0
146.3 149.2 149.3 153.0 150.7
152.2 148.7 148.7 146.8 148.9
155.1 151.5 148.9 152.3 156.2
153.3 151.6 154.1 150.3 142.4

Dari data tersebut diperoleh beberapa statistic:
Mean : 150.37 cm
Median : 150.38 cm
SE Mean: 0.46
St. Dev: 3.31
Nilai minimum: 142.4 cm
Nilai maximum: 160 cm
Q1: 148.49 cm
Q3: 152.69 cm

Box Plot untuk data tersebut:



Data tersebut menunjukkan adanya outlier yaitu data dengan nilai 160,00 karena nilai tersebut diluar 1,5*IQR. Kemudian dari boxplot tersebut dapat dilihat bahwa garis whiskers tidak sama panjang, dan median (Q2) tidak sama dengan mean (rata-rata) maka data tersebut tidak setangkup.

Kelebihan boxplot:
1. Secara visual menggambarkan lokasi dari data
2. Menunjukkan sebaran data tersebut simetri atau tidak
3. Tidak seperti metode yang lain, box plot memperlihatkan outlier
4. Dapat cepat digunakan untuk membandingkan lebih dari satu distribusi data pada satu tampilan secara bersamaan.

Kelemahan boxplot:
1. Cenderung memperhatikan outlier, yang mungkin tidak diperlukan dalam suatu data.
2. Selain itu bentuk distribusi terpengaruh pula adanya outlier.
3. Cenderung menyembunyikan detail dari distribusi data
Untuk mengurangi kelemahan ini, perlu disertakan pula histogram data sebagai pelengkap.