Wednesday, March 18, 2009

Metode Pendeteksian Outliers

Setelah pada artikel sebelumnya membahas mengenai outlier, pada artikel ini akan dibahas mengenai metode pendeteksian outlier. Metode ini sudah dibahas pada salah satu bagian pada artikel sebelumnya, dan pada artikel ini akan dibahas dengan lebih detail. Sebagian besar artikel ini bersumber pada artikel yang ditulis oleh Soemartini, mahasiswa Jurusan Statistika, FMIPA, Universitas Padjajaran, tahun 2007 dengan judul Pencilan (Outlier) selain juga tambahan dari saya.

Beberapa metode yang untuk mengetahui outlier:
1. Metode Grafis
Metode ini dilakukan dengan cara memplot data dengan observasi ke-i (i=1, 2, 3,…,n). Dalam beberapa software statistika, metode ini dilakukan dalam menu scatterplot. Dari plot tersebut, pencilan akan nampak memisahkan diri dari kumpulan sebagian besar data.

Panah pada plot tersebut menunjuk pada data yang diduga menjadi outlier.
Keuntungan dari metode ini adalah mudah dipahami (tanpa melibatkan perhitungan yang rumit) dan menarik karena menampilkan data secara grafis (gambar). Kelemahan metode ini adalah keputusan bahwa data tersebut termasuk pencilan atau tidak bergantung pada kebijakan (judgement) peneliti, karena hanya mengandalkan visualisasi grafis.

2. Description Statistics

Metode ini sebenarnya lebih tepat digunakan untuk mengeksplorasi data, berfungsi meringkas informasi untuk membantu pengambilan keputusan dan meringkas data mentah sehingga didapatkan pola sebaran data dan menyajikan informasi di dalam data, selain itu untuk mendapatkan gambaran tentang bentuk sebaran data. Dari description statistics diperoleh mean, median, modus, standard deviasi, dan statistic lainnya yang dapat ditentukan sendiri. Dengan statistic tersebut kita dapat mengetahui gambaran mengenai penyebaran data, untuk outlier tidak dapat langsung diketahui tapi harus melalui perhitungan tambahan yaitu untuk batas atas ditentukan sebesar mean + 2*standard deviasi dan batas bawah ditentukan sebesar mean - 2*standard deviasi. Outlier adalah data yang berada di luar batas atas dan batas bawah tersebut. Outlier dapat juga dilihat jika standard deviation > mean maka terdapat data outlier.

3. Boxplot
Dalam statistics analysis, Box Plot merupakan metode graphic yang mudah digunakan dan diintepretasikan untuk memperoleh informasi dari sebuah sample. Boxplot pertama kali dikenalkan oleh American Statistician, John Tukey, pada tahun 1977. Box Plot dapat menyediakan informasi mengenai range, mean, median, kenormalan dari sebaran, dan kemiringan/kemencengan (skewness) dari sebaran.

Box Plot dapat juga digunakan untuk mengetahui data extreme (outlier) dari suatu data. Box Plot dapat digambarkan dalam posisi vertical maupun horizontal. Apabila digambarkan dalam vertical, maka data terkecil berada di paling bawah dan data terbesar berada di paling atas. Sedangkan dalam posisi horizontal, data terkecil terletak di sebelah kiri dan terbesar di sebelah kanan. Dalam artikel ini posisi untuk Box Plot adalah posisi vertical.

Box Plot disebut juga box and whisker diagram, diagram yang secara visual menunjukkan pusat data, distribusi, dan lima ringkasan data, yaitu:
a. Rata-rata (mean)
b. Median atau Q2 merupakan data yang terletak di tengah dari keseluruhan data, membagi data menjadi dua bagian yang sama besar (50%). Median ditunjukkan dengan garis horizontal.
c. Q1, Q1 merepresentasikan seluruh data yang terdapat pada 25 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar..
d. Q3, yaitu seluruh data yang terdapat pada 75 % bagian dari keseluruhan data, setelah data diurutkan dari yang terkecil hingga terbesar.
e. Outlier, yaitu data yang terletak diluar 1.5 * jarak antar quartile

4. Steam – Leaf Diagram
Diagram ini merupakan bagian dari statistika deskripif, digunakan untuk mengetahui keragaman data dengan cara membuat statistika tataan (ordered statistics) berupa penyusunan data dari kecil ke besar. Disebut juga diagram dahan daun, karena salah satu bentuk statsitik tataan yang dikelompokan berdasarkan dahan dan daun. Daun menunjukkan digit terakhir dari data, sedangkan digit di awal ditunjukkan dengan daun. Diagram dahan daun sama seperti diagram frekuensi, karena lebar dari baris dahan untuk kelas sama dengan frekuensi dalam kelas tersebut. Diagram ini disusun baris per baris secara vertical dan cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil.

Keuntungan dalam diagram dahan daun daripada diagram frekuensi antara lain :
a. Diagram dahan daun tidak hanya menampilkan frekuensi dari tiap interval, namun menampilkan juga semua data beserta frekuensinya.
b. Dapat melihat pola sebaran data, kita tetap memiliki data aslinya yang akan memudahkan proses mengurutkan data yang banyak diperlukan dalam analisa data.
c. Secara tidak langsung dapat digunakan untuk mengurutkan data, dibandingkan dengan pengurutan secara langsung dari sekumpulan data.
d. Dapat melihat kesimetrikan data dengan cara sederhana dibandingkan dengan pemeriksaan kenormalan data yang membutuhkan perhitungan peluang.
e. Dapat langsung membandingkan sebaran dari dua kumpulan data

5. Bland Altman Test
Bland & Altman plot merupakan method statistika yang digunakan untuk membandingkan dua tehnik pengukuran. Dalam method graphic ini selisih (atau rasio) antara dua tehnik pengukuran tersebut diplotkan dengan rata-ratanya. Bland Altman Test digunakan untuk mengetahui hubungan antara selisih dan rata-rata, selain itu untuk mengetahui outliers (pencilan, yaitu nilai pengamatan yang berbeda dengan pengamatan yang lain).

6. Leverage Values, DfFits, Cook’s Distance, dan DfBeta(s)
Dalam artikel Soemartini didefinisikan arti dari masing-masing metode :
a. Leverage Values: menampilkan nilai leverage (pengaruh) terpusat.
b. DfFITS atau Standardized DfFIT: menampilkan nilai perubahan dalam harga yang diprediksi bilamana case tertentu dikeluarkan, yang sudah distandarkan.
c. Cook’s Distance: menampilkan nilai jarak Cook
d. DfBETA(s): menampilkan nilai perubahan koefisien regresi sebagai hasil perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk mendeteksi pencilan pada variabel bebas.
Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya pencilan atau tidak adalah sebagai berikut :
a. Leverage > (2p-1)/n -> terdapat outlier/ pencilan
b. DfFITS > 2*sqrt (p/n) -> terdapat outlier/ pencilan
c. Cook’s Distance > F(0.5; p, n-p) -> terdapat outlier/ pencilan
d. DfBETA(s) > 2/sqrt(n) -> terdapat outlier/ pencilan
di mana n = jumlah observasi (sampel); p = jumlah parameter

No comments: