Dalam proses collecting data, researcher sering menemukan nilai pengamatan yang bervariasi (beragam). Keberagaman data ini, di satu sisi sangat dibutuhkan dalam analisa statistika, namun di sisi yang lain keberagaman data menyebabkan adanya nilai pengamatan yang berbeda dengan nilai pengamatan lainnya. Dengan kata lain terdapat beberapa data yang berbeda dengan pola keseluruhan data. Penyebabnya mungkin terdapat kesalahan pada pengamatan, pencatatan, maupun kesalahan yang lain. Data yang berbeda ini disebut sebagai outlier atau data pencilan.
Beberapa definisi outlier:
1. Dari www.infoskripsi.com menyatakan bahwa outliers (pencilan data) adalah data observasi yang muncul dengan nilai-nilai ekstrim baik secara univariat maupun multivariat.
2. Outliers adalah data yang muncul memiliki karakteristik unik yang terlihat sangat jauh berbeda dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel kombinasi, (Hair, dkk, 1995).
3. Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain, (Ferguson, 1961).
4. Outlier adalah pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data, (Barnett, 1981)
5. Outlier adalah pengamatan yang jauh dari pusat data yang mungkin berpengaruh besar terhadap koefesien regresi, (R.K. Sembiring, 1950)
6. Multi outlier adalah outlier yang muncul di dalam range ketika dikombinasikan dengan variabel lain.
Menurut www.infoskripsi.com, outlier tersebut muncul karena berbagai kemungkinan:
1. Kesalahan prosedur dalam memasukkan data atau mengkoding
2. Karena keadaan yang benar-benar khusus, seperti pandangan responden terhadap sesuatu yang menyimpang
3. Karena ada sesuatu alasan yang tidak diketahui penyebabnya oleh peneliti,
4. Muncul dalam range nilai yang ada, tetapi bila dikombinasi dengan variabel lain menjadi ekstrim (disebut multivariat outliers).
Pendeteksian outlier
1. Solimun, 2002, mengatakan bahwa outliers dapat dilakukan dengan diagram kotak garis (box plot), bilamana terdapat titik di luar batas pagar (dalam output software komputer) umumnya dilambangkan dengan * mengindikasikan terdapat data pencilan (outliers). Cara lainnya adalah dengan melihat mean dan standard deviationnya (untuk data interval dan ratio) yaitu bilamana standard deviation > mean berarti terdapat data ouliers.
2. Menurut www.infoskripsi.com, pengujian univariat outlier dapat dilakukan dengan menentukan nilai ambang batas yang akan dijadikan outlier dengan cara mengkonversi nilai data penelitian ke dalam standard score atau Z-Score (Ferdinand, 2002). Nilai terstandar memiliki rata-rata (Mean) nol dengan standar deviasi (SD) sebesar satu. Batas nilai z-score menurut Hair dkk (1998) berada pada rentang 3-4.
3. Pemeriksaan terhadap multi outlier dapat dilakukan dengan uji jarak Mahalanobis pada tingkat p <> (Solimun, 2004). Jarak Mahalanobis dievaluasi dengan menggunakan χ² pada derajat kebebasan (df) sejumlah variabel yang digunakan dalam penelitian (Ferdinand, 2002). Data tidak memiliki multi outlier apabila Mahalanobis Distance tidak lebih besar dari χ².
Pengaruh outlier
Outlier berpengaruh terhadap proses analisa data, salah satunya terhadap nilai mean dan standard deviasi. Oleh karena itu, dalam suatu pola data keberadaan outlier harus dihindari. Outlier dapat menyebabkan variance data menjadi besar, interval data dan range menjadi lebar, mean tidak dapat menunjukkan nilai yang sebenarnya (bias), dan pada beberapa analisa inferensia outlier dapat menyebabkan kesalahan dalam pengambilan keputusan dan kesimpulan.
Dalam www.infoskripsi.com, outliers dapat dievaluasi dengan dua cara, yaitu:
1. Univariate outliers, deteksi terhadap adanya outlier univariat dapat dilakukan dengan menentukan nilai ambang batas yang akan dikategorikan sebagai outliers dengan cara mengkonversi nilai data penilaian kedalam standard score atau yang biasa disebut z-score, yang mempunyai rata-rata nol dengan standar deviasi sebesar satu. Bila nilai-nilai itu telah dinyatakan dalam format yang standar (z-score), maka perbandingan antar besaran nilai dengan mudah dapat dilakukan. Untuk sampel besar (di atas 80 observasi), pedoman evaluasi adalah nilai ambang batas dari z-score ini berada pada rentang 3 sampai dengan 4 (Hair, dkk, 1995). Oleh karena itu kasus-kasus atau observasi-observasi yang mempunyai z-score > 3,0 akan dikategorikan outliers.
2. Multivariate outliers, evaluasi terhadap multivariate outliers perlu dilakukan sebab walaupun data yang dianalisis menunjukkan tidak ada outliers bila sudah saling dikombinasikan. Jarak Mahalanobis (the Mahalanobis Distance) untuk tiap-tiap observasi dapat dihitung dan akan menunjukkan jarak sebuah observasi dari rata-rata semua variabel dalam sebuah ruang multidimensional (Hair, dkk, 1995). Uji terhadap outliers multivariate dilakukan dengan menggunakan kriteria jarak Mahalanobis pada tingkat p kurang dari 0.001. Jarak Mahalanobis ini dievaluasikan dengan menggunakan χ² pada derajat bebas sebesar jumlah variabel yang digunakan dalam penelitian ini.
Seminar Statistik STIS - 3 Oktober 2011
13 years ago