Friday, January 16, 2009

The Lure of Statistics in Data Mining

Judul tersebut diambil dari Journal of Statistics Education Volume 16, Number 1 (2008), www.amstat.org/publications/jse/v16n1/grover.html. Ditulis oleh Lovleen Kumar Grover and Rajni Mehra Guru Nanak Dev University, India, BBK DAV College for Women, India. Bila diterjemahkan dalam bahasa Indonesia kurang lebih artinya adalah daya tarik statistika pada data mining. Dalam abstraknya penulis menjelaskan bahwa pada dasarnya penerapan data mining hampir sama seperti statistika, berhubungan dengan “learning from data” dan “turning data into information”. Dengan menggunakan data yang besar seperti dalam statistika, data mining mempunyai konotasi bahwa ilmu ini berguna untuk mencari sesuatu di dalam data untuk menduga suatu ide atau gagasan. Saat ini kita mencoba untuk mendiskusikan persamaan dan perbedaan antara statistician dan data miners. Artikel ini bertujuan untuk menjembatani dan menjelaskan gap antara dua komunitas ini.

Jurnal ini dibagi ke dalam lima pokok bahasan. Dalam point pendahuluan, penulis membahas mengenai kemungkinan aspek yang paling penting dari aplikasi statistika. Kemudian mendiskusikan mengenai data melalui kacamata statistician. Artikel ini diakhiri dengan diskusi mengenai perbedaan antara statistician dan data miners, termasuk didalamnya mengenai aktivitasnya yang berkenaan dengan data.

Dalam pendahuluan, penulis menjelaskan bahwa statistika dan data mining secara keilmuan hampir sama. Statistician dan data miners menggunakan beberapa teknik keilmuan yang sama. Pada mulanya, statistika dikembangkan dari pecahan matematika lebih dari satu abad yang lalu dan digunakan untuk membantu scientist dalam proses observasi dan design experiment untuk menghasilkan hasil yang akurat yang berhubungan dengan metode penelitian. Akhir-akhir ini muncul isu bahwa data mining dapat pula digunakan untuk menganalisa jumlah sample yang besar untuk menemukan pola dan aturan tertentu. Selain itu, data mining merupakan aplikasi dari statistika dalam bentuk eksplorasi data dan meramalkan pola dari data dengan jumlah yang besar (Berry-Linoff (1997)). Oleh karena itu seperti statistika, data mining tidak hanya untuk membuat model dan memprediksi saja namun juga dapat digunakan untuk menyelesaikan suatu proses.

Pada mulanya data mining digunakan untuk memfasilitasi perusahaan untuk masalah marketing dan sales. Tapi saat ini, tehnik data mining digunakan juga untuk masalah yang lain seperti law enforcement, radio astronomy, medicines, dan industrial process control, dll. Data miners dalam proses mengembangkan algoritma mengambil dari statistika, ilmu komputer, dan riset lainnya. Penerapan data mining dikombinasikan berdasarkan hal-hal berikut ini:
a. Sifat dari tugas dari data mining
b. Sifat dari data yang tersedia
c. Skill dan kecenderungan dari data miners
Oleh karena statistika dan data mining merupakan suatu proses yang berhubungan dengan data maka masalah utamanya adalah bagaimana mendapatkan data untuk informasi, dari informasi untuk suatu pengetahuan, dari pengetahuan untuk pengambilan keputusan dan dari pengambilan keputusan untuk suatu tindakan. Dengan begitu, kita dapat mengatakan bahwa kita sedang berada dalam lautan informasi tetapi tidak mendapatkan pengetahuan dari informasi tersebut. Perbaikan dalam hal ini terdapat pada data mining dan atau statistika. Dengan dibutuhkannya banyak data dalam segala bidang maka harus ada suatu database (kumpulan data-data) untuk menyelesaikan yang berhubungan dengan hal itu. Database yang besar ini dapat menjadi suatu sumber daya. Dari sinilah awal mula terciptanya data mining. Proses dari data mining ini disebut sebagai KDD (Knowledge Discovery in Data Mining). Aktivitas utama dari data mining antara lain adalah classification, estimation, prediction, affinity grouping or association rules, clustering; and description dan visualization. Kemajuan tekhnologi terutama pada bidang komputer, dapat membantu menyederhanakan proses analisa, walaupun dibutuhkan data dalam jumlah yang besar. Hal ini membuat peneliti tidak melibakan lagi data dalam jumlah yang kecil namun dalam jumlah yang besar.

Pada pembahasan kedua, penulis memberi judul mengenai “data mining dan statistika”. Beberapa tehnik data mining ditemukan statistician atau terdapat dalam software statistika, yang merupakan perluasan dari statistika standard. Meskipun data miners dan statistician mempunyai memiliki kesamaan dalam beberapa hal, namun data mining mempunyai pendekatan yang berbeda dengan statistika dalam beberapa hal, antara lain:
a. Data miners mengasumsikan membutuhkan lebih banyak data dan proses data
b. Data miners mengasumsikan bahwa mereka tergantung pada ketepatan waktu dalam proses data dimanapun
c. Sangat sulit untuk design experiment dalam dunia bisnis tanpa data mining
Hal ini merupakan perbedaan pendekatan dari statistika. Salah satunya adalah mengenai data, perbedaan utama antara data bisnis dan data scientific adalah data bisnis merupakan data yang sudah terpotong dan tersensor (truncated and cencored data) sedangkan data scientific merupakan data asli yang tidak terpotong dan tersensor (non truncated and non cencored data). Apabila dilihat dari metodologi dan algoritma dalam menganalisa data, sangat sulit untuk dibedakan apakah itu statistika atau data mining. Pada kenyataannya, dalam industri masyarakat tidak akan pernah menanyakan ”Apakah anda seorang data miners atau statistician?”. Yang paling penting adalah bagaimana masyarakat industri puas terhadap hasil yang diperoleh, tanpa melihat apakah itu data miners atau statistician. Sebagai seorang yang melayani customer, anda (baik itu sebagai data miners maupun statistician) ingin mencoba tehnik statistika atau algoritma tertentu untuk menyelesaikan masalah customer.

Dengan memanfaatkan metode analisis yang sudah advance dalam data mining, bisnis dapat meningkatkan keuntungan, memaksimalkan efiseinsi operasional, memotong biaya dan meningkatkan kepuasan pelanggan. Sedangkan statistika membuat hal ini untuk model prediksi atau membangun suatu model klasifikasi. Tanpa statistika maka tidak ada analisa yang efektif. Tanpa analisa yang efektif maka tidak ada business inteligence. Tanpa business inteligence, bagaimana anda dapat berharap untuk mengasimilasi banyak data dengan konsisten yang pada akhirnya dapat membuat keputusan yang berarti dalam kompetisi industri anda ?

Dengan statistika, anda dapat mentransformasi data anda ke dalam proses bisnis anda. Menggunakan statistika dalam data mining dapat secara meningkatakan secara signifikan (data) pada perusahaan anda. Saat ini dalam area bisnis, merupakan tantangan untuk tetap konsisten dalam market dan dapat memprediksi mengenai masa depan industri. Jika anda tidak dapat mengumpulkan (mining) terhadap data anda, maka nantinya anda akan merasa bersalah terhadap salah aset perusahaan anda ini, yaitu data.

Walaupun dalam statistika hanya memperhatikan suatu contoh (sample) dalam memutuskan suatu populasi, sedangkan masalah data mining selalu melibatkan data populasi, namun disinilah statistika dapat berperan. Disisi lain data mining hanya berguna untuk menemukan data saja dan disini sehingga tidak membutuhkan statistika, misal seperti dalam hal expreimental design dan survey design. Data mining mempunyai asumsi bahwa yang terpenting adalah data yang sudah dikumpulkan dan ini berkaitan dengan bagaimana cara menemukan rahasia dalam data tersebut. Untuk studi lebih lanjut mengenai persamaan dan perbedaan statistika dan data mining dapat dilihat di Hand (1999a, 1999b).

Selanjutnya pada point ketiga penulis memberi judul “Does Data Mining Mean Statistics or More Than Statistics ?”. Terus terang saya tidak berusaha menerjemahkan dalam bahasa Indonesia karena saya khawatir hal ini dapat mengubah makna sesungguhnya. Secara nyata, data mining merupakan bentuk yang sama dengan mengeruk data (data dredging) atau memancing data (data fishing) dan telah digunakan untuk proses menguraikan data dengan harapan dapat mengidentifikasi suatu pola. Data memang tidak memiliki kesamaan, data mempunyai perbedaan ketika diintepretasikan sebagai suatu pola. Masalahnya adalah banyak pola akan secara mudah membentuk suatu pola acak dan tidak berdasarkan suatu struktur tertentu. Bagi statistician, data mining menyampaikan sesuatu yang sia-sia dalam proses penyampaian data.

Perbedaan statistika dengan data mining salah satunya terletak pada jumlah sample. Statistician mempunyai type bahwa mereka tidak terkait hanya dengan data yang berjumlah besar saja. Ini mungkin tidak berlebih-lebihan untuk mengatakan bahwa statistician mempunyai terkait dengan analisa data primer. Sedangkan data miners mempunyai keterkaitan dengan data sekunder. Faktanya kita mungkin mendefinisikan data miners sebagai proses analisa terhadap data sekunder dari database dengan jumlah besar dengan tujuan mendapatkan hubungan dalam data tersebut,

Isu utama dari data mining berguna untuk menemukan pola dan struktur dalam data base. Tentu saja dengan komputer hal ini sangat mudah untuk mencari pola dan struktur dari suatu data. Sebelum mencari pola dan struktur data yang dilakukan pertama kali adalah mendefinisikan sesuatu yang menarik pada pola dan struktur yang akan ditentukan. Tentunya sesuatu yang menarik berdasarkan kebutuhan dan keinginan. Ketika mencari pola atau struktur, kompromisasi dibutuhkan dalam masalah yang spesifik dan umum. Namun, data mining tidak mengetahui ketepatan dari pola untuk ketepatan hasil. Di sisi lain definisi pola yang lain dapat pula diaplikasikan untuk data tersebut. Pada saat memilih pola lain untuk diaplikasikan, maka timbul peluang atau probablity dalam proses analisanya. Masalah ini sama seperti dalam statistics model. Dalam point ini penulis menjelaskan bahwa data miners harus belajar mengenai statistika.

Pada point selanjutnya, penulis membahas mengenai perlu tidaknya data mining masuk dalam kurikulum pengajaran mahasiswa statistika. Penulis menjabarkan hal-hal yang berhubungan dengan statistika, data mining, dan bahkan ilmu komputer dalam pembahasan ini, terutama dalam hubungannya dengan pengajaran terhadap mahasiswa. Statistika merupakan curriculum yang tradisional yang digambarkan dengan data yang kecil, data yang bersih, data yang statis dan acak, dan selalu dikumpulkan dengan pertanyaan yang specific. Data seperti itu tidak dapat diaplikasikan dalam konteks data mining. Karena bagi statisticians yang klasik, data dalam jumlah besar dapat menjadi masalah, tapi bagai data miners hal ini merupakan masalah yang sepele.

Data mining dan statistika merupakan dua hal yang unik. Masalah teoretis timbul dalam data mining. Hal ini nampak bahwa data miners dapat diletakkan dalam konteks statistika secara luas, karena sama-sama menggunakan data. Dengan begini, statistika lebih cenderung untuk menjadi inclusif, berwawasan luas dan berkenaan dengan metodologi, berhubungan dengan ilmu atau disiplin ilmu yang lain, dan dapat digunakan oleh semua orang. Mayoritas data miners harus mempunyai keahlian statistika. Untuk itu dibutuhkan perubahan dalam curriculum statistika dengan melibatkan data miners. Hal ini agar data miners tidak sering melakukan kesalahan dalam menganalisa data. Bahkan terkadang software statistics seperti SAS, S-PLUS, SPSS, and STATISTICA, dijual sebagai software data mining dan bukan sebagai software statistics.

Faktanya pertanyaan yang sering muncul adalah apabila mahasiswa statistika ingin mengaplikasika statistika mereka pada industri, bagaimana caranya dan apa yang harus dipersiapkan ? Beberapa pelajaran statistika berhubungan dengan algorithma data mining dan melalui software dapat dikembangkan algortima tersebut. Pengajar harus memulai memberikan pelajaran pada mahasiswa statistika mengenai hal –hal yang berhubungan dengan data base. Mahasiswa statistika juga harus sadar mengenai tantangan untuk menyimpan, mengakses, dan “menggerakan” jumlah data yang besar dengan visualisasi yang efektif untuk presentasi.

Statistika mempunyai kontribusi pada data mining antara lain pada:
1. Model probabilitias.
2. Ide mengenai kesalahan dalam pengukuran (measurement error)
3. Ide mengenai statistical significance
4. Mengenai hubungan sebab akibat
Dengan adanya perkembangan tehnologi, data mining nantinya akan sering berhubungan dengan komputer. Sehingga pertanyaan untuk yang akan datang adalah apakah statistika tetap memasukan data mining di dalamnya atau memasukkannya sebagai bagian dari ilmu komputer ?

Terakhir, apabila ditanyakan apakah data mining termasuk dalam kurikulum statistik ? Hal ini harus dijawab secara antusias “Ya”, Data mining esensinya adalah analisis statistika. Seperti pengalaman yang menjelaskan kepada kita bahwa statistika lemah dalam mengenalkan ide-ide penting, maka saat ini dengan adanya data mining, statistika dapat mengangkat reputasinya dalam hal ide. Apabila ini tidak manfaatkan maka statistika hanya untuk statistician sendiri, dan akan susah diaplikasikan oleh orang lain.

Point terakhir yang menjadi pembahsan penulis adalah mengenai kesimpulan dari jurnal ini. Statistician dan data miners memecahkan masalah yang sama. Namun demikian, secara sejarah displin ilmu menjadi masalahnya, kedua ilmu ini mempunyai perbedaan. Perdebatan ”perbedaan antara statistika dan data mining” disimpulkan bahwa tidak menjadi penting apakah itu statistika maupun data mining. Begitupula dengan masalah ”computation”, karena ”computation” merupakan inti dari proses dalam data mining maka sangat lumrah jika ahli komputer mengatakan bahwa data mining merupakan bagian dari ilmu mereka. Meskipun demikian, tehnik di dalam data mining, secara umum merupakan aplikasi dari statistics. Referensi mengenai statistics dan data mining dapat dilihat pada Berry and Linoff (1997, 2000), Chatfield (1997), Friedman (1998), Hand (1999a, 1999b), Hastie et al. (2001). (krisnafr)


(diringkas sesuai dengan jurnal asli dengan keterbatasan oleh Krisna Rahmantya)

2 comments:

infogue said...

Artikel anda di

http://datamining.infogue.com/the_lure_of_statistics_in_data_mining

promosikan artikel anda di infoGue.com. Telah tersedia widget shareGue dan pilihan widget lainnya serta nikmati fitur cedsmon

Rahmi Imanda said...

artikel yang menarik, kami juga punya artikel tentang 'data mining' silahkan buka link ini
http://repository.gunadarma.ac.id/bitstream/123456789/2292/1/01-03-012.pdf
semoga bermanfaat ya