Senin, 14 Juni 2010
Artikel Pribadi : Data Mining
. Persaingan yang semakin ketat
Dalam dunia bisnis yang selalu dinamis dan penuh persaingan, para pelakunya harus senantiasa memikirkan cara-cara untuk terus survive dan jika mungkin mengembangkan skala bisnis mereka. Untuk mencapai hal itu, dapat diringkaskan tiga kebutuhan bisnis, yaitu:
a. Penambahan jenis maupun peningkatan kapasitas produk.
b. Pengurangan biaya operasi perusahaan.
c. Peningkatan efektifitas pemasaran dan keuntungan.
1.2. Asal Muasal Data Mining.
Ketersediaan data yang melimpah, kebutuhan akan informasi (atau pengetahuan) sebagai pendukung pengambilan keputusan untuk membuat solusi bisnis, dan dukungan infrastruktur di bidang teknologi informasi merupakan cikal-bakal dari lahirnya teknologi data mining. Ketersediaan data transaksi dalam volume yang besar: Bidang-bidang industri yang memiliki data transaksi dalam volume besar ini misalnya jaringan ritel, telekomunikasi, perbankan, kartu kredit, dll. Sistem manajemen transaksi pada industri tersebut merekord informasi-informasi rinci yang diperlukan dalam bisnis mereka. Informasi sebagai aset perusahaan yang penting: Kebutuhan terhadap informasi telah melahirkan gudang data yang mengintegrasikan informasi dari sistemsistem yang tersebar untuk mendukung pengambilan keputusan. Seringkali gudang data ini juga dilengkapi dengan data demografis kustomer dan informasi mengenai rumah-tangga. Ketersediaan teknologi informasi dalam skala yang terjangkau: Saat ini teknologi informasi berbasis sistem yang terbuka sudah dapat diadopsi secara luas. Ini termasuk sistem manajemen basis data, kakas penganalisis, dan yang terkini adalah pertukaran informasi dan publikasi melalui jaringan Intranet. Faktor-faktor tersebut di atas dikombinasikan dengan konsep solusi bisnis yang telah diuraikan sebelumnya, telah melahirkan teknologi data mining. Data mining dimaksudkan untuk memberikan solusi nyata bagi para pengambil keputusan di dunia bisnis, untuk mengembangkan bisnis mereka. Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka. Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting. Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.
Definisi Data Mining
Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text, dan multimedia.
Data mining dapat juga didefinisikan sebagai “pemodelan dan penemuan polapola yang tersembunyi dengan memanfaatkan data dalam volume yang besar ”Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritmaalgoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi.
Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan. Ruang Lingkup Data Mining Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya.
Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan-kemampuan sebagai berikut :
1. Mengotomatisasi prediksi tren dan sifat-sifat bisnis.
2. Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar
Langkah / cara untuk menyelesaikan masalah bisnis:
Langkah pertama untuk menyelesaikan permasalahan bisnis adalah mendefinisikan permasalahan dengan sejelas-jelasnya. Sebagai contoh, permasalahan umum yang dihadapi oleh perusahaan-perusahaan dot-com adalah:
1. Bagaimana menyajikan advertensi kepada target yang tepat sasaran.
2. Menyajikan halaman Web yang khusus untuk setiap kustomer (mempersonalisasi halaman Web) agar kustomer merasa diperlakukan secara khusus dan karenanya akan tetap setia dengan perusahaan itu.
3. Menampilkan informasi produk-produk lain yang biasa dibeli bersamaan dengan produk tertentu.
4. Mengklasifikasi artikel-artikel secara otomatis.
5. Mengelompokkan pengunjung Web yang memiliki kesamaan karakteristik tertentu.
6. Mengestimisasi data yang hilang.
7. Memprediksi kelakukan di masa yang akan datang2. Pencarian solusi dari masalah-masalah ini akan berkaitan dengan penemuan dan pemanfaatan dari berbagai jenis polapola yang tersembunyi dari gudang data yang kemungkinan sudah dimiliki oleh perusahaan.
Penjelasan lebih lanjut dari masalah - masalah di atas dan konsep dasar yang dipikirkan oleh para pelaku dan penganalisis bisnis sebagai solusinya diberikan di bawah ini:
A. Perumusan target. Para ahli pemasaran menggunakan teknik-teknik tertentu untuk memilih orang-orang yang menjadi target pemasaran untuk disuguhi advertensi tertentu. Tujuannya antar lain adalah untuk meningkatkan profit perusahaan, pengenalan produk secara luas, atau hasil-hasil terukur lainnya.
B. Personalisasi.
Para ahli pemasaran memanfaatkan personalisasi untuk memilih advertensi yang paling sesuai untuk (atau memberikan rekomendasi tertentu kepada) orang tertentu. Personalisasi dapat dipandang sebagai kontradiksi dari “perumusan target”. Pada perumusan target, yang disasar adalah sebanyak mungkin orang yang
memiliki potensi untuk membeli produkproduk tertentu, sedangkan pada personalisasi, tujuannya adalah agar kustomer yang sudah menjadi pelanggan membeli sebanyak mungkin produk – produk yang dijual oleh perusahaan.
C. Asosiasi (juga dinamakan analisis keranjang-pasar).
Asosiasi ini mengidentifikasi item-item produk yang mungkin dibeli bersamaan dengan produk lain, atau “dilihat” secara bersamaan pada saat mencara informasi mengenai produk tertentu. Pada halaman Web, kustomer diingatkan untuk melihat atau membeli produk-produk yang
berkaitan dengan produk yang menjadi minat kustomer.
D. Manajemen pengetahuan.
Sistem ini mengidentifikasi dan memanfaatkan pola-pola di dalam dokumen yang berbahasa alami, atau berformat text. Di sini didefinisikan asosiasi antara katakata dan konteksnya dalam konsep tingkat-atas. Hal ini dapat dilakukan dengan “melatih” sistem dengan dokumen-dokumen yang sudah ditandai
dengan konsep-konsep yang relevan. Sistem kemudian membangun sebuah pencocok pola untuk tiap konsep. Ketika dihadapkan pada dokumen baru, pencocok pola akan memutuskan tingkat relevansi dari dokumen ini terhadap konsep. Pendekatan ini dapat digunakan untuk menyortir dokumen-dokumen baru yang masuk ke dalam kategori-kategori yang sudah ada. Juga dapat digunakan untuk mempersonalisasi publikasi online. Selain itu, dapat juga dimanfaatkan untuk menciptakan atau membangkitkan dokumen jawaban-jawaban secara otomatis terhadap pertanyaan-pertanyaan yang masuk.
E. Pengelompokan (Clustering).
Pengelompokan mengidentifikasi orangorang yang memiliki kesamaan karakteristik tertentu, dan kemudian menggunakan karakteristik tersebut sebagai “vektor karakteristik” atau “centroid”. Pengelompokan ini digunakan oleh perusahaan untuk membuat laporan mengenai karakteristik umum dari grup-grup pengunjung (kustomer) yang berbeda.
F. Estimasi dan Prediksi. Estimasi menerka sebuah nilai yang belum diketahui, misalnya penghasilan seseorang, ketika informasi lain mengenai orang tersebut diketahui.
Prediksi memperkirakan nilai untuk masa mendatang, misalnya probabilitas orang untuk membeli sebuah mobil baru tahun depan, ketika orang itu belum melakukannya. Atau nilai saham yang akan dibeli tahun depan.
G. Pohon keputusan. Pohon keputusan ini dapat dipandang sebagai diagram alir dari titik-titik pertanyaan yang menuju pada sebuah keputusan. Pohon keputusan ini diterapkan pada sistem pemilihan produk-produk yang dijual perusahaan.
. Cara Kerja Data Mining
Pertanyaan – pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya. Mengotomatisasi penemuan polapola yang tidak diketahui sebelumnya. Kakas ata mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produkproduk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer. Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit dan identifikasi adanya data anomaly yang dapat diartikan sebagai data salah ketik (karena kesalahan operator).
Cara Kerja Data Mining Bagaimana tepatnya data mining “menggali” hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi. Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya.
6. Bahasan Teknis Data Mining
Hubungan Data Mining dan Knowledge Data Discovery
Hubungan Data Mining dan Knowledge Data Discovery (KDD) Penjelasan umum yang diberikan di atas memberikan pengertian bahwa seolah – olah teknologi data mining adalah teknologi utuh dan berdiri sendiri. Dibandingkan dengan knowledge data discovery (KDD), istilah data mining lebih dikenal para pelaku bisnis. Pada aplikasinya, sebenarnya data mining merupakan bagian dari proses KDD. Sebagai komponen dalam KDD, data mining terutama berkaitan dengan ekstraksi dan penghitungan pola-pola dari data yang ditelaah. Secara garis besar,
.langkah-langkah utama dalam proses KDD adalah :
1. Pemahaman terhadap domain dari aplikasi, relevansinya terhadap pengetahuan yang ada dan goal dari end-user.
2. Menciptakan himpunan data target: pemilihan himpunan data, atau memfokuskan pada subset variable atau sampel data, dimana penemuan (discovery) akan dilakukan.
3. Pemrosesan pendahuluan dan pembersihan data: operasi dasar seperti penghapusan noise dilakukan.
4. Proyeksi dan pengurangan data: pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai.
5. Pemilihan tugas data mining: pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll.
6. Pemilihan algoritma data mining untuk pencarian (searching).
7. Data mining: pencarian pola – pola yang diinginkan di himpunan representasi.
8. Penterjemahan pola-pola yang dihasilkan dari data mining, kemungkinan dapat kembali langkah 1-7 untuk iterasi lebih lanjut.
9. Konsolidasi pengetahuan yang ditemukan: pendokumentasian hasil, pencarian penyelesaian apabila ada konflik dengan pengetahuan yang telah dipercaya sebelumnya.
Metodologi Data Mining
Tugas Utama Data Mining Telah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar.
Tugas Tugas Utama Data Mining
Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini.
1. Klasifikasi
adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsure (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan.
2. Regresi
adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.
3. Pengelompokan (clustering)
merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping). Di sini, cluster - cluster dapat saling menumpu, sehingga titik-titik data dapat menjadi anggota lebih dari satu cluster. Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.
4. Pemodelan Kebergantungan
adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik.
5. Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.
Komponen Algoritma Data Mining Setelah tugas-tugas utama dari data mining didefinisikan seperti di atas, maka perlu dirumuskan algoritma-algoritma untuk mencari solusi dari tugas-tugas tersebut di atas.
Komponen Utama Algoritma Data mining :
Dalam setiap algoritma data mining ada tiga komponen utama yaitu representasi model, evaluasi model dan metodologi pencarian.
1. Representasi Model
adalah bahasa untuk mendeskripsikan pola-pola yang dapat ditemukan. Jika representasi terlalu terbatas, maka tidak akan ada jumlah waktu pelatihan maupun sampel yang mencukupi, yang akan menghasilkan model yang akurat untuk data.
2. Evaluasi Model
mengestimasi tingkat kecocokan sebuah pola tertentu untuk memenuhi kriteria pada proses KDD. Evaluasi pada keakuratan prediksi (validasi) didasarkan pada validasi silang. Evaluasi kualitas deskriptif berkaitan dengan akurasi, kebaruan, utilitas dan kemampuan untuk dipahami dari model yang diterapkan. Kiteria logika dan statistik dapat digunakan untuk evaluasi model.
3. Metodologi Pencarian
terdiri dari dua komponen: pencarian parameter dan pencarian model.
Pada pencarian parameter, algoritma harus mencari parameter-parameter yang mengoptimisasi kriteria evaluasi model dengan tersedianya data yang diobservasi dan representasi model yang tetap.
Pencarian model terjadi sebagai sebuah loop di atas metodologi pencarian parameter: representasi model diubah sehingga dibentuk satu keluarga model-model. Untuk setiap representasi model, metodologi pencarian parameter diinstansiasi untuk mengevaluasi kualitas dari model itu. Implementasi metodologi pencarian model cenderung untuk menggunakan teknik pencarian heuristic.
7. Metodologi Data Mining yang
Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.
Langganan:
Posting Komentar (Atom)
Tidak ada komentar:
Posting Komentar