Definisi Data Mining
Data mining didefinisikan sebagai satu set teknik yang
digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke
permukaan relasi-relasi yang kompleks pada set data yang sangat besar.
Data mining dapat juga didefinisikan sebagai “pemodelan dan
penemuan polapola yang tersembunyi dengan memanfaatkan data dalam volume yang
besar”1. Data mining menggunakan pendekatan discovery-based dimana pencocokan
pola (pattern-matching) dan algoritmaalgoritma yang lain digunakan untuk
menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining
merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di
perusahaan-perusahaan. Ruang Lingkup Data Mining
Data mining (penambangan data), sesuai dengan namanya,
berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data
yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan
penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data
dalam kualitas dan ukuran yang memadai,
Tugas Utama Data Mining
Telah disebutkan di ruang lingkup data mining bahwa pada
kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat
prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field
basis data untuk memprediksi nilai-nilai
variabel masa mendatang yang diperlukan, yang belum
diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari
data yang ditelaah. Dalam konteks KDD, deskripsi dipandang lebih penting
daripada prediksi. Ini berlawanan dengan aplikasi pengenalan pola dan mesin
belajar.
Proses Data Mining
Karena DM adalah suatu rangkaian proses, DM dapat dibagi
menjadi beberapa tahap yang diilustrasikan pada gambar diatas :
1. Pembersihan data (untuk membuang data yang tidak
konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai
untuk di-mining)
4. Aplikasi teknik DM
5. Evaluasi pola yang ditemukan (untuk menemukan yang
menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap diatas, bersifat interaktif di mana pemakai
terlibat langsung atau dengan perantaraan knowledge base.
Knowledge Discovery and Data Mining(KDD) adalah proses yang
dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan
data dan mengekstrak informasi dan pengetahuan yang berguna. Data mining tools
memperkirakan perilaku dan tren masa depan, memungkinkan bisnis untuk membuat
keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu
menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan.
Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan
infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di
luar ekspektasi mereka.
Proses dalam KDD adalah proses yang digambarkan pada dan
terdiri dari rangkaian proses iteratif sebagai berikut.
1. Data cleaning, menghilangkan noise dan data yang
inkonsisten.
2. Data integration, menggabungkan data dari berbagai sumber
data yang berbeda
3. Data selection, mengambil data yang relevan dengan tugas
analisis dari database
4. Data transformation, Mentransformasi atau menggabungkan
data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau
aggregation.
5. Data mining, proses esensial untuk mengekstrak pola dari
data dengan metode cerdas.
6. Pattern evaluation, mengidentifikasikan pola yang menarik
dan merepresentasikan pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation, penyajian pengetahuan yang digali
kepada pengguna dengan menggunakan visualisasi dan teknik representasi
pengetahuan.
Cara Kerja Data Mining
Bagaimana tepatnya data mining “menggali” hal-hal penting
yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi?
Teknik yang digunakan untuk melaksanakan tugas ini disebut
pemodelan. Pemodelan di sini
dimaksudkan sebagai kegiatan untuk membangun sebuah model
pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada
situasi lain yang akan dicari jawabannya. Sebagai contoh di sini diambil
pencarian solusi bisnis di bidang telekomunikasi. Ada beberapa perusahaan
telekomunikasi yang beroperasi di sebuah negara dan dimisalkan pihak manajemen
sebuah perusahaan bermaksud untuk menjaring kustomer baru untuk jasa layanan sambungan
langsung jarak jauh (SLJJ). Pihak manajemen dapat “menghubungi” calon-calon
kustomer dengan memilih secara acak kemudian menawari mereka dengan diskon
khusus, dengan hasil yang kemungkinan besar kurang menggemberikan, atau dengan
memanfaatkan pengalaman-pengalaman bisnis yang saat ini sudah tersimpan di
basis data perusahaan untuk membangun sebuah model. Perusahaan ini telah
memiliki banyak informasi mengenai kustomer perusahaan tersebut: umur, jenis
kelamin, sejarah penggunaan fasilitas kredit dan penggunaan SLJJ. Juga sudah
diketahui informasi mengenai calon-calon kustomer: umur, jenis kelamin, sejarah
penggunaan fasilitas kredit, dll. Masalahnya adalah penggunaan SLJJ untuk para
calon kustomer ini belum diketahui, karena mereka saat ini menjadi kustomer
dari perusahaan lain. Yang dipikirkan pihak manajemen adalah mencari calon
kustomer yang akan menggunakan banyak jasa SLJJ. Usaha untuk mencari jawaban
masalah ini dilakukan dengan membangun sebuah model.
Tidak ada komentar:
Posting Komentar