·
Pengertiani Data Mining
data mining juga bisa disebut knowledge discovery adalah proses
pengambilan pola pada data yang akan di proses lalu output tersebut berupa informasi yang
sangat penting. jadi apa itu data ? data merupakan kumpulan fakta dan dapat
memberikan gambaran, jadi setiap kita melakukan sesuatu dalam pengambilan data
maka data tersebut tersimpan dan pola-pola data itu akan diteliti secara manual
sehingga kita bisa mengetahui hal-hal yang akan terjadi.
·
Fungsi Data Mining
v Classification, yaitu
menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh:
pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang
lain.
v Clustering, yaitu
mengindentifikasikan kelompok-kelompok dari barang-barang atau produk-produk
yang mempunyai karakteristik khusus(clustering berbeda dengan classification,
dimana pada clustering tidak terdapat definisi-definisi karakteristik awak yang
di berikan pada waktu classification.)
v Association, yaitu
mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada suatu
waktu, seperti isi-isi dari keranjang belanja.
v Sequencing Hampir sama
dengan association, sequencing mengidentifikasikan hubungan-hubungan yang
berbeda pada suatu periode waktu tertentu, seperti pelanggan-pelanggan yang
mengunjungi supermarket secara berulang-ulang.
v Forecasting
memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan
sekumpulan data yang besar, seperti peramalan permintaan pasar.
Tujuan
Data Mining
v
Explanatory adalah Untuk menjelaskan beberapa kondisi
penelitian, seperti mengapa penjualan truk pick up meningkat di colorado.
v
Confirmatory Untuk mempertegas hipotesis, seperti
halnya 2 kali pendapatan keluarga lebih suka di pakai untuk membeli peralatan
keluarga, di bandingkan dengan satu kali pendapatan keluarga.
v
Exploratory Menganalisis data untuk hubungan yang
baru yang tidak di harapkan, seperti halnya pola apa yang cocok untuk kasus
penggelapan kartu kredit.
Metode
Data Mining
- Analisa
Masalah (Analyzing the Problem) Data asal atau data sumber harus bisa
ditaksir untuk dilihat apakah data tersebut memenuhi kriteria data mining.
Kualitas kelimpahan data adalah faktor
utama untuk memutuskan apakah data tersebut cocok dan tersedia sebagau
tambahan. Hasil yang diharapkan dari dampak data mining harus dengan hati-hati
dimengerti dan dipastikan bahwa data yang diperlukan membawa informasi yang
bisa diekstrak.
- Mengekstrak dan Membersihkan
Data (Extracting dan Cleansing The Data) Data pertama kli diekstrak dari
data aslinya, seperti dari OLTP basis data, text file, Microsoft Acces
Database, dan bahkan dari spreadsheet, lalu data tersebut diletakan dalam
data warehouse yang mempunyai sruktur yang sesuai dengan data model secara
khas.
Data Transformation Service (DTS) dipakai
untuk mengekstrak dan membersihkan data dari tidak konsistennya dan tidak
kompatibelnya dengan format yang sesuai.
- Validitas Data (Validating the
Data) Sekali data telah diekstrak dan dibersihkan, ini adalh latihan yang
bagus untuk menelusuri model yang telah kita ciptakan untuk memastikan
bahwa semua data yang ada adalah data sekarang dan tetap.
- Membuat dan Melatih Model
(Creatig and Training the Model) Ketika algoritma diterapkan pada model,
struktur telah dibangun.
Hal ini sangatlah penting pada saat ini
untuk melihat data yang telah dibangun untuk memastikan bahwa data
tersebut menyerupai fakta di dalam data sumber.
- Query Data dari Model Data
Mining (Querying the Model Data) Ketika model yang telah cocok diciptakan
dan dibangun, data yang telah dibuat tersedia untuk mendukung keputusan.
Hal ini biasanya melibatkan penulisan
front end query aplikasi dengan program aplikasi/suatu program basis data.
- Evaluasi Validitaas dari Mining
Model (Maintaining the Validity of the Data Mining Model) Setelah moddel
data mining terkumpul, lewat bebrapa waktu, karakteristik data awal
seperti granularitas dan validitas mungkin berubah. Karena model data
mining dapat terus berubah seiring perkembangan waktu.
Proses Data Mining
- Data
Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase
dimana data-data tidak lengkap, mengndung error dan tidk konsisten dibuang
dari koleksi data, sehingga data yang telah bersih relevan dapat digunakan
untuk diproses ulang untuk penggalian pengetahuan(discovery knowledge)
- Data Integration, pada tahap
ini terjadi integrasi data,dimana sumber-sumber data yang
berulang(multiple data), file-file yang berulang(multiple file), dapat
dikombinasikan dan digabungkan kedalam suatu sumber.
- Selection, pada langkah ini,
data yang relevan terhadap analisis dapat dipilih dan diterima dari
koleksi data yang ada.
- Data Transformation, juga
dikenal sebagai data consolidation. Pada tahap ini, dimana data-data yang
telah terpilih, ditransformasikan kedalam bentuk-bentuk yang cocok untuk prosedur
penggalian (meaning proedure) dengan cara melakukan normalisasi dan
agregasi data.
- Data Mining, tahap ini adalah
tahap yang paling penting, dengan menggunakan teknik-teknik yang
diaplikasikan untuk mengekstrak pola-pola potensial yang berguna.
- Pattern Evaluation, pada tahap
ini, pola-pola menarik dengan jelas mempresentasikan pengetahuan telah
diidentifikasi berdasarkan measure yang telah diberikan.
- Knowledge Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan teknik visualisasi untuk membantu user dalam mengerti dan menginterpresentasikan hasil dari data mining.
Software Aplikasi Data Mining
- arrot2: frameworkclusteringteks dan hasil pencarian.
- org: minerstruktur kimiadanweb search engine.
- ELKI: projectriset universitas dengan analisiscluster canggih danmetode deteksioutlier yangditulis dalam bahasa Java.
- GATE: pemroses bahasa natural dan tool rekayasa bahasa.
- JHepWork: framework analisis data berbasis Java yang dikembangkan di Argonne National Laboratory.
- KNIME: Konstanz Information Miner, framework analisis data komprehensif yang user-friendly.
- ML-Flex: paket software yang memungkinkan pengguna untuk mengintegrasikan dengan paket mesin belajar pihak ketiga yang ditulis dalam bahasa pemrograman apapun, mengeksekusi klasifikasi analisis secara paralel sepanjang node komputasi, dan menghasilkan laporanHTML dari hasil klasifikasi.
- NLTK (Natural Language Toolkit): Sebuah kumpulan libraries dan program untuk pengolahan bahasa simbolik dan statistik alami untuk bahasa Python.
- Orange: Sebuah komponen berbasis data miningdan suitesoftware mesin pembelajaran ditulis dalam bahasaPython.
- R: Sebuah bahasa pemrograman dan lingkungan perangkat lunak untuk komputasi statistik, data mining, dangrafis. Ini adalah bagian dariproyek GNU.
- RapidMiner: Sebuah lingkungan untuk pembelajaran mesin dan eksperimen data mining.
- UIMA: framework komponen untuk menganalisis konten tidak terstruktur seperti teks, audio dan video-awalnya dikembangkan oleh IBM.
- Weka: suitesoftware aplikasi
pembelajaran mesin yang ditulis dalam bahasa pemrograman Java.
Teknik
Data Mining
A). Sebelum mengetahui
teknik-teknik yang dapat digunakan dalam data mining terdapat empat operasi
yang dapat dihubungkan dengan data mining sebagai berikut.
B). Predictive modeling,
ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:
- Classification
Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk
setiap record dalam database dari satu setnilai class yang mungkin
- Value
Prediction Digunakan untuk memperkirakan nilai numeric yang kontinu yang
trasosiasi dengan record database. Teknik ini menggunakan teknik statistic
klasik dari linier regression dan nonlinier regression.
Baca juga refrensi
artikel terkait lainnya disini : Siklus Hidup Pengembangan Sistem Informasi Terlengkap
C). Database segmentation
Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah
segmen, cluster, atau record yang sama, dimana record tersebut diharapkan
homogen.
D). Link analysis Tujuan
link analysis adalah untuk membuat hubungan antara record yang individual atau
sekumpulan record dalam database. Aplikasi pada link analysis meliputi product
affinity analysis, direct marketing, dan stock price movement.
E). Deviation detection
Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik
ini mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang
telah diketahui sebelumnya.
Operasi
ini dapat ditampilkan menggunakan teknik statistik dan visualisasi. Aplikasi
deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu
kredit dan klaim asuransi, quality control, dan defect tracing. Dalam data
mining terdapat dua tipe teknik yaitu:
- Teknik Klasik (Classical Technique) yang terdiri atas:
- Statistic
adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan
deskripsi data yang akan digunakan dalam membuat laporan tentang informasi
yang penting agar seseorang dapat membuat keputusan yang berguna. Salah
satu keuntungan statistik adalah menampilkan database dalam tampilan
ber-level tinggi yang menyediakan informasi-informasi yang berguna tanpa
perlu mengerti setiap record secara detail.
F). Nearest Neighbour
prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua yang
digunakan dalam data mining.
Nearest
neighbour merupakan teknik prediksi yang hampir sama dengan pengelompokan,
untuk memperkirakan apakah nilai prediksi ada dalam satu record, mencari
kesamaan nilai prediktor didalam basis data historis dan menggunakan nilai
prediksi dari record yang “Terdekat” untuk tidak membagi-bagikan record.
G). Pengelompokan
(Clustering) merupakan metode yang mengklasifikasikan data kedalam
kelompok-kelompok berdasarkan kriteria masing-masing data.
Biasanya,teknik
ini dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa
yang telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk
segmentasi.
Teknik
generasi selanjutnya (The Next Generation Technique)
- Decision
Tree (Pohon Keputusan) Pohon keputusan merupakan model
prediktif yang dapat digambarkan seperti pohon, dimana setiap node didalam
struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk
menggolongkan data.
Struktur ini dapat digunakan untuk
membantu memperkirakan kemungkinan nilai setiap atribut data.
- Beberapa
hal menarik tentang tree:
- Tree ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun. Jumlah total record pada node parent sama dengan jumlah total record yang ada node children.
- Sangat mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan model dari neural network atau dari statistik standar.
- Mudah
untuk menggunakan model ini jika kita mempunyai target pelanggan yang
sepertinya tertarik dengan penawaran marketing.
Dari
perspektif bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi
dari data set yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan
tertentu, misalnya untuk prediksi dari beberapa potong informasi penting.
Meskipun
decision tree sendiri dan algoritma yang membuat decision tree itu mungkin saja
sangat kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti
sangat membantu untuk pengguna bisnis.
Decision
tree sering kali dikembangkan untuk statistican dalam mengotomatisasi proses
menentukan field mana dari database mereka yang benar-benar berguna untuk
terkorelasi dengan masalh tertentu yang sedang mereka usahakan untuk mengerti.
Karena
itu, algoritma decision tree cenderung mengotomatisasi seluruh proses pembuatan
hipotesis dan kemudian melakukan validasi yang lebih komplit dalam cara yang
lebih terintegrasi dibanding dengan teknik data mining lainnya.
Decision
tree biasanya digunakan untuk berbagai kebutuhan:
- Eksplorasi Teknologi decision tree dapat digunakan untuk eksplorasi data set dan masalah bisnis. Hal ini biasanya dilakukan dengan mencari predictor dan nilai yang dipilih untuk setiap bagian/cabang dari tree tersebut.
- Preprocessing
data Teknologi ini juga dapat digunakan untuk mengolah daan memproses data
yang dapat digunakan pada algoritma lain, misalnya neural network, nearest
neighbour, dan lain-lain.
Hal itu karena algoritma lain memerlukan
waktu yang relatif lama untuk dijalankan jika terdapat jumlah predictor dalam
jumlah besar untuk digunakan sebagai model sehingga teknik decision tree
biasanya digunakan pada tahap pertama data mining untuk menciptakan subset yang
berguna dari predictor baru kemudian hasil tersebut akan dapat dimasukkan pada
teknik data miing yang lain.
- Prediksi
Para analis menggunakan teknik ini untuk membangun sebuah model prediktif
yang efektif.
Decision
tree mempunyai beberapa keuntungan sebagai berikut :
- Decision
tree mudah dimengerti dan diinterprestasikan.
- Penyiapan
data untuk decision tree adalahutama dan tidak dibutuhkan.
- Decision
tree dapat mengatasi, baik data nominal maupun kategorial.
- Decision
tree merupakan model white box.
- Decision
tree dapat melakukan validasi terhadap model dengan tes statistik. Hal itu
akan memungkinan untuk menghitung reliabilitad model.
Decision
tree merupakan teknik yang kuat, dapat bekerja baik dengan data yang besar
dalam waktu yang singkat.
Contoh Penerapan Data Mining
- Analisa pasar dan manajemen. Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.
- Analisa Perusahaan dan Manajemen resiko. Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).
- Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.
- Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money laundry) .
- Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.
- IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.
- Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang angkasa.
- Internet Web surf-aid IBM Surf-Aid
menggunakan algoritma data mining untuk mendata akses halaman Web
khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat
customer serta melihat ke- efektif-an pemasaran melalui Web.
Arsitektur
Sistem Data mining
- Basis
data, data warehouse atau tempat penyimpanan informasi lainnya.
- Basis
data dan data warehouse Komponen ini bertanggung jawab dalam pengambilan
relevant data, berdasarkan permintaan pengguna.
- Basis pengetahuan. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda.Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah threshold dan metadata yang menjelaskan data dari berbagai sumber yang heterogen.
- Data
mining Bagian ini merupakan komponen penting dalam arsitektur sistem data
mining. Komponen ini terdiri modul-modul fungsional data mining seperti
karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
- Modul
evaluasi pola. Komponen ini menggunakan ukuran-ukuran kemenarikan dan
berinteraksi dengan modul data mining dalam pencarian pola-pola menarik.
Modul evaluasi pola dapat menggunakan threshold kemenaikan untuk
mem-filter pola-pola yang diperoleh.
- Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem data mining. Melalui modul ini, pengguna berinteraksi dengan sistem mengan menentukan kueri atau task data mining.Antarmuka juga menyediakan informasi untuk memfokuskan pencarian dan melakukan eksplorasi data mining berdasarkan hasil data mining antara.Komponen ini juga memungkinkan pengguna untuk mencari (browse) basis data dan skema data warehouse atau struktur data, evaluasi pola yang diperoleh dan visualisasi pola dalam berbagai bentuk. Arsitektur sebuah sistem data mining dapat diliat dibawah ini.
- Basis data
Relasional
Basis
data relasional merupakan koleksi dari table. Setiap table berisi atribut
(field) dan biasanya menyimpan sejumlah besar tuple (record).
Setiap
tuple dalam table relasional merepesentasikan sebuah objek yang
diidentifikasikan oleh kunci unik dan dideskripsikan oleh sekumpulan nilai
atribut. Data relasional dapat diakses oleh kueri basis data yang ditulis dalam
bahasa kueri relasional seperti SQL atau dengan bantuan antarmuka pengguna
grafis.
- Data warehouse
Data
warehouse merupakan tempat penyimpanan informasi yang dikumpulkan dari berbagai
sumber, disimpan dalam skema yang dipersatukan (unified schema) dan biasanya
bertempat pada tempat penyimpanan tunggal.
Data
warehouse dikonstruksi melalui sebuah proses data cleaning, data
transformation, data integration, data loading dan periodic data refreshing.
Untuk memfasilitasi proses pembuatan keputusan, data dalam data warehouse
diorganisasikan ke dalam subjek utama seperti customer, item, supplier atau
aktivitas.
Data
disimpan untuk menyediakan informasi dari perspektif sejarah (seperti 5-10
tahun yang lalu) dan biasanya data tersebut diringkas (summarized). Sebagai
contoh, daripada menyimpan data rinci dari transaksi penjualan, data warehouse
dapat menyimpan ringkasan dari transaksi per tipe item untuk setiap toko atau
diringkas dalam level yang lebih tinggi seperti daerah pemasaran.
Data
warehouse biasanya dimodelkan oleh struktur basis data multidimensional, dimana
setiap dimensi berkaitan dengan sebuah atribut atau sekumpulan atribut dalam
skema, dan setiap sel menyimpan nilai dari ukuran agregasi seperti count dan
sales_amount.
Struktur
fisik dari data warehouse dapat berupa penyimpanan basis data relasional atau
sebuah kubus data multidimensional.
Selain data warehouse, terdapat istilah penyimpanan data yang lain yaitu data
mart. Sebuah data warehouse mengumpulkan informasi mengenai subjek- subjek yang
menjangkau seluruh organisasi, dengan demikian cakupannya enterprise-wide.
Sedangkan data mart merupakan sub bagian dari data warehouse. Fokus data mart
adalah pada subjek yang dipilih dan dengan demikian cakupannya adalah
department-wide.
- Basis data
Transaksional
Secara
umum, basis data transaksional terdiri dari sebuah file dimana setiap record
merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan
identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang
membuat transaksi (seperti item yang dibeli dalam sebuah took).
Basis
data transaksi dapat memiliki tabel tambahan, yang mengandung informasi lain
berkaitan dengan penjualan seperti tanggal transaksi, customer ID number, ID
number dari sales person dan dari kantor cabang (branch) dimana penjualan terjadi.
Sumber :
oleh : Muhammad Iqbal Hakmi
No comments:
Post a Comment