What is Data Mining?

Data mining adalah proses meng-ekstrak atau menemukan pengetahuan dari sejumlah data yang sangat banyak disimpan dalam database, data warehouse atau repositori data lainnya. Kebanyakan orang mengartikan data mining sebagai sebuah sinonim untuk istilah lain yaitu knowldege discovery from data (KDD), sementara yang lainnya memandang data mining sebagai sebuah langkah penting dalam proses knowledge discovery. Proses penemuan knowledge discovery terdiri dari sebuah urutan langkah sebagai berikut:

  1. Data cleaning (menghilangkan noise dan data yang tidak konsisten);
  2. Data integration (menggabungkan data dari beberapa sumber data);
  3. Data selection (mengambil dari database, data yang relevan terhadap proses data mining);
  4. Data transformation (mengubah bentuk data menjadi format yang sesuai untuk proses data mining);
  5. Data mining (proses penting yang mengaplikasikan metode cerdas untuk meng-ekstrak pola data);
  6. Pattern evaluation (mengidentifikasi pola yang benar-benar merepresentasikan pengetahuan/knowledge berdasarkan pengukuran tertentu);
  7. Knowledge presentation (melakukan visualisasi dan representasi pengetahuan).

Langkah 1 sampai dengan 4 merupakan bentuk lain dari data preprocessing, yaitu mempersiapkan data untuk proses data mining. Pola yang menarik akan berguna untuk user dan disimpan sebagai pengetahuan baru dalam knowledge base. Dalam proses knowledge discovery, data mining merupakan proses esensial yang menemukan pola tersembunyi untuk dievaluasi.

Pada umumnya, arsitektur sistem data mining terdiri dari komponen-komponen sebagai berikut:

  1. Database, data warehouse, World Wide Web, atau repositori informasi lainnya.
  2. Database server atau data warehouse server yang bertanggung-jawab untuk mengambil data yang relevan berdasarkan permintaan user.
  3. Knowledge base merupakan domain pengetahuan yang digunakan untuk menuntun pencarian atau evaluasi pola yang dihasilkan. Pengetahuan dapat meliputi concept hierarchies, user belief, metadata atau threshold tertentu.
  4. Data mining engine. Hal ini adalah bagian esensial yang idealnya terdiri atas sekumpulan modul fungsional untuk tugas-tugas seperti characterization, association and correlation analysis, classification, prediction, cluster analysis, outlier analysis, dan evolution analysis.
  5. Pattern evaluation module pada umumnya mengukur seberapa menariknya pola-pola dengan berinteraksi dengan modul-modul data mining.
  6. User interface. Modul ini menjalin komunikasi antara users dengan sistem data mining dengan mengijinkan user berinteraksi dengan sistem dengan memberikan sabuah data mining query atau task, serta menyediakan informasi untuk membantu pencarian. Komponen ini juga mengijinkan user mencari skema database atau data warehouse, struktur data, meng-evaluasi pola, dan membuat visualisasi pola.

Dari presprektif data warehouse, data mining dapat dipandang sebagai sebuah tingkat lanjut dari on-line analytical processing (OLAP). Data mining sebenarnya memiliki cakupan jauh lebih dalam daripada proses analisis sebuah sistem data warehouse, yaitu dengan dilibatkannya teknik lanjut untuk analisis data.

Walaupun terdapat banyak “sistem data mining” di pasaran, tidak semuanya dapat melakukan proses data mining yang sebenarnya.  Sebuah sistem analisis data yang tidak menangani jumlah data yang sangat banyak lebih cocok dikategorikan sebagai sebuah sistem machine learning, kakas analisis data statistik, atau sebuah prototipe sistem eksperimental. Sebuah sistem yang hanya dapat menampilkan data atau information retrieval, termasuk menemukan nilai agregat, menampilkan query answering pada database besar lebih cocok dikategorikan menjadi sebuah sistem database, sistem information retrieval, atau sistem database deduktif.

Data mining melibatkan integrasi teknik-teknik dari beberapa disiplin seperti teknologi database dan data warehouse, statistika, machine learning, high-performace computing, pattern recognition, neural networks, data visualization, information retrieval, image and signal processing, dan spatial atau temporal data analysis.

Sumber : 2nd edition – Data Mining Concepts and Techniques – Jiawei Han and Micheline Kamber