Data Mining- Klasifikasi part 1

September 6, 2008 at 5:11 pm Tinggalkan komentar

Dalam data mining dikenal sebuah istilah klasifikasi, klasifikasi menurut definisi dari sumber adalah

Classification is a data mining (machine learning) technique used to predict group membership for data instances

Menurut definisi tsb klasifikasi adalah teknik yang dilakukan untuk memprediksi class atau properti dari setiap instance data.

Definisi Data

Untuk mengetahui definisi dari data dalam klasifikasi mari kita lihat tabel dibawah ini

 

2

2

3

1

Tua

Merokok

Lemah Jantung

1

Tua

Tidak Merokok

Agak Lemah Jantung

Dari tabel diatas diketahui ada 3 elemen yaitu
  1. instance : data itu sendiri, setiap instance akan memiliki atribut dan class
  2. atribut : atribut adalah keterangan yang dikandung dalam data itu sendiri, setiap data bisa memiliki lebih dari 1 atribut. biasanya atribut menggunakan variabel diskrit
  3. class : class adalah status dari setiap instance, class adalah kesimpulan dari setiap data, setiap data biasanya hanya memiliki 1 class, biasanya class menggunakan variable diskrit
nah dalam klasifikasi, permasalahan yang dihadapai adalah menentukan class atau attribut dari suatu data yang sebelumnya belum diketahui

Tahapan

Tahapan dari klasifikasi dalam data mining terdiri dari 

  • Pembangunan model, dalam tahapan ini dibuat sebuah model untuk menyelesaikan masalah klasifikasi class atau attribut dalam data, model ini dibangun berdasarkan training set-sebuah contoh data dari permasalahan yang dihadapi, training set ini sudah mempunyai informasi yang lengkap baik attribut maupun classnya
  • Penerapan model, pada tahapan ini model yang sudah dibangun sebelumnya digunakan untuk menentukan attribut / class dari sebuah data baru yang attribut / classnya belum diketahui sebelumnya
  • Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan sebelumnya dievaluasi menggunakan parameter terukur untuk menentukan apakah model tersebut dapat diterima

Pembangunan Model

Dalam tahapan ini dibuat sebuah model yang dapat melakukan klasifikasi dari training data, 
Jika didapatkan training data sebagai berikut

No

Usia

Diabetes

Rajin Berolahraga

Lajang

Cakep

LS ?

1

Muda

Tidak

Ya

Ya

Tidak

Tidak

2

Muda

Tidak

Tidak

Ya

Tidak

Sedikit

3

Muda

Ya

Ya

Ya

Tidak

Ya

4

Muda

Ya

Tidak

Ya

Tidak

Ya

5

Matang

Tidak

Ya

Tidak

Ya

Tidak

6

Matang

Tidak

Tidak

Tidak

Tidak

Sedikit

7

Matang

Ya

Ya

Tidak

Ya

Ya

8

Matang

Ya

Tidak

Ya

Tidak

Ya

dapat diusulkan model sebagai dibawah ini. ( cara membangkitkan model dan memilih splitting attribut akan dibahas lebih lanjut pada artikel selanjutnya )
model 1 :
if ( diabetes = ya ) maka LS = Ya
else if ( diabetes = tidak ) {
if ( Rajin Berolahraga = Ya ) LS = Tidak
else if ( Rajin berolahraga = Tidak ) LS = Sedikit  
yang jika dituliskan flowchartnya adalah sebagai berikut

 

model solusi 1

model solusi 1

 

dari model tersebut, jika digunakan pada training data didapatkan misklasifikasi sebesar 0 / 8 = 0 %
Penerapan Model
Setelah didapatkan model tersebut, model bisa diuji kepada data yang belum terklasifikasi seperti set data dibawah ini,  untuk mengetahui seberapa efektif model terhadap kondisi nyata diberikan jawaban yang seharusnya dijawab oleh model

No

Usia

Diabetes

Rajin Berolahraga

Lajang

Cakep

LS ?

Keadaan Nyata

1

Muda

Tidak

Ya

Ya

Tidak

-

Tidak

2

Muda

Tidak

Tidak

Ya

Tidak

-

Sedikit

3

Muda

Ya

Ya

Ya

Tidak

-

Ya

4

Muda

Ya

Tidak

Ya

Tidak

-

Ya

5

Matang

Tidak

Ya

Tidak

Ya

-

Tidak

6

Matang

Tidak

Tidak

Tidak

Tidak

-

Sedikit

7

Matang

Ya

Ya

Tidak

Ya

-

Ya

8

Lanjut

Tidak

Ya

Tidak

Tidak

-

Ya

setelah model digunakan, model akan memberikan jawaban sebagai berikut

No

LS ?

Keadaan Nyata

1

Tidak

Tidak

2

Sedikit

Sedikit

3

Ya

Ya

4

Ya

Ya

5

Tidak

Tidak

6

Sedikit

Sedikit

7

Ya

Ya

8

Tidak

Ya

Evaluasi Model

Dari penerapan model diketahui bahwa akurasi model dibandingkan dengan kasus nyata adalah 7/8 = 87,5 %
kesalahan klasifikasi pada nomor 8 disebabkan karena pada saat training belum diketahui kondisi tersebut, sehingga model tidak memformulasikan untuk kasus tersebut
Jika diketahui besaran error data yang sudah disebutkan sebelumnya, ada 2 pilihan yang bisa diambil, yaitu membuat model lain atau menerima model tersebut- misalnya karena batasan error tersebut diterima 
Untuk sementara sekian dahulu, pada pembahasan selanjutnya akan dibahas mengenai
  • algoritma membangun model pohon keputusan menggunakan beberapa algortima populer 
  • metodelogi evaluasi model yang lebih komprehensif
Untuk referensi lebih mendalam mengenai pokok bahasan ini bisa mengunduh dari sini, ppt dari pakar data mining favorit saya, Prof Jiawei Han

Entry filed under: Data Mining, Sains Komputer. Tags: , , , .

Sejarah akan berulang-Entah Kapan Solusi Kelangkaan Energi Indonesia

Tinggalkan Balasan

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Ubah )

Twitter picture

You are commenting using your Twitter account. Log Out / Ubah )

Facebook photo

You are commenting using your Facebook account. Log Out / Ubah )

Connecting to %s

Trackback this post  |  Subscribe to the comments via RSS Feed


Kalender

September 2008
S S R K J S M
     
1234567
891011121314
15161718192021
22232425262728
2930  

Arsip Tulisan

Kategori


Ikuti

Get every new post delivered to your Inbox.