DMML Minggu ketiga

Hari ini kuliah data mining lagi. Gimana dengan tugas kedua? alhamdulillah tugas kedua terselesaikan dan dikumpulkan. Untuk mengenerate flat file kugunakan python. Tujuan dari tugas kedua ini sebenarnya adalah mendapatkan pengalaman untuk mengenerate flat file dengan bahasa pemrograman apapun. Ada yang menggunakan C, Visual basic, perl dan lain-lain. Namun profesor pengajar kelas data mining lebih menyarankan untuk menggunakan python ataupun perl.

Setelah minggu pertama membahas tentang apa itu data mining dan machine learning, minggu kedua membahas mengenai input yang akan diolah di data mining maupun di machine learning. Dalam menyiapkan input dikenal berbagai macam istilah data input seperti ARFF format, LIBSVM format ataupun format yang lain.

Contoh ARFF format :

%

%ARFF file for weather data with some numeric feature

%

@relation weather

@attribute outlook{sunny,overcast,rainy}

@attribute temperature numeric

@attribute humidity numeric

@attribute windy {true, false}

@attribute play? {yes, no}

@data

sunny, 85, 85, false, no

sunny, 80, 90, true, no

overcast, 83, 86, false, yes

…………..

Ada 2 jenis tipe data dalam ARFF format maupun dalam LIBSVM, nominal dan numeric. String termasuk dalam tipe data nominal. Sementara numeric untuk data yang berjenis angka. Data dalam LIBSVM disimpan dalam bentuk numeric semua. Jadi jika ada nominal value akan diubah kedalam numeric value. Selain itu class label (target label) berada di awal baris, bukan di akhir baris, sementara untuk ARFF format diletakkan di akhir baris. Sebagai contoh untuk data weather diatas dengan class label play, jika diubah menjadi format LIBSVM akan menjadi :

0 1:1 2:85 3:85 4:1

0 1:1 2:80 3:90 4:1

1 1:2 2:83 3:86 4:2

Dengan terlebih dahulu memberikan asumsi nilai numeric terhadap setiap nilai dalam attribute. Untuk data diatas misalnya data pada baris pertama :

0 1:1 2:85 3:85 4:1 artinya 0 menyatakan class label ‘no’, 1:1 menyatakan attribute pertama bernilai sunny (sunny=1, overcast=2, rainy=3), 2:85 menyatakan attribute keduabernilai 85 (boleh diubah ke numeric tertentu atau langsung dikonversi sebagai nilai pada atribut kedua, dan seterusnya.

Bagaimana dengan nilai 0 atau mungkin nilai yang hilang. Jika nilai yang hilang dikonversi menjadi 0 maka bisa dilakukan sparse data. Sparse data adalah menghilangkan data yang bernilai 0. Misalnya (dalam ARFF format):

0, 26, 0, 0, 0, 0, 63, 0, 0, 0, “class A” menjadi

{1 26, 6 63, 10 “class A”} – penomoran atribute dimulai dari 0, untuk LIBSVM format penomoran atribute dimulai dari 1.

Untuk tugas kedua dokumentasi bisa dilihat dari file tugas2 di home-work-2-report.pdf

Minggu ketiga ini membahas mengenai output. Output seperti apa yang dihasilkan dari proses data mining maupun machine learning. Output bisa berupa decision tables, decision trees, decision rules, association rules, rules with exceptions, rules involving relations, linear regression, trees for numeric prediction, instance-based representation dan cluster.

Seperti biasa, tugas ketiga sudah ada lagi, yaitu melakukan analisis feature terhadap data UCI university yang telah ditransform kedalam LIBSVM format dalam tugas 2. Jia yo

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

%d blogger menyukai ini: