• Tidak ada hasil yang ditemukan

KLASIFIKASI PADA TEXT MINING

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI PADA TEXT MINING"

Copied!
33
0
0

Teks penuh

(1)

KLASIFIKASI PADA

TEXT MINING

(2)

Tujuan

—

Memahami konsep dasar sistem klasifikasi

—

Memahami beberapa algoritma klasifikasi:

KNN

Naïve Bayes

Decision Tree

—

Menjelaskan implementasi algoritma

klasifikasi pada text corpus.

(3)

Pendahuluan

—

Masalah klasifikasi adalah bagaimana

menentukan suatu objek masuk ke suatu

class yang sebenarnya.

Dalam text mining, suatu class lebih bersifat

area subjek umum. (disebut juga

Topik

).

Pekerjaan klasifikasi disebut sebagai

text

classification

,

text categorization

,

topic

classification

, atau

topic spotting

.

(4)

Contoh Implementasi

—

Identifikasi bahasa suatu dokumen

—

Mendeteksi encoding dokumen

—

Mendeteksi otomatis halaman/email spam

—

Sentiment detection

—

Personal email sorting

—

Topic-specific (vertical search)

(5)

Machine Learning

—

Klasifikasi dilakukan berdasar pembelajaran

dari kumpulan dokumen untuk mendapatkan

suatu pola tiap class.

Pola dapat berupa suatu rule

—

Pembelajaran untuk mendapatkan pola atau

kriteria keputusan suatu class oleh komputer

dilakukan dengan cara “mempelajari” secara

otomatis dari data pelatihan (

training data

).

Jika menggunakan metode statisik, disebut

(6)

Machine Learning

—

Diperlukan sejumlah dokumen (training

document) yang sangat baik untuk tiap class.

Harus dilakukan dengan cara manual terkait

pemberian label class tiap training document.

–

Aktifitas ini disebut

labeling

—

Semua algoritma klasifikasi dalam text mining

mewakili dokumen dalam suatu ruang

dimensi yang tinggi.

Untuk mengifisiensikan, diperlukan pengurangan

dimensi

–

Disebut dengan

feature selection

.

(7)

Konsep Dasar

—

Supervised learning

—

Setelah mempelajari , kita dapat

menerapkannya untuk himpunan

dokumen test.

γ

:

Χ →

C

(8)

Proses Klasifikasi

(9)

Naïve Bayes Text Classification

—

Menurut metode multinomial Naïve Bayes,

probabilitas suatu dokumen,

d

, sebagai bagian dari

anggota class

c

dihitung sebagai:

P(t

k

|c) adalah probabilitas kondisi kemunculan term t

k

dalam sebuah dokumen class c.

–

Seberapa yakin t

k

berkontribusi bahwa c adalah kelas yang benar

P(c) adalah probabilitas kemunculan sebuah dokumen

dalam kelas c.

(10)

Naïve Bayes Text Classification

—

Sebuah dokumen test terpilih masuk sebagai

anggota suatu class terbaik jika memiliki

maximum a posteriori (MAP) kelas c

map

:

(11)
(12)

Contoh

(13)

Feature Selection

—

Feature Selection adalah proses pemilihan

sebuah subset term yang muncul dalam

himpunan training.

Klasifikasi teks hanya akan menggunakan hasil

feature selection.

Alasan:

–

Agar metode pengklasifikasian lebih efisien dengan

mengurangi ukuran

vocabulary

.

–

Meningkatkan akurasi klasifikasi dengan membuang

(14)

Feature Selection

—

Algoritma dasar:

(15)

Feature Selection: Mutual

Information

—

A(t,c) nilai mutual information dari term t dan

class c.

—

MI mengukur seberapa besar kontribusi ada/

tidaknya suatu term, t, dalam pembuatan

keputusan klasifikasi yang benar, c.

(16)

Contoh MI

—

Class

poultry

dan term

export

:

(17)

Feature Selection:

—

Pada statistik, test digunakan untuk

menguji independensi antar dua kejadian.

Dua kejadian, A dan B, dikatakan independen

jika P(AB)=P(A)P(B).

–

A adalah kemunculan term

–

B adalah kemunculan class

χ

2

(18)

Contoh

—

Berdasar contoh data slide 16

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18

(19)

Feature Selection: Frequency-based

—

Memilih term-term yang paling umum dalam

kelas.

—

Frekuensi dapat didefinisikan sebagai

frekuensi dokumen

Jumlah dokumen dalam kelas, c, yang mengandung

term, t.

—

Frekuensi dapat didefinisikan sebagai

frekuensi koleksi

Jumlah token-token, t, yang muncul di

dokumen-dokumen dalam kelas, c.

(20)

Decision Tree

—

Decision Tree dibangun dengan cara

membagi data pelatihan sehingga hasil

subset adalah

pure

.

pure subset

adalah salah satu yang berisi

contoh pelatihan dari suatu kelas tunggal.

—

Sebuah decision tree dapat diubah

menjadi himpunan aturan

if-then

.

Setiap aturan yang dihasilkan bersifat

mutually

exclusive

dan lengkap.

–

Setiap instan data dicakup oleh sebuah aturan

tunggal.

(21)
(22)

Decision Tree

—

Salah satu hal terpenting dalam

pembentukan decission tree adalah

pemilihan

impurity function

.

Fungsi yang meminimalkan impurity setelah

pembagian.

—

Impurity function yang terkenal:

Information gain dan information gain ratio.

(23)

Information Gain (IG)

—

Diberikan himpunan data,

D

, hidtung impurity D dengan

entropy(D)

:

—

Evaluasi tiap atribut untuk menemukan atribut mana yang terpilih

mengurangi impurity.

(24)

Contoh

(25)

Contoh

—

Entropy(D) = entropy([9,5]) = 0.940 bit

—

Entropy(A

outlook

, D) = (5/14)

×

0.971 + (4/14)

×

0 + (5/14)

×

0.971

= 0.693 bit

—

Gain(outlook) = Entropy(D) - Entropy(A

outlook

, D) = 0.247 bit

—

Hitunglah IG untuk atribut yang lain:

Gain(temperature) = ?

Gain(humidity) = ?

(26)

k-NN

—

Pada kNN, setiap dokumen dimasukkan dalam satu kelas

yang muncul terbanyak di antara

k

tetangga terdekatnya.

—

Sebuah dokumen uji,

d

, diharapkan memiliki label kelas

yang sama dengan dokumen latih yang berada pada satu

area lokal disekitar

d

.

(27)

k-NN

—

Terdapat alternatif probabilistik untuk memperkirakan

keanggotaan kelas sebuah dokumen uji.

P(lingkaran|bintang) = 1/3

P(X|bintang) = 2/3

P(diamond|bintang) = 0

—

Pemilihan nilai k disarakan bernilai ganjil, k=3 dan k=5

umum digunakan.

Namun nilai k besar juga digunakan, antara 50-100.

—

Penghitungan dokumen latih yang dekat dengan

dokumen uji dapat digunakan Euclidean, Minkowski

Distance.

—

Untuk mengukur bobot “vote” untuk k-NN, dapat

(28)

Algoritma k-NN

(29)

Contoh

!nggi  

berat  

label  

160  

80  

O  

150  

45  

N  

145  

44  

N  

148  

75  

O  

158  

56  

N  

175  

80  

O  

165  

70  

???  

(30)

Evaluasi

—

Accuracy

(Jumlah terklasifikasi benar/total

dokumen)*100

—

Metode evaluasi:

Holdout set (test set)

–

D=D

train

D

test

, dan D

tran

D

test

=

.

–

Biasanya 50-50, atau 2/3 train dan 1/3 test.

n-fold Cross-validation

(31)

Evaluasi

—

Jika pengklasifikasian dilakukan terhadap

topik tertentu, misalnya positif jika benar

masuk ke topik, dan negatif jika tidak.

Pengukuran akurasi dipandang tidak optimal, jika

ternyata terdapat dokumen uji yang

“mengganggu”

—

Pengukuran Recall dan Precision lebih

optimal.

Menghitung seberapa tepat dan lengkap klasifikasi

terhadap kelas positif.

Menggunakan confusion matrix

–

Berisi informasi hasil aktual dan prediksi yang dihasilkan

(32)

Evaluasi

—

Confusion Matrix

(33)

TERIMA KASIH.

Referensi

Dokumen terkait

Berdasarkan analisis yang telah dilakukan dalam penelitian ini, dapat disimpulkan sebagai berikut : (1) Harga, periklanan, penjualan langsung, layanan konsumen secara

Berdasarkan Undang- Undang Nomor 25 Tahun 1992 tentang perkoperasian, menyatakan bahwa “Pembentukan Koperasi sebagaiman yang dimaksud Pasal 6 dilakukan dengan kata

Berdasarkan hasil penelitian diketahui bahwa karyawan memiliki beban kerja pada kategori berat dengan tingkat stres pada kategori sedang. Indikator yang menjadi potensi

Namun penelitian yang dilaku- kan ini berbeda dengan penelitian sebelumnya, pada penelitian ini peneliti mene- rapkan model Cooperative Integrated Reading And Composition pada

Pada kasus ini pasien dipulangkan dari RS setelah perawatan selama 5 hari dengan alasan secara klinis membaik yaitu tanda perdarahan tidak ditemukan lagi,

Zonder bevoegdheid kunnen geen juridisch concrete besluiten genomen worden”, 37 (untuk dapat melaksanakan dan menegakkan ketentuan hukum positif perlu wewenang.

Penggunaan dari minyak dalam bentuk emulsi bermaksud untuk mencegah penggumpalan yang dapat muncul ketika minyak tunggal digunakan sebagai pengikat dalam bedak wajah..  Cara

Dalam penelitiannya Supriyanto (2010), menjelaskan bahwa penambahan arang sekam dapat meningkatkan panjang akar, hal ini dikarenakan pada media yang ditambahkan abu