• Tidak ada hasil yang ditemukan

Document Indexing dan Term Weighting. M. Ali Fauzi

N/A
N/A
Protected

Academic year: 2021

Membagikan "Document Indexing dan Term Weighting. M. Ali Fauzi"

Copied!
66
0
0

Teks penuh

(1)

Document Indexing

dan Term Weighting

M. Ali Fauzi

(2)
(3)

Document Indexing

Setelah melakukan preprocessing, kita

akan mendapatkan sebuah set term

yang bisa kita jadikan sebagai indeks.

Indeks adalah perwakilan dari

dokumen.aa

Indeks memudahkan proses selanjutnya

(4)

Document Indexing

Setelah melakukan preprocessing, kita

akan mendapatkan sebuah set term

yang bisa kita jadikan sebagai indeks.

Indeks adalah perwakilan dari

dokumen.

Indeks memudahkan proses selanjutnya

(5)

Document Indexing

Hasil Token Hasil

Filtering HasilStemming Type Term

they - - -

-are - - -

-applied applied apply apply apply

to - - -

-the - - -

-words words word word word

in - - -

-the - - -

(6)

Document Indexing

Hasil Token Hasil

Filtering HasilStemming Type Term namanya namanya nama nama nama

adalah - - -

-santiago santiago santiago santiago santiago santiago santiago santiago -

-sudah - - -

-memutusk

an memutuskan putus putus putus

untuk - - -

-mencari mencari cari cari cari

sang - - -

(7)

Document Indexing

Dalam mebuat sebuah indeks, secara

umum kita tidak memperhatikan urutan

kata

“John is quicker than Mary” dan “Mary is quicker than John” memiliki representasi

yang sama

(8)

Document Indexing

Dalam mebuat sebuah indeks, secara

umum kita tidak memperhatikan urutan

kata

“John is quicker than Mary” dan “Mary is

quicker than John” memiliki

representasi yang sama

(9)

Document Indexing

Dalam mebuat sebuah indeks, secara

umum kita tidak memperhatikan urutan

kata

“John is quicker than Mary” dan “Mary is

quicker than John” memiliki

representasi yang sama

(10)

Document Indexing

Hasil Token Hasil

Filtering HasilStemming Type Term

they - - -

-are - - -

-applied applied apply apply apply

to - - -

-the - - -

-words words word word word

in - - -

-the - - -

(11)

Document Indexing

Hasil Token Hasil

Filtering HasilStemming Type Term namanya namanya nama nama nama

adalah - - -

-santiago santiago santiago santiago santiago santiago santiago santiago -

-sudah - - -

-memutusk

an memutuskan putus putus putus

untuk - - -

-mencari mencari cari cari cari

sang - - -

(12)

Term Weighting

Teks Mining

(13)

Term Weighting

Dalam mebuat sebuah indeks, setiap

kata/term memiliki bobot/nilai masing-masing

Ada banyak metode untuk memberikan

bobot pada masing-masing term pada

(14)

Term Weighting

Dalam mebuat sebuah indeks, setiap

kata/term memiliki bobot/nilai masing-masing

Ada banyak metode untuk

memberikan bobot pada masing-masing term pada indeks

(15)

Term Weighting

Term Weighting : Metode untuk

memberikan nilai/bobot pada masing-masing term indeks.

(16)

Term Weighting

Beberapa metode Term Weighting yang

popular :

Binary Term Weighting (Raw) Term-frequency

Logarithmic Term-frequency TF-IDF

(17)

Binary Term Weighting

Metode Term Weighting

(18)

Binary Term Weighting

Masing-masing dokumen

direpresentasikan oleh sebuah binary

vector

Dokumen diwakili oleh kolom, dan term

diwakili oleh baris

Jika kata/term berada pada dokumen

tertentu, maka nilainya 1, jika tidak, maka nilainya 0

(19)

Binary Term Weighting

Masing-masing dokumen

direpresentasikan oleh sebuah binary

vector

Dokumen diwakili oleh kolom, dan term

diwakili oleh baris

Jika kata/term berada pada dokumen

tertentu, maka nilainya 1, jika tidak, maka nilainya 0

(20)

Binary Term Weighting

Masing-masing dokumen

direpresentasikan oleh sebuah binary

vector

Dokumen diwakili oleh kolom, dan term

diwakili oleh baris

Jika kata/term berada pada dokumen

tertentu, maka nilainya 1, jika tidak, maka nilainya 0

(21)

Binary Term Weighting

Metode term weighting ini tidak

memperhatikan jumlah kemunculan kata pada 1 dokumen.

(22)

Binary Term Weighting

Misal : terdapat 6 dokumen : Antony and

Cleopatra, Julius Caesar, The Tempest, Hamlet, Othello, dan Macbeth

dan 7 kata/term : Antony, Brutus, Caesar, Calpurnia, Cleopatra, mercy, dan worser

(23)

Binary Term Weighting

Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

(24)

(Raw) Term-frequency

Metode Term Weighting

(25)

(Raw) Term-frequency

Seperti halnya binary, hanya saja

mempertimbangkan jumlah

kemunculan kata pada dokumen: count vector

Term frequency tft,d dari term t dalam

dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(26)

(Raw) Term-frequency

Seperti halnya binary, hanya saja

mempertimbangkan jumlah

kemunculan kata pada dokumen: count vector

Term frequency TFt,d dari term t dalam

dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

(27)

(Raw) Term-frequency

Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 1 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0

(28)

(Raw) Term-frequency

Term frequency TFt,d dari term t dalam

dokumen d didefiniskan sebagai jumlah kemunculan term t pada dokumen d.

TFAnthony, Antony and Cleopatra = 157

TFAnthony, Julius Caesar = 73

(29)

(Raw) Term-frequency

Raw term frequency kurang relevan:

Sebuah term yang muncul 10 kali pada

sebuah dokumen memang lebih penting dalam mewakili dokumen dibandingkan dengan term yang muncul cuma 1 kali.

(30)

(Raw) Term-frequency

Relevance does not increase

(31)

Log Term-frequency

Metode Term Weighting

(32)

Log Term-frequency

Log Term-frequency dari term t dalam d

adalah 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

otherwise

0,

0

tf

if

,

tf

log

1

10 t,d t,d t,d

w

(33)

Log Term-frequency

Log Term-frequency dari term t dalam d

adalah 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

otherwise

0,

0

tf

if

,

tf

log

1

10 t,d t,d t,d

w

(34)

Log Term-frequency

Wtf & Cleopatra Julius CaesarAntony TempestThe Hamlet Othello Macbeth

Antony 1+ 10log(157) 1+ 10log(73) 0 0 0 0

Brutus 1+ 10log(4) 1+ 10log(157) 0 1+ 10log(1) 0 0

Caesar 1+ 10log(232) 1+ 10log(227) 0 1+ 10log(2) 1+ 10log(1) 1+ 10log(1)

Calpurnia 0 1+ 10log(10) 0 0 0 0

Cleopatra 1+ 10log(57) 0 0 0 0 0

Mercy 1+ 10log(2) 0 1+ 10log(3) 1+ 10log(5) 1+ 10log(5) 1+ 10log(1)

(35)

Log Term-frequency

Wtf & Cleopatra Julius CaesarAntony TempestThe Hamlet Othello Macbeth

Antony 3.195899652 2.86332286 0 0 0 0 Brutus 1.602059991 3.195899652 0 1 0 0 Caesar 3.365487985 3.356025857 0 1.301029996 1 1 Calpurnia 0 2 0 0 0 0 Cleopatra 2.755874856 0 0 0 0 0 Mercy 1.301029996 0 1.477121255 1.698970004 1.698970004 1 Worser 1.301029996 0 1 1 1 0

(36)

TF-IDF

Metode Term Weighting

(37)

TF-IDF

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai

IDF-nya.

TF-IDF = TF x IDF

Catatan: tanda “-” dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x

(38)

TF-IDF

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai

IDF-nya.

TF-IDF = TF x IDF

 Catatan: tanda “-” dalam tf-idf adalah tanda

hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

(39)

TF-IDF

Apa itu IDF?

IDF : Inverse Document Frequency atau

(40)

Document frequency

Document frequency (dft) adalah

jumlah dokumen yang mengandung

term t dftN

(41)

Document frequency

Document frequency (dft) adalah

jumlah dokumen yang mengandung

term t

dftN

(42)

Document frequency

Antony &

Cleopatra CaesarJulius TempestThe Hamlet Othello Macbeth dft

Antony 157 73 0 0 0 0 2 Brutus 4 157 0 1 0 0 3 Caesar 232 227 0 2 1 1 5 Calpurnia 0 10 0 0 0 0 1 Cleopatra 57 0 0 0 0 0 1 Mercy 2 0 3 5 5 1 5 Worser 2 0 1 1 1 0 4

(43)

Document frequency

Document frequency (dft) adalah

jumlah dokumen yang mengandung term t

Rare terms adalah term memiliki nilai df

yang kecil

Frequent terms adalah term memiliki nilai df yang besar

(44)

Document frequency

Document frequency (dft) adalah

jumlah dokumen yang mengandung term t

Rare terms adalah term memiliki nilai df

yang kecil

Frequent terms adalah term memiliki

(45)

Inverse Document frequency

Apa itu IDF?

IDF : Inverse Document Frequency atau

(46)

Inverse Document frequency

Kata-kata yang muncul di banyak

dokumen adalah kata yang ”tidak penting”

Misal kata : dan, di, atau, merupakan, tinggi, bisa

Sering muncul di hampir semua dokumena

(47)

Inverse Document frequency

Kata-kata yang muncul di banyak

dokumen adalah kata yang ”tidak penting”

Misal kata : dan, di, atau, merupakan,

tinggi, bisa

Sering muncul di hampir semua

dokumen

(48)

Inverse Document frequency

Kata-kata yang muncul di banyak

dokumen adalah kata yang ”tidak penting”

Misal kata : dan, di, atau, merupakan,

tinggi, bisa

Sering muncul di hampir semua

dokumen

(49)

Inverse Document frequency

Di sisi lain, kata-kata langka yang hanya

muncul di sedikit dokumen, lebih

informatif

Misal, kata Meganthropus yang hanya

muncul di dokumen sejarah, hampir tidak pernah muncul di dokumen-dokumen lain seperti dokumen olahraga, ekonomi,

(50)

Inverse Document frequency

Di sisi lain, kata-kata langka yang hanya

muncul di sedikit dokumen, lebih

informatif

Misal, kata Meganthropus yang hanya

muncul di dokumen sejarah, hampir

tidak pernah muncul di dokumen-dokumen lain seperti dokumen-dokumen

(51)

Inverse Document frequency

Rare terms (Kata-kata langka yang

hanya muncul di dokumen-dokumen

tertentu) lebih informatif dibandingkan

dengan Frequent terms (kata-kata yang

muncul di banyak dokumen)

Oleh karena itu, Rare terms harus memiliki

bobot/nilai yang lebih besar daripada

(52)

Inverse Document frequency

Rare terms (Kata-kata langka yang

hanya muncul di dokumen-dokumen

tertentu) lebih informatif dibandingkan

dengan Frequent terms (kata-kata yang

muncul di banyak dokumen)

Oleh karena itu, Rare terms harus

memiliki bobot/nilai yang lebih besar

(53)

Inverse Document frequency

dft adalah ukuran kebalikan dari

keinformatifan term t

idf (inverse document frequency) dari

sebuah term t didefinisikan:

)

/df

(

log

(54)

Inverse Document frequency

Digunakan log (N/dft) dibanding N/dft

untuk “mengecilkan” efek dari IDF.

Menggunakan log berbasis berapapun

tidak masalah

)

/df

(

log

idf

t

10

N

t

(55)

Inverse Document frequency

Digunakan log (N/dft) dibanding N/dft

untuk “mengecilkan” efek dari IDF.

Menggunakan log berbasis berapapun

tidak masalah

)

/df

(

log

idf

t

10

N

t

(56)

Latihan

Berbeda dengan TF, sebuah term hanya memiliki satu nilai IDF.

Term dft idft calpurnia 1 animal 100 sunday 1,000 fly 10,000 under 100,000 the 1,000,000

(57)

Inverse Document frequency

dft idft idft Antony 2 10log (6/2) 0.47712125 Brutus 3 10log (6/3) 0.30103 Caesar 5 10log (6/5) 0.07918125 Calpurnia 1 10log (6/1) 0.77815125 Cleopatra 1 10log (6/1) 0.77815125 Mercy 5 10log (6/5) 0.07918125 Worser 4 10log (6/4) 0.17609126

)

/df

(

log

idf

t

10

N

t

(58)

TF-IDF

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai

IDF-nya.

TF-IDF = TF x IDF

(59)

TF-IDF

Nilai TF-IDF dari sebuah term adalah

perkalian antara nilai (Log)TF and nilai

IDF-nya.

TF-IDF = TF x IDF

(60)

TF-IDF

TF-IDF = TF x IDF

Term yang sering muncul di satu dokumen dan jarang muncul pada dokumen lain akan mendapatkan nilai

tinggiaaaaaaaaa

)

df

/

(

log

)

tf

1

log(

IDF

-TF

, 10 ,d t d

N

t t

(61)

TF-IDF

TF-IDF = TF x IDF

Term yang sering muncul di satu

dokumen dan jarang muncul pada

dokumen lain akan mendapatkan nilai tinggi

)

df

/

(

log

)

tf

1

log(

IDF

-TF

, 10 ,d t d

N

t t

(62)

TF-IDF

TF-IDF CleopatraAntony & Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 1.524831652 1.366152196 0 0 0 0 Brutus 0.482268112 0.962061659 0 0.301029996 0 0 Caesar 0.266483532 0.265734309 0 0.103017176 0.079181246 0.07918 Calpurnia 0 1.556302501 0 0 0 0 Cleopatra 2.144487465 0 0 0 0 0 Mercy 0.103017176 0 0.116960302 0.134526562 0.134526562 0.07918 Worser 0.22910001 0 0.176091259 0.176091259 0.176091259 0

)

df

/

(

log

)

tf

1

log(

IDF

-TF

, 10 ,d t d

N

t t

(63)

Variasi TF-IDF

(64)
(65)

Term Weighting Lain

Metode Term Weighting

(66)

Term Weighting Lain

Masih ada banyak Term Weighting lain

Information Gain

Latent semantic indexing

Mutual information

TF.IDF.ICF

Referensi

Dokumen terkait

Abdul Rahman , Fikih Muamalat, Jakarta : Prenada Media Group, 2010,hlm.. Larangan Mengambil Barang Hak Milik Orang Lain. Dari berbagai uraian yang telah dijelaskan di atas,

ALOKASI DAN PERUNTUKAN ALOKASI DANA DESA TAHUN ANGGARAN 2017H. KECAMATAN/DESA DAN KETENAGAKERJAAN JAMINAN KESEHATAN

Sebagai balas jasa yang diberikan oleh bank syari’ah kepada nasabah pemegang rekening tabungan wadi’ah , bank syariah memberikan balas. jasa

Bulldozer adalah salah satu jenis alat berat yang dan berfungsi untuk.. pemerataan material seperti tanah, pasir, kerikil yang

Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan dan menyebutkan sumber... BAB II TINJ

Di dalam penyusunan proposal digitalisasi Laboratorium Fisika Dasar berbasis IoT ini mempunyai tujuan untuk meningkatkan pengelolaan layanan laboratorium bagi peserta didik di

yang telah dilakukan oleh ulama ahli hadī ṡ , dapat dilihat secara jelas, bahwa mereka selain berkonsentrasi pada keadaan periwayat dalam sanad itu, perhatian

Berbeda dengan pendapat di atas yang menyatakan bahwa profitabilitas berpengaruh positif terhadap pengungkapan tanggung jawab sosial perusahaan, Donovan dan Gibson