Document Indexing dan Term Weighting

(1)

Document

Indexing dan Term

Weighting

Document

Indexing dan Term

Weighting

(2)

(3)

Document Indexing

_{Setelah melakukan preprocessing, kita}

akan mendapatkan sebuah set term yang bisa kita jadikan sebagai indeks. Indeks adalah perwakilan dari

dokumen.aa

Indeks memudahkan proses selanjutnya dalam teks mining ataupun IR.

_{Setelah melakukan preprocessing, kita} akan mendapatkan sebuah set term

yang bisa kita jadikan sebagai indeks.

Indeks adalah perwakilan dari dokumen.aa

(4)

Document Indexing

_{Setelah melakukan preprocessing, kita}

akan mendapatkan sebuah set term

_Indeks_adalah_perwakilan_dari

dokumen.

_{Indeks memudahkan}_proses

selanjutnya dalam teks mining ataupun IR.

_{Setelah melakukan preprocessing, kita} akan mendapatkan sebuah set term

_Indeks_adalah_perwakilan_dari dokumen.

_Indeks_memudahkan_proses

(5)

Document Indexing

Hasil

Token Hasil Filtering Hasil Stemming Type Term

they - - -

-are - - -

-applied applied apply apply apply

to - - -

-the - - -

-words words word word word

in - - -

-the - - -

(6)

Document Indexing

Hasil

namanya namanya nama nama nama adalah - - -

-santiago santiago santiago santiago santiago santiago santiago santiago -

-sudah - - - -memutusk

an memutuskan putus putus putus untuk - - -

-mencari mencari cari cari cari

sang - - -

(7)

Document Indexing

_{Dalam mebuat sebuah indeks, secara}

umum kita tidak memperhatikan urutan kata

“John is quicker than Mary” dan “Mary is quicker than John” memiliki

representasi yang sama

Ini disebut bag of words model.

“John is quicker than Mary” dan “Mary is quicker than John” memiliki

representasi yang sama

(8)

Document Indexing

_{“John is quicker than Mary”}_{dan “}_Mary

is quicker than John” memiliki representasi yang sama

Ini disebut bag of words model.

is quicker than John” memiliki representasi yang sama

(9)

Document Indexing

is quicker than John” memiliki representasi yang sama

_{Ini disebut}_{bag of words}_model.

is quicker than John” memiliki representasi yang sama

(10)

Document Indexing

Hasil

they - - -

-are - - -

-applied applied apply apply apply

to - - -

-the - - -

-words words word word word

in - - -

-the - - -

(11)

Document Indexing

Hasil

namanya namanya nama nama nama adalah - - -

-santiago santiago santiago santiago santiago santiago santiago santiago -

-sudah - - - -memutusk

an memutuskan putus putus putus untuk - - -

-mencari mencari cari cari cari

sang - - -

(12)

Term Weighting

(13)

Term Weighting

_{Dalam mebuat sebuah indeks, setiap}

kata/term memiliki bobot/nilai masing-masing

Ada banyak metode untuk memberikan bobot pada masing-masing term pada indeks

(14)

Term Weighting

_{Ada banyak metode untuk}

memberikan bobot pada masing-masing term pada indeks

_{Ada banyak metode untuk}

(15)

Term Weighting

Term Weighting : Metode untuk

memberikan nilai/bobot pada masing-masing term indeks.

Term Weighting : Metode untuk

memberikan nilai/bobot pada

(16)

Term Weighting

_{Beberapa metode Term Weighting}

yang popular :

_{Binary Term Weighting} _{(Raw) Term-frequency}

_{Logarithmic Term-frequency} _TF-IDF

_{Beberapa metode Term Weighting}

yang popular :

_{Binary Term Weighting}

_{(Raw) Term-frequency}

_{Logarithmic Term-frequency}

(17)

Binary Term

Weighting

Binary Term

Weighting

(18)

Binary Term Weighting

_{Masing-masing dokumen}

direpresentasikan oleh sebuah binary vector

Dokumen diwakili oleh kolom, dan term diwakili oleh baris

Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

Dokumen diwakili oleh kolom, dan term diwakili oleh baris

(19)

Binary Term Weighting

_{Dokumen diwakili oleh kolom, dan}

term diwakili oleh baris

Jika kata/term berada pada dokumen tertentu, maka nilainya 1, jika tidak, maka nilainya 0

(20)

Binary Term Weighting

_{Jika kata/term berada pada dokumen}

tertentu, maka nilainya 1, jika tidak, maka nilainya 0

_{Jika kata/term berada pada dokumen}

(21)

Binary Term Weighting

Metode term weighting ini tidak

memperhatikan jumlah kemunculan kata pada 1 dokumen.

Metode term weighting ini tidak

(22)

Binary Term Weighting

Misal : terdapat 6 dokumen : Antony and Cleopatra, Julius Caesar, The Tempest, Hamlet, Othello, dan

Macbeth

dan 7 kata/term : Antony, Brutus,

Caesar, Calpurnia, Cleopatra, mercy, dan

worser

Misal : terdapat 6 dokumen : Antony and Cleopatra, Julius Caesar, The

Tempest, Hamlet, Othello, dan

Macbeth

dan 7 kata/term : Antony, Brutus,

Caesar, Calpurnia, Cleopatra, mercy, dan

(23)

Binary Term Weighting

Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 1 1 0 0 0 1

Brutus 1 1 0 1 0 0

Caesar 1 1 0 1 1 1

Calpurnia 0 1 0 0 0 0

Cleopatra 1 0 0 0 0 0

mercy 1 0 1 1 1 1

(24)

(Raw)

Term-frequency

(Raw)

Term-frequency

(25)

(Raw) Term-frequency

_{Seperti halnya binary, hanya saja}

mempertimbangkan jumlah

kemunculan kata pada dokumen:

count vector

Term frequency tf_t,d dari term t dalam dokumen d didefniskan sebagai jumlah kemunculan term t pada dokumen d.

count vector

(26)

(Raw) Term-frequency

count vector

Term frequency TF_t,d dari term t dalam

dokumen d didefniskan sebagai jumlah kemunculan term t pada dokumen d.

count vector

(27)

(Raw) Term-frequency

Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth

Antony 157 73 0 0 0 0

Brutus 4 157 0 1 0 0

Caesar 232 227 0 2 1 1

Calpurnia 0 10 0 0 0 0

Cleopatra 57 0 0 0 0 0

mercy 2 0 3 5 5 1

(28)

(Raw) Term-frequency

TF_{Anthony, Antony and Cleopatra} = 157

TF_{Anthony, Julius Caesar} = 73

TF_{Mercy, Macbeth} = 1

TF_Anthony_,_{Antony and Cleopatra} = 157

TF_Anthony_,_{Julius Caesar} = 73

(29)

(Raw) Term-frequency

_{Raw term frequency kurang relevan:}

_{Sebuah term yang muncul 10 kali pada}

sebuah dokumen memang lebih penting dalam mewakili dokumen dibandingkan dengan term yang muncul cuma 1 kali.

_{Tapi tidak berate 10 kali lebih penting.}

_{Raw term frequency kurang relevan:}

_{Sebuah term yang muncul 10 kali pada}

(30)

(Raw) Term-frequency

Relevance does not increase

proportionally with term frequency.

Relevance does not increase

(31)

Log Term-frequency

(32)

Log Term-frequency

_{Log Term-frequency dari term t dalam}

d adalah

0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, etc.

(33)

Log Term-frequency

d adalah

_{0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 →}

4, etc.

(34)

Log Term-frequency

W_tf _{& Cleopatra}Antony Julius

Caesar TempestThe Hamlet Othello Macbeth

Antony 1+ 10_{log(157) 1+}10_log(73) ₀ ₀ ₀ ₀

Brutus 1+ 10_log(4) ₁₊10_log(157) ₀ ₁₊10_log(1) ₀ ₀

Caesar 1+ 10_{log(232) 1+}10_log(227) ₀ ₁₊10_{log(2) 1+}10_{log(1) 1+}10_log(1)

Calpurnia 0 1+ 10_log(10) ₀ ₀ ₀ ₀

Cleopatra 1+ 10_log(57) ₀ ₀ ₀ ₀ ₀

Mercy 1+ 10_log(2) ₀ ₁₊10_{log(3) 1+}10_{log(5) 1+}10_{log(5) 1+}10_log(1)

(35)

Log Term-frequency

W_tf _{& Cleopatra}Antony Julius

Caesar TempestThe Hamlet Othello Macbeth

Antony 3.195899652 2.86332286 0 0 0 0

Brutus 1.602059991 3.195899652 0 1 0 0

Caesar 3.365487985 3.356025857 0 1.301029996 1 1

Calpurnia 0 2 0 0 0 0

Cleopatra 2.755874856 0 0 0 0 0

Mercy 1.301029996 0 1.477121255 1.698970004 1.698970004 1

(36)

TF-IDF

(37)

TF-IDF

_Nilai_TF-IDF_{dari sebuah term adalah}

perkalian antara nilai (Log)TF and nilai IDF-nya.

TF-IDF = TF x IDF

Catatan: tanda “-” dalam tf-idf adalah tanda hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

TF-IDF = TF x IDF

(38)

TF-IDF

_{TF-IDF = TF x IDF}

 _{Catatan: tanda “-” dalam tf-idf adalah tanda}

hubung, bukan minus!. Alternative : TFf.IDF, TF x IDF

 _{Catatan: tanda “-” dalam tf-idf adalah tanda}

hubung, bukan minus!. Alternative :

(39)

TF-IDF

_{Apa itu IDF?}

_{IDF : Inverse Document Frequency}

atau Kebalikan dari Document Frequency

_{Apa itu IDF?}

(40)

Document frequency

Document frequency (df_t) adalah

jumlah dokumen yang mengandung term t

df_t  N

N = Jumlah Dokumen

df_t  N

(41)

Document frequency

df_t  N

_{N = Jumlah Dokumen}

df_t  N

(42)

Document frequency

Antony &

Cleopatra _CaesarJulius _TempestThe Hamlet Othello Macbet_h df_t

Antony 157 73 0 0 0 0 2

Brutus 4 157 0 1 0 0 3

Caesar 232 227 0 2 1 1 5

Calpurnia 0 10 0 0 0 0 1

Cleopatra 57 0 0 0 0 0 1

Mercy 2 0 3 5 5 1 5

(43)

Document frequency

jumlah dokumen yang mengandung term t

_{Rare terms} _{adalah term memiliki nilai}

df yang kecil

Frequent terms adalah term memiliki nilai df yang besar

df yang kecil

Frequent terms adalah term memiliki

(44)

Document frequency

df yang kecil

_{Frequent terms}_{adalah term memiliki}

nilai df yang besar

df yang kecil

_{Frequent terms}_{adalah term memiliki}

(45)

Inverse Document

frequency

Inverse Document

frequency

_{Apa itu IDF?}

atau Kebalikan dari Document Frequency

_{Apa itu IDF?}

(46)

Inverse Document

frequency

Inverse Document

frequency

_{Kata-kata yang muncul di banyak}

dokumen adalah kata yang ”tidak penting”

Misal kata : dan, di, atau, merupakan, tinggi, bisa

Sering muncul di hampir semua dokumena

Kata-kata seperti ini kurang informative

Misal kata : dan, di, atau, merupakan, tinggi, bisa

Sering muncul di hampir semua dokumena

(47)

Inverse Document

frequency

Inverse Document

frequency

_{Misal kata : dan, di, atau, merupakan,}

tinggi, bisa

_{Sering muncul di hampir semua}

dokumen

Kata-kata seperti ini kurang informative

tinggi, bisa

dokumen

(48)

Inverse Document

frequency

Inverse Document

frequency

tinggi, bisa

dokumen

_{Kata-kata seperti ini kurang}

informatif

tinggi, bisa

dokumen

_{Kata-kata seperti ini kurang}

(49)

Inverse Document

frequency

Inverse Document

frequency

_{Di sisi lain, kata-kata langka yang}

hanya muncul di sedikit dokumen, lebih informatif

Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir

tidak pernah muncul di

dokumen-dokumen lain seperti dokumen-dokumen olahraga, ekonomi, maupun politik.

Misal, kata Meganthropus yang hanya muncul di dokumen sejarah, hampir

tidak pernah muncul di

(50)

Inverse Document

frequency

Inverse Document

frequency

_{Misal, kata Meganthropus yang}

hanya muncul di dokumen sejarah, hampir tidak pernah muncul di

dokumen-dokumen lain seperti

dokumen olahraga, ekonomi, maupun politik.

_{Misal, kata Meganthropus yang}

hanya muncul di dokumen sejarah, hampir tidak pernah muncul di

dokumen-dokumen lain seperti

(51)

Inverse Document

frequency

Inverse Document

frequency

_{Rare terms}_{(Kata-kata langka yang}

hanya muncul di dokumen-dokumen tertentu) lebih informatif

dibandingkan dengan Frequent terms (kata-kata yang muncul di banyak dokumen)

Oleh karena itu, Rare terms harus

memiliki bobot/nilai yang lebih besar daripada Frequent terms

Oleh karena itu, Rare terms harus

(52)

Inverse Document

frequency

Inverse Document

frequency

_{Oleh karena itu,}_{Rare terms}_harus

memiliki bobot/nilai yang lebih besar daripada Frequent terms

_{Oleh karena itu,}_{Rare terms}_harus

memiliki bobot/nilai yang lebih

(53)

Inverse Document

frequency

Inverse Document

frequency

df_t adalah ukuran kebalikan dari

keinformatifan term t

_{idf (inverse document frequency) dari}

sebuah term t didefnisikan:

df_t adalah ukuran kebalikan dari

keinformatifan term t

_{idf (inverse document frequency) dari}

sebuah term t didefnisikan:

)

/df

(

log

(54)

Inverse Document

frequency

Inverse Document

frequency

Digunakan log (N/df_t) dibanding N/df_t

untuk “mengecilkan” efek dari IDF. Menggunakan log berbasis

berapapun tidak masalah

untuk “mengecilkan” efek dari IDF.

Menggunakan log berbasis berapapun tidak masalah

)

/df

(

log

(55)

Inverse Document

frequency

Inverse Document

frequency

_{Menggunakan log berbasis}

)

/df

(

log

(56)

Latihan

Berbeda dengan TF, sebuah term hanya memiliki satu nilai IDF.

Term df_t idf_t

(57)

Inverse Document

frequency

Inverse Document

frequency

df_t idf_t idf_t

Antony 2 10log (6/2) _0.47712125

Brutus 3 10_{log (6/3)} _0.30103

Caesar 5 10log (6/5) _0.07918125

Calpurnia 1 10log (6/1) _0.77815125

Cleopatra 1 10log (6/1) _0.77815125

Mercy 5 10log (6/5) _0.07918125

Worser 4 10log (6/4) _0.17609126

)

/df

(

log

(58)

TF-IDF

Term weighting paling populer

(59)

TF-IDF

_{Term weighting paling populer}

(60)

TF-IDF

Term yang sering muncul di satu dokumen dan jarang muncul pada

dokumen lain akan mendapatkan nilai tinggiaaaaaaaaa

Term yang sering muncul di satu dokumen dan jarang muncul pada

(61)

TF-IDF

_{Term yang sering muncul di satu}

dokumen dan jarang muncul pada

dokumen lain akan mendapatkan nilai tinggi

_{Term yang sering muncul di satu}

dokumen dan jarang muncul pada

(62)

TF-IDF

TF-IDF _CleopatraAntony & _CaesarJulius _TempestThe Hamlet Othello Macbet_h

Antony 1.524831652 1.366152196 0 0 0 0

Brutus 0.482268112 0.962061659 0 0.30102999₆ 0 0

Caesar 0.266483532 0.265734309 0 0.10301717₆ 0.079181246 0.07918

Calpurnia 0 1.556302501 0 0 0 0

Cleopatra 2.144487465 0 0 0 0 0

Mercy 0.103017176 0 0.116960302 0.13452656₂ 0.134526562 0.07918

Worser 0.22910001 0 0.176091259 0.17609125₉ 0.176091259 0

(63)

Variasi

TF-IDF

Variasi

TF-IDF

(64)

(65)

Term Weighting

Lain

Term Weighting

Lain

(66)

Term Weighting

Lain

Term Weighting

Lain

_{Masih ada banyak Term Weighting lain}

_{Information Gain}

_{Latent semantic indexing} _{Mutual information}

_TF.IDF.ICF _Dsb.

_{Masih ada banyak Term Weighting lain}

_{Information Gain}

_{Latent semantic indexing} _{Mutual information}