Latar Belakang

(1)

Text

Pre-Processing

Text

Pre-Processing

(2)

(3)

Latar Belakang

_{Dokumen-dokumen} _yang _ada

kebanyakan tidak memiliki struktur

yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Tidak semua kata mencerminkan makna/ isi yang terkandung dalam sebuah dokumen.

_{Dokumen-dokumen} _yang _ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

(4)

Latar Belakang

_{Dokumen-dokumen} _yang _ada

kebanyakan tidak memiliki struktur

yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

_{Tidak semua kata} _mencerminkan

makna/isi yang terkandung dalam sebuah dokumen.

_{Dokumen-dokumen} _yang _ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

(5)

Latar Belakang

_{Preprocessing} _diperlukan _untuk

memilih kata yang akan digunakan

sebagai indeks

Indeks ini adalah kata-kata yang

mewakili dokumen yang nantinya

digunakan untuk membuat pemodelan untuk Information Retrieval maupun aplikasi teks mining lain.aaaaaaaaa

_{Preprocessing} _diperlukan _untuk memilih kata yang akan digunakan sebagai indeks

(6)

Latar Belakang

_{Preprocessing} _diperlukan _untuk

memilih kata yang akan digunakan

sebagai indeks

_Indeks _{ini adalah kata-kata yang}

mewakili dokumen yang nantinya digunakan untuk membuat pemodelan untuk Information Retrieval maupun aplikasi teks mining lain.

_{Preprocessing} _diperlukan _untuk memilih kata yang akan digunakan sebagai indeks

_Indeks _{ini adalah kata-kata yang}

mewakili dokumen yang nantinya

(7)

Defnisi

Defnisi Pemrosesan Teks (Text Preprocessing) adalah suatu proses

pengubahan bentuk data yang belum terstruktur menjadi data yang

terstruktur sesuai dengan kebutuhan, untuk proses mining yang lebih lanjut (sentiment analysis, peringkasan, clustering dokumen, etc.).

Defnisi Pemrosesan Teks (Text Preprocessing) adalah suatu proses

pengubahan bentuk data yang belum

terstruktur menjadi data yang

(8)

Singkatnya…

_{Preprocessing}_adalah_merubah_teks menjadi term index

Tujuan: menghasilkan sebuah set term index yang bisa mewakili dokumen

_{Preprocessing}_adalah_merubah_teks

menjadi term index

(9)

Singkatnya…

_{Preprocessing}_adalah_merubah_teks menjadi term index

_{Tujuan: menghasilkan sebuah set}

term index yang bisa mewakili

dokumen

_{Preprocessing}_adalah_merubah_teks

menjadi term index

_{Tujuan: menghasilkan sebuah set}

term index yang bisa mewakili

(10)

Langkah-langkah

Text Pre-processing

Langkah-langkah

Text Pre-processing

(11)

(12)

Langkah 1 : Parsing

_{Tulisan dalam sebuah dokumen bisa} jadi terdiri dari berbagai macam

bahasa, character sets, dan format; Sering juga, dalam satu dokumen yang sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa Indonesia dengan lampiran PDF

berbahasa Inggris.aa

_{Tulisan dalam sebuah dokumen bisa}

jadi terdiri dari berbagai macam

bahasa, character sets, dan format;

Sering juga, dalam satu dokumen yang sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa Indonesia dengan lampiran PDF

(13)

Langkah 1 : Parsing

_{Tulisan dalam sebuah dokumen bisa} jadi terdiri dari berbagai macam

_{Sering juga, dalam satu dokumen yang} sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email

berbahasa Indonesia dengan lampiran PDF berbahasa Inggris.

_{Tulisan dalam sebuah dokumen bisa}

jadi terdiri dari berbagai macam

_{Sering juga, dalam satu dokumen yang}

sama berisi tulisan dari beberapa bahasa. Misal, sebuah email

(14)

Langkah 1 : Parsing

Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan”

struktur dokumen menjadi komponen-komponen terpisah. Pada langkah

preprocessing ini, kita menentukan mana yang dijadikan satu unit

dokumen;

Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan”

struktur dokumen menjadi komponen-komponen terpisah. Pada langkah

preprocessing ini, kita menentukan mana yang dijadikan satu unit

(15)

Langkah 1 : Parsing

Contoh, email dengan 4 lampiran bisa dipisah menjadi 5 dokumen : 1

dokumen yang merepresentasikan isi (body) dari email dan 4 dokumen dari masing-masing lampiran

Contoh, email dengan 4 lampiran bisa dipisah menjadi 5 dokumen : 1

(16)

Langkah 1 : Parsing

_{Contoh lain, buku dengan}₁₀₀

halaman bisa dipisah menjadi 100 dokumen; masing-masing halaman menjadi 1 dokumen

Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah koemntar pada forum atau review

produk.

Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah koemntar pada forum atau review

(17)

Langkah 1 : Parsing

_Satu_tweet _{bisa dijadikan sebagai}₁

dokumen. Begitu juga dengan sebuah komentar pada forum atau review

produk.

_Satu_tweet _{bisa dijadikan sebagai}₁

dokumen. Begitu juga dengan sebuah komentar pada forum atau review

(18)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Lebih populer disebut Lexing atau

Tokenization / Tokenisasi

Lebih populer disebut Lexing atau

(19)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

_Tokenisasi _adalah _proses

pemotongan string input berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah

memisahkan setiap kata yang menyusun suatu dokumen.

pemotongan string input

berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah

(20)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

pemotongan string input berdasarkan tiap kata penyusunnya.

_{Pada prinsipnya proses ini adalah}

memisahkan setiap kata yang menyusun suatu dokumen.

pemotongan string input

berdasarkan tiap kata penyusunnya.

_{Pada prinsipnya proses ini adalah}

(21)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Pada proses ini dilakukan

penghilangan angka, tanda baca dan karakter selain huruf alfabet, karena karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap pemrosesan teks.

Pada proses ini dilakukan

(22)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Pada tahapan ini juga dilakukan proses case folding, dimana semua huruf diubah menjadi huruf kecil.

(23)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

_{Pada tahapan ini juga}_Cleaning

Cleaning adalah proses membersihkan

dokumen dari komponen-komponen yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag html, link, dan script

Cleaning adalah proses membersihkan

(24)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

_Cleaning _adalah _proses

membersihkan dokumen dari komponen-komponen yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag html, link, dan script, dsb.

_Cleaning _adalah _proses

membersihkan dokumen dari

(25)

Tokens, Types, and Terms

_{Text: “apakah culo dan boyo bermain} bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi

Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

_{Text: “apakah culo dan boyo bermain}

bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa

(26)

Tokens, Types, and Terms

_Token_{adalah kata-kata yang} dipisah-pisah dari teks aslinya tanpa

Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

_Token _{adalah kata-kata yang}

dipisah-pisah dari teks aslinya tanpa

(27)

Tokens, Types, and Terms

_Token_{adalah kata-kata yang} dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi _Token_{: “culo”, “dan”, “boyo”,}

“bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

_Token _{adalah kata-kata yang}

dipisah-pisah dari teks aslinya tanpa

_Token_{: “culo”, “dan”, “boyo”,}

(28)

Tokens, Types, and Terms

_Type_{adalah token yang}

memperhatikan adanya duplikasi kata. Ketika ada duplikasi hanya dituliskan sekali saja.

Type: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”

(29)

Tokens, Types, and Terms

_Type_{: “culo”, “dan”, “boyo”,}

“bermain”, “bola”, “di”, “depan”, “rumah”

(30)

Tokens, Types, and Terms

(31)

Tokens, Types, and Terms

_Term_{adalah type yang sudah}

dinormalisasi (dilakukan stemming, fltering, dsb)

Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah”

(32)

Tokens, Types, and Terms

_Term_{: “culo”, “boyo”, “main”, “bola”,} “depan”, “rumah”

_Term_{: “culo”, “boyo”, “main”, “bola”,}

(33)

Tokens, Types, and Terms

_Term_{: “culo”, “boyo”, “main”, “bola”,} “depan”, “rumah”

_Term_{: “culo”, “boyo”, “main”, “bola”,}

(34)

Contoh Tokenisasi

Teks English They are applied to the words in the texts.

Tokens

they are

applied to

the words in

(35)

Contoh Tokenisasi

Teks Bahasa Namanya adalah Santiago. Santiago

sudah memutuskan untuk mencari sang alkemis.

Tokens

namanya adalah santiago santiago sudah

memutuskan untuk

(36)

Langkah 3 : Stopword

Removal

Langkah 3 : Stopword

Removal

_{Disebut juga}_Filtering

Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk

merepresentasikan dokumen. _{Disebut juga}_Filtering

Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk

(37)

Langkah 3 : Stopword

Removal

Langkah 3 : Stopword

Removal

_{Disebut juga}_Filtering

_Filtering_{adalah tahap}_pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen. _{Disebut juga}_Filtering

_Filtering _{adalah tahap}_pemilihan

(38)

Stopword Removal : Metode

_Algoritma_stoplist

Stoplist atau stopword adalah

kata-kata yang tidak deskriptif

(tidak penting) yang dapat dibuang dengan pendekatan bag-of-words.

Stoplist atau stopword adalah

kata-kata yang tidak deskriptif

(39)

Stopword Removal : Metode

_Stoplist_atau_stopword_adalah

kata-kata yang tidak deskriptif (tidak penting) yang dapat dibuang dengan pendekatan bag-of-words.

_Stoplist_atau_stopword_adalah

(40)

Stopword Removal : Metode

_{Kita memiliki database kumpulan}

kata-kata yang tidak deskriptif (tidak penting), kemudian kalau

hasil tokenisasi itu ada yang

merupakan kata tidak penting dalam database tersebut, maka hasil

tokenisasi itu dibuang. _Algoritma_stoplist

kata-kata yang tidak deskriptif (tidak penting), kemudian kalau

hasil tokenisasi itu ada yang

merupakan kata tidak penting dalam database tersebut, maka hasil

(41)

Stopword Removal : Metode

_{Contoh stopwords adalah i’m, you,} one, two, they, are, to, the, in, dst. _Algoritma_stoplist

_{Contoh stopwords adalah i’m, you,}

(42)

Stopword Removal : Metode

Hasil Token Hasil Filtering

they

-are

-applied applied

to

-the

-words words

in

-the

(43)

Stopword Removal : Metode

_{Contoh stopwords adalah untuk, sang,} sudah, adalah, dst.

_{Contoh stopwords adalah untuk, sang,}

(44)

Stopword Removal : Metode

namanya namanya

adalah

-santiago santiago santiago santiago

sudah

-memutuskan memutuskan

untuk

-mencari mencari

sang

(45)

Stopword Removal : Metode

_Algoritma_wordlist

Wordlist adalah kata-kata yang deskriptif (penting) yang harus

disimpan dan tidak dibuang dengan pendekatan bag-of-words.

Wordlist adalah kata-kata yang deskriptif (penting) yang harus

(46)

Stopword Removal : Metode

_Wordlist_adalah_{kata-kata yang}

deskriptif (penting) yang harus disimpan dan tidak dibuang dengan pendekatan bag-of-words.

_Wordlist_adalah_{kata-kata yang}

(47)

Stopword Removal : Metode

kata-kata yang deskriptif

(penting), kemudian kalau hasil tokenisasi itu ada yang merupakan

kata penting dalam database tersebut, maka hasil tokenisasi itu disimpan.

kata-kata yang deskriptif

(penting), kemudian kalau hasil tokenisasi itu ada yang merupakan

(48)

Stopword Removal : Metode

_{Contoh wordlist adalah applied,} words, texts, dst.

_{Contoh wordlist adalah applied,}

(49)

Stopword Removal : Metode

they

-are

-applied applied

to

-the

-words words

in

-the

(50)

Stopword Removal : Metode

_{Contoh wordlist adalah santiago,} namanya, mencari, memutuskan, alkemis, dst.

_{Contoh wordlist adalah santiago,}

(51)

Stopword Removal : Metode

namanya namanya

adalah

-santiago santiago santiago santiago

sudah

-memutuskan memutuskan

untuk

-mencari mencari

sang

(52)

Using Stop Words or

Not?

Using Stop Words or

Not?

_{Kebanyakan aplikasi text mining} ataupun IR bisa ditingkatkan

performanya dengan penghilangan stopword.

Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak menghilangkan stop word, karena

algoritma yang mereka gunakan berhasil memanfaatkan stopword dengan

baikaaa

_{Kebanyakan aplikasi text mining}

ataupun IR bisa ditingkatkan

Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak menghilangkan stop word, karena

algoritma yang mereka gunakan berhasil memanfaatkan stopword dengan

(53)

Using Stop Words or

Not?

Using Stop Words or

Not?

_{Kebanyakan aplikasi text mining} ataupun IR bisa ditingkatkan

_{Akan tetapi, secara umum Web search} engines seperti google sebenarnya

tidak menghilangkan stop word, karena algoritma yang mereka

gunakan berhasil memanfaatkan stopword dengan baik.

_{Kebanyakan aplikasi text mining}

ataupun IR bisa ditingkatkan

_{Akan tetapi, secara umum Web search}

engines seperti google sebenarnya

tidak menghilangkan stop word, karena algoritma yang mereka

(54)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Langkah ini bisa menangkap informasi dalam teks melebihi kemampuan dari metode tokenisasi / bag-of-word murni.

(55)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga

mendeteksi adanya 2 kata atau lebih yang menjadi frase.

Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga

(56)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

_{Contoh, dari dokumen ini :}_“search engines are the most visible

information retrieval applications” _{Terdapat dua buah}_frase_{, yaitu}

“search engines” dan “information retrieval”.

_{Contoh, dari dokumen ini :}_“search

engines are the most visible

information retrieval applications”

_{Terdapat dua buah}_frase_{, yaitu}

(57)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

_{Phrase detection}_{bisa dilakukan}

dengan beberapa cara : menggunakan

rule/aturan (misal dengan

menganggap dua kata yang sering

muncul berurutan sebagai frase), bisa dengan syntactic analysis, and

kombinasi keduanya.

_{Phrase detection}_{bisa dilakukan}

dengan beberapa cara : menggunakan

rule/aturan (misal dengan

menganggap dua kata yang sering

muncul berurutan sebagai frase), bisa dengan syntactic analysis, and

(58)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

_{Metode umum yang diguakan adalah}

penggunaan thesauri untuk mendeteksi adanya frase.

Contoh : Pada thesauri tersebut terdapat

daftar frase-fase dalam bahasa

tertentu, kemudia kita bandingkan kata-kata dalam teks apakah mengandung

frase-frase dalam thesauri tersebut atau tidak.aaa

Contoh : Pada thesauri tersebut terdapat

daftar frase-fase dalam bahasa

tertentu, kemudia kita bandingkan kata-kata dalam teks apakah mengandung

(59)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

_{Contoh : Pada thesauri tersebut}

terdapat daftar frase-fase dalam bahasa tertentu, kemudia kita

bandingkan kata-kata dalam teks apakah mengandung frase-frase dalam thesauri tersebut atau tidak.

_{Contoh : Pada thesauri tersebut}

terdapat daftar frase-fase dalam bahasa tertentu, kemudia kita

(60)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

_{Kelemahanya, tahap ini butuh} komputasi yang cukup lama

_{Kebanyakan aplikasi teks mining atau} IR tidak menggunakan Phrase

Detection

Sudah cukup dengan Token per Kata

Akan tetapi, sebenarnya pemanfaatan Phrase akan meningkatkan akurasi

_{Kelemahanya, tahap ini butuh}

komputasi yang cukup lama

_{Kebanyakan aplikasi teks mining atau}

IR tidak menggunakan Phrase Detection

Sudah cukup dengan Token per Kata

Akan tetapi, sebenarnya pemanfaatan

(61)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

_{Kelemahanya, tahap ini butuh} komputasi yang cukup lama

_{Kebanyakan aplikasi teks mining atau} IR tidak menggunakan Phrase

Detection

_{Sudah cukup dengan Token per Kata}

_{Akan tetapi, sebenarnya pemanfaatan} Phrase akan meningkatkan akurasi

_{Kelemahanya, tahap ini butuh}

komputasi yang cukup lama

_{Kebanyakan aplikasi teks mining atau}

IR tidak menggunakan Phrase Detection

_{Sudah cukup dengan Token per Kata}

_{Akan tetapi, sebenarnya pemanfaatan}

(62)

Langkah 5 : Stemming

Stemming adalah proses pengubahan

bentuk kata menjadi kata dasar atau tahap mencari root kata dari tiap

kata hasil fltering.

Stemming adalah proses pengubahan

bentuk kata menjadi kata dasar atau tahap mencari root kata dari tiap

(63)

Langkah 5 : Stemming

Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian dapat lebih mengoptimalkan proses

teks mining.

Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian dapat lebih mengoptimalkan proses

(64)

Langkah 5 : Stemming

Hasil Token Hasil Filtering Hasil Stemming

they -

-are _-

-applied applied apply

to -

-the -

-words words word

in _-

-the -

(65)

Langkah 5 : Stemming

Hasil Token Hasil Filtering Hasil Stemming namanya namanya nama

adalah -

-santiago santiago santiago santiago santiago santiago

sudah -

-memutuskan memutuskan putus

untuk -

-mencari mencari cari

sang -

(66)

Langkah 5 : Stemming

_{Implementasi proses} _stemming sangat beragam , tergantung dengan

bahasa dari dokumen.

Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Khoja (Arabic)

_{Implementasi proses} _stemming

sangat beragam , tergantung dengan

Beberapa metode untuk Stemming :

(67)

Langkah 5 : Stemming

_{Implementasi proses} _stemming sangat beragam , tergantung dengan

_{Beberapa metode untuk Stemming :}

_{Porter Stemmer (English & Indonesia)} _{Stemming Arifn-Setiono (Indonesia)} _{Stemming Nazief-Adriani (Indonesia)} _{Khoja (Arabic)}

_{Implementasi proses} _stemming

sangat beragam , tergantung dengan

_{Beberapa metode untuk Stemming :}

_{Porter Stemmer (English & Indonesia)}

_{Stemming Arifn-Setiono (Indonesia)}

_{Stemming Nazief-Adriani (Indonesia)}

(68)

Stemming : Metode

_{Algorithmic: Membuat sebuah}

algoritma yang mendeteksi imbuhan. Jika ada awalan atau

akhiran yang seperti imbuhan, maka akan dibuang.

_{Algorithmic: Membuat sebuah}

algoritma yang mendeteksi imbuhan. Jika ada awalan atau

(69)

Stemming : Metode

(70)

Stemming : Metode

_{Metode Algorithmic}

_{Kelebihan : relatif}_cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi dihilangkan

Contoh : makan -> mak; an dideteksi sebagai akhiran sehingga dibuang.

Kekurangan : beberapa algoritma

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi dihilangkan

(71)

Stemming : Metode

_{Kekurangan : beberapa algoritma}

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi

dihilangkan

Contoh : makan -> mak; an dideteksi sebagai akhiran sehingga dibuang.

dihilangkan

(72)

Stemming : Metode

dihilangkan

_{Contoh : makan -> mak;}_an_dideteksi sebagai akhiran sehingga dibuang.

dihilangkan

_{Contoh : makan -> mak;}_an_dideteksi

(73)

Stemming : Metode

_{Metode Lemmatization}

_{Lemmatization : Stemming} berdasarkan kamus

Menggunakan vocabulary dan

morphological analysis dari kata untuk menghilangkan imbuhan dan

dikembalikan ke bentuk dasar dari kata. _{Metode Lemmatization}

_{Lemmatization : Stemming}

berdasarkan kamus

Menggunakan vocabulary dan

(74)

Stemming : Metode

_{Lemmatization : Stemming} berdasarkan kamus

_Menggunakan_vocabulary_dan

dikembalikan ke bentuk dasar dari kata.

_{Lemmatization : Stemming}

berdasarkan kamus

_Menggunakan_vocabulary_dan

morphological analysis dari kata untuk

menghilangkan imbuhan dan

(75)

Stemming : Metode

_{Stemming ini bagus untuk kata-kata} yang mengalami perubahan tidak beraturan (terutama dalam english) Contoh : “see” -> “see”, “saw”, atau “seen”

Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk aslinya

yaitu “see”

_{Stemming ini bagus untuk kata-kata}

yang mengalami perubahan tidak beraturan (terutama dalam english)

Contoh : “see” -> “see”, “saw”, atau “seen”

Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk aslinya

(76)

Stemming : Metode

_{Stemming ini bagus untuk kata-kata} yang mengalami perubahan tidak beraturan (terutama dalam english) _{Contoh : “see” -> “see”, “saw”, atau}

“seen”

_{Jika ada kata “see”, “saw”, atau}

“seen”, bisa dikembalikan ke bentuk aslinya yaitu “see”

_{Stemming ini bagus untuk kata-kata}

yang mengalami perubahan tidak beraturan (terutama dalam english)

_{Contoh : “see” -> “see”, “saw”, atau}

“seen”

_{Jika ada kata “see”, “saw”, atau}

(77)

Stemming : Metode

_Algoritma _Porter _Stemming

merupakan algoritma yang paling populer. Ditemukan oleh Martin Porter pada tahun 1980.

_{Mekanisme algoritma tersebut dalam} mencari kata dasar suatu kata berimbuhan, yaitu dengan membuang imbuhan–imbuhan (atau lebih tepatnya akhiran pada kata–kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan).

_Algoritma _Porter _Stemming

merupakan algoritma yang paling populer. Ditemukan oleh Martin Porter pada tahun 1980.

_{Mekanisme algoritma tersebut dalam}

(78)

Langkah 5 : Stemming

Hasil

Token Hasil Filtering Hasil Stemming Type Term

they - - -

-are - - -

-applied applied apply apply apply

to - - -

-the - - -

-words words word word word

in - - -

-the - - -

(79)

Langkah 5 : Stemming

Hasil

Token Hasil Filtering Hasil Stemming Type Term namanya namanya nama nama nama

adalah - - -

-santiago santiago santiago santiago santiago santiago santiago santiago -

-sudah - - -

-memutusk

an memutuskan putus putus putus

untuk - - -

-mencari mencari cari cari cari

sang - - -

(80)

Studi Kasus

Dokumen Ke-i Isi Dokumen

1

pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ijazah.

2

dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa

3

Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa fokus untuk ujian kompre-nya. terima kasih..

(81)

Studi Kasus

Dokume

n Ke-i Isi Dokumen Tokenisasi Filtering Stemming

1

pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ijazah.

pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas sehingga memudahkan mahasiswa yang ada di luar kota pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota sehingga lebih cepat mendapat ijazah

pembukaan daftar wisuda pelaksanaan umumkan web ub fakultas memudahkan mahasiswa kota pelaksanaan wisuda sebaiknya terjadwal tergantung kuota cepat ijazah

buka daftar wisuda laksana umum web ub fakultas mudah mahasiswa kota laksana wisuda baik jadwal gantung kuota cepat ijazah

2

dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa

dalam setahun belakangan ini pengaksesan krs diganti ke siam sebelumnya menggunakan sinergi saat menggunakan sinergi ftur serta kecepatan akses sangat handal dan nyaman tapi setelah diganti menggunakan siam keadaan berbalik menjadi buruk lambat loading dan bahkan sampai logout dengan sendirinya krs tidak hanya berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa

setahun belakangan pengaksesan krs diganti siam sinergi sinergi ftur kecepatan akses handal nyaman diganti siam keadaan berbalik buruk lambat loading logout sendirinya krs berpengaruh mahasiswa semester muda keseluruhan mahasiswa

tahun belakang akses krs ganti siam sinergi sinergi ftur cepat akses handal nyaman ganti siam ada balik buruk lambat loading logout sendiri krs pengaruh mahasiswa semester muda luruh mahasiswa

3

Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa fokus untuk ujian kompre-nya. terima kasih..

assalamualaikum wr wb yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifkat toeic sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre saya rasa ini sangat menghambat teman teman yang memang lemah dibidang bahasa inggris atau yang kurang beruntung dalam ujian toeic nya sehingga mereka tidak bisa fokus untuk ujian kompre nya terima kasih

assalamualaikum wr wb syarat ujian kompre sertifkat toeic lulus toeic ujian kompre menghambat lemah dibidang bahasa inggris kurang beruntung ujian toeic fokus ujian kompre terima kasih

assalamualaikum wr wb syarat uji kompre sertifkat toeic lulus toeic uji kompre hambat lemah bidang bahasa inggris kurang untung uji toeic fokus uji kompre terima kasih

4

pak/bu dosen saya mau minta keringanan biaya proposional dan spp ,soalnya ibu saya keberatan dengan biaya itu? terima kasih atas perhatiannya.

pak bu dosen saya mau minta keringanan biaya proposional dan spp soalnya ibu saya keberatan dengan biaya itu terima kasih atas perhatiannya

pak bu dosen minta keringanan biaya proposional spp soalnya ibu keberatan biaya terima kasih perhatiannya

(82)

Latihan :

Tentukan hasil Tokenisasi, Filtering dan Stemming setiap dokumen tersebut

Latihan :

Tentukan hasil Tokenisasi,

Filtering dan Stemming setiap dokumen tersebut

Dokumen

(Doc) (Content)Isi

Doc 1 elearning di PTIIK diatas jam 6 malam kok selalu gak bisa _{dibuka ya?}

Doc 2 ub tidak punya lahan parkir yang layak. Dan jalanan terlalu ramai karena di buka untuk umum. Seperti jalan tol saja. Brawijaya oh brawijaya

Doc 3 Kelas Arsitektur dan Organisasi Komputer penuh, apakah tidak dibuka kelas lagi. Rugi kalo saya bisa ngambil 24 SKS tapi baru 18 SKS yg terpenuhi

Doc 4