• Tidak ada hasil yang ditemukan

Latar Belakang - Text Pre Processing v2

N/A
N/A
Protected

Academic year: 2018

Membagikan "Latar Belakang - Text Pre Processing v2"

Copied!
82
0
0

Teks penuh

(1)

Text

Pre-Processing

Text

Pre-Processing

(2)

Latar Belakang

(3)

Latar Belakang

Latar Belakang

Dokumen-dokumen yang ada

kebanyakan tidak memiliki struktur

yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Tidak semua kata mencerminkan makna/ isi yang terkandung dalam sebuah dokumen.

Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

(4)

Latar Belakang

Latar Belakang

Dokumen-dokumen yang ada

kebanyakan tidak memiliki struktur

yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Tidak semua kata mencerminkan

makna/isi yang terkandung dalam sebuah dokumen.

Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

(5)

Latar Belakang

Latar Belakang

Preprocessing diperlukan untuk

memilih kata yang akan digunakan

sebagai indeks

Indeks ini adalah kata-kata yang

mewakili dokumen yang nantinya

digunakan untuk membuat pemodelan untuk Information Retrieval maupun aplikasi teks mining lain.aaaaaaaaa

Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai indeks

(6)

Latar Belakang

Latar Belakang

Preprocessing diperlukan untuk

memilih kata yang akan digunakan

sebagai indeks

Indeks ini adalah kata-kata yang

mewakili dokumen yang nantinya digunakan untuk membuat pemodelan untuk Information Retrieval maupun aplikasi teks mining lain.

Preprocessing diperlukan untuk memilih kata yang akan digunakan sebagai indeks

Indeks ini adalah kata-kata yang

mewakili dokumen yang nantinya

(7)

Defnisi

Defnisi

Defnisi Pemrosesan Teks (Text Preprocessing) adalah suatu proses

pengubahan bentuk data yang belum terstruktur menjadi data yang

terstruktur sesuai dengan kebutuhan, untuk proses mining yang lebih lanjut (sentiment analysis, peringkasan, clustering dokumen, etc.).

Defnisi Pemrosesan Teks (Text Preprocessing) adalah suatu proses

pengubahan bentuk data yang belum

terstruktur menjadi data yang

(8)

Singkatnya…

Singkatnya…

Preprocessing adalah merubah teks menjadi term index

Tujuan: menghasilkan sebuah set term index yang bisa mewakili dokumen

Preprocessing adalah merubah teks

menjadi term index

(9)

Singkatnya…

Singkatnya…

Preprocessing adalah merubah teks menjadi term index

Tujuan: menghasilkan sebuah set

term index yang bisa mewakili

dokumen

Preprocessing adalah merubah teks

menjadi term index

Tujuan: menghasilkan sebuah set

term index yang bisa mewakili

(10)

Langkah-langkah

Text Pre-processing

Langkah-langkah

Text Pre-processing

(11)
(12)

Langkah 1 : Parsing

Langkah 1 : Parsing

Tulisan dalam sebuah dokumen bisa jadi terdiri dari berbagai macam

bahasa, character sets, dan format; Sering juga, dalam satu dokumen yang sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa Indonesia dengan lampiran PDF

berbahasa Inggris.aa

Tulisan dalam sebuah dokumen bisa

jadi terdiri dari berbagai macam

bahasa, character sets, dan format;

Sering juga, dalam satu dokumen yang sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa Indonesia dengan lampiran PDF

(13)

Langkah 1 : Parsing

Langkah 1 : Parsing

Tulisan dalam sebuah dokumen bisa jadi terdiri dari berbagai macam

bahasa, character sets, dan format;

Sering juga, dalam satu dokumen yang sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email

berbahasa Indonesia dengan lampiran PDF berbahasa Inggris.

Tulisan dalam sebuah dokumen bisa

jadi terdiri dari berbagai macam

bahasa, character sets, dan format;

Sering juga, dalam satu dokumen yang

sama berisi tulisan dari beberapa bahasa. Misal, sebuah email

(14)

Langkah 1 : Parsing

Langkah 1 : Parsing

Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan”

struktur dokumen menjadi komponen-komponen terpisah. Pada langkah

preprocessing ini, kita menentukan mana yang dijadikan satu unit

dokumen;

Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan”

struktur dokumen menjadi komponen-komponen terpisah. Pada langkah

preprocessing ini, kita menentukan mana yang dijadikan satu unit

(15)

Langkah 1 : Parsing

Langkah 1 : Parsing

Contoh, email dengan 4 lampiran bisa dipisah menjadi 5 dokumen : 1

dokumen yang merepresentasikan isi (body) dari email dan 4 dokumen dari masing-masing lampiran

Contoh, email dengan 4 lampiran bisa dipisah menjadi 5 dokumen : 1

(16)

Langkah 1 : Parsing

Langkah 1 : Parsing

Contoh lain, buku dengan 100

halaman bisa dipisah menjadi 100 dokumen; masing-masing halaman menjadi 1 dokumen

Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah koemntar pada forum atau review

produk.

Contoh lain, buku dengan 100

halaman bisa dipisah menjadi 100 dokumen; masing-masing halaman menjadi 1 dokumen

Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah koemntar pada forum atau review

(17)

Langkah 1 : Parsing

Langkah 1 : Parsing

Contoh lain, buku dengan 100

halaman bisa dipisah menjadi 100 dokumen; masing-masing halaman menjadi 1 dokumen

Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah komentar pada forum atau review

produk.

Contoh lain, buku dengan 100

halaman bisa dipisah menjadi 100 dokumen; masing-masing halaman menjadi 1 dokumen

Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah komentar pada forum atau review

(18)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Lebih populer disebut Lexing atau

Tokenization / Tokenisasi

Lebih populer disebut Lexing atau

(19)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Tokenisasi adalah proses

pemotongan string input berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah

memisahkan setiap kata yang menyusun suatu dokumen.

Tokenisasi adalah proses

pemotongan string input

berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah

(20)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Tokenisasi adalah proses

pemotongan string input berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah

memisahkan setiap kata yang menyusun suatu dokumen.

Tokenisasi adalah proses

pemotongan string input

berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah

(21)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Pada proses ini dilakukan

penghilangan angka, tanda baca dan karakter selain huruf alfabet, karena karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap pemrosesan teks.

Pada proses ini dilakukan

(22)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Pada tahapan ini juga dilakukan proses case folding, dimana semua huruf diubah menjadi huruf kecil.

(23)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Pada tahapan ini juga Cleaning

Cleaning adalah proses membersihkan

dokumen dari komponen-komponen yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag html, link, dan script

Pada tahapan ini juga Cleaning

Cleaning adalah proses membersihkan

(24)

Langkah 2 : Lexical

Analysis

Langkah 2 : Lexical

Analysis

Pada tahapan ini juga Cleaning

Cleaning adalah proses

membersihkan dokumen dari komponen-komponen yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag html, link, dan script, dsb.

Pada tahapan ini juga Cleaning

Cleaning adalah proses

membersihkan dokumen dari

(25)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi

Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi

(26)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi

Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Token adalah kata-kata yang

dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi

(27)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi Token: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Token adalah kata-kata yang

dipisah-pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi

Token: “culo”, “dan”, “boyo”,

(28)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Type adalah token yang

memperhatikan adanya duplikasi kata. Ketika ada duplikasi hanya dituliskan sekali saja.

Type: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Type adalah token yang

memperhatikan adanya duplikasi kata. Ketika ada duplikasi hanya dituliskan sekali saja.

(29)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Type adalah token yang

memperhatikan adanya duplikasi kata. Ketika ada duplikasi hanya dituliskan sekali saja.

Type: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Type adalah token yang

memperhatikan adanya duplikasi kata. Ketika ada duplikasi hanya dituliskan sekali saja.

Type: “culo”, “dan”, “boyo”,

(30)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Token: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Type: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Token: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Type: “culo”, “dan”, “boyo”,

(31)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Term adalah type yang sudah

dinormalisasi (dilakukan stemming, fltering, dsb)

Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Term adalah type yang sudah

dinormalisasi (dilakukan stemming, fltering, dsb)

(32)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Term adalah type yang sudah

dinormalisasi (dilakukan stemming, fltering, dsb)

Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Term adalah type yang sudah

dinormalisasi (dilakukan stemming, fltering, dsb)

Term : “culo”, “boyo”, “main”, “bola”,

(33)

Tokens, Types, and Terms

Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

Token: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Type: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”

Term: “culo”, “boyo”, “main”, “bola”, “depan”, “rumah”

Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”

Token: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”, “boyo”

Type: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “rumah”

Term: “culo”, “boyo”, “main”, “bola”,

(34)

Contoh Tokenisasi

Contoh Tokenisasi

Teks English They are applied to the words in the texts.

Tokens

they are

applied to

the words in

(35)

Contoh Tokenisasi

Contoh Tokenisasi

Teks Bahasa Namanya adalah Santiago. Santiago

sudah memutuskan untuk mencari sang alkemis.

Tokens

namanya adalah santiago santiago sudah

memutuskan untuk

(36)

Langkah 3 : Stopword

Removal

Langkah 3 : Stopword

Removal

Disebut juga Filtering

Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk

merepresentasikan dokumen. Disebut juga Filtering

Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk

(37)

Langkah 3 : Stopword

Removal

Langkah 3 : Stopword

Removal

Disebut juga Filtering

Filtering adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen. Disebut juga Filtering

Filtering adalah tahap pemilihan

(38)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma stoplist

Stoplist atau stopword adalah

kata-kata yang tidak deskriptif

(tidak penting) yang dapat dibuang dengan pendekatan bag-of-words.

Algoritma stoplist

Stoplist atau stopword adalah

kata-kata yang tidak deskriptif

(39)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma stoplist

Stoplist atau stopword adalah

kata-kata yang tidak deskriptif (tidak penting) yang dapat dibuang dengan pendekatan bag-of-words.

Algoritma stoplist

Stoplist atau stopword adalah

(40)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma stoplist

Kita memiliki database kumpulan

kata-kata yang tidak deskriptif (tidak penting), kemudian kalau

hasil tokenisasi itu ada yang

merupakan kata tidak penting dalam database tersebut, maka hasil

tokenisasi itu dibuang. Algoritma stoplist

Kita memiliki database kumpulan

kata-kata yang tidak deskriptif (tidak penting), kemudian kalau

hasil tokenisasi itu ada yang

merupakan kata tidak penting dalam database tersebut, maka hasil

(41)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma stoplist

Contoh stopwords adalah i’m, you, one, two, they, are, to, the, in, dst. Algoritma stoplist

Contoh stopwords adalah i’m, you,

(42)

Stopword Removal : Metode

Stopword Removal : Metode

Hasil Token Hasil Filtering

they

-are

-applied applied

to

-the

-words words

in

-the

(43)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma stoplist

Contoh stopwords adalah untuk, sang, sudah, adalah, dst.

Algoritma stoplist

Contoh stopwords adalah untuk, sang,

(44)

Stopword Removal : Metode

Stopword Removal : Metode

Hasil Token Hasil Filtering

namanya namanya

adalah

-santiago santiago santiago santiago

sudah

-memutuskan memutuskan

untuk

-mencari mencari

sang

(45)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma wordlist

Wordlist adalah kata-kata yang deskriptif (penting) yang harus

disimpan dan tidak dibuang dengan pendekatan bag-of-words.

Algoritma wordlist

Wordlist adalah kata-kata yang deskriptif (penting) yang harus

(46)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma wordlist

Wordlist adalah kata-kata yang

deskriptif (penting) yang harus disimpan dan tidak dibuang dengan pendekatan bag-of-words.

Algoritma wordlist

Wordlist adalah kata-kata yang

(47)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma wordlist

Kita memiliki database kumpulan

kata-kata yang deskriptif

(penting), kemudian kalau hasil tokenisasi itu ada yang merupakan

kata penting dalam database tersebut, maka hasil tokenisasi itu disimpan.

Algoritma wordlist

Kita memiliki database kumpulan

kata-kata yang deskriptif

(penting), kemudian kalau hasil tokenisasi itu ada yang merupakan

(48)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma wordlist

Contoh wordlist adalah applied, words, texts, dst.

Algoritma wordlist

Contoh wordlist adalah applied,

(49)

Stopword Removal : Metode

Stopword Removal : Metode

Hasil Token Hasil Filtering

they

-are

-applied applied

to

-the

-words words

in

-the

(50)

Stopword Removal : Metode

Stopword Removal : Metode

Algoritma wordlist

Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.

Algoritma wordlist

Contoh wordlist adalah santiago,

(51)

Stopword Removal : Metode

Stopword Removal : Metode

Hasil Token Hasil Filtering

namanya namanya

adalah

-santiago santiago santiago santiago

sudah

-memutuskan memutuskan

untuk

-mencari mencari

sang

(52)

Using Stop Words or

Not?

Using Stop Words or

Not?

Kebanyakan aplikasi text mining ataupun IR bisa ditingkatkan

performanya dengan penghilangan stopword.

Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak menghilangkan stop word, karena

algoritma yang mereka gunakan berhasil memanfaatkan stopword dengan

baikaaa

Kebanyakan aplikasi text mining

ataupun IR bisa ditingkatkan

performanya dengan penghilangan stopword.

Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak menghilangkan stop word, karena

algoritma yang mereka gunakan berhasil memanfaatkan stopword dengan

(53)

Using Stop Words or

Not?

Using Stop Words or

Not?

Kebanyakan aplikasi text mining ataupun IR bisa ditingkatkan

performanya dengan penghilangan stopword.

Akan tetapi, secara umum Web search engines seperti google sebenarnya

tidak menghilangkan stop word, karena algoritma yang mereka

gunakan berhasil memanfaatkan stopword dengan baik.

Kebanyakan aplikasi text mining

ataupun IR bisa ditingkatkan

performanya dengan penghilangan stopword.

Akan tetapi, secara umum Web search

engines seperti google sebenarnya

tidak menghilangkan stop word, karena algoritma yang mereka

(54)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Langkah ini bisa menangkap informasi dalam teks melebihi kemampuan dari metode tokenisasi / bag-of-word murni.

(55)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga

mendeteksi adanya 2 kata atau lebih yang menjadi frase.

Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga

(56)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Contoh, dari dokumen ini : “search engines are the most visible

information retrieval applications” Terdapat dua buah frase, yaitu

“search engines” dan “information retrieval”.

Contoh, dari dokumen ini : “search

engines are the most visible

information retrieval applications”

Terdapat dua buah frase, yaitu

(57)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Phrase detection bisa dilakukan

dengan beberapa cara : menggunakan

rule/aturan (misal dengan

menganggap dua kata yang sering

muncul berurutan sebagai frase), bisa dengan syntactic analysis, and

kombinasi keduanya.

Phrase detection bisa dilakukan

dengan beberapa cara : menggunakan

rule/aturan (misal dengan

menganggap dua kata yang sering

muncul berurutan sebagai frase), bisa dengan syntactic analysis, and

(58)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Metode umum yang diguakan adalah

penggunaan thesauri untuk mendeteksi adanya frase.

Contoh : Pada thesauri tersebut terdapat

daftar frase-fase dalam bahasa

tertentu, kemudia kita bandingkan kata-kata dalam teks apakah mengandung

frase-frase dalam thesauri tersebut atau tidak.aaa

Metode umum yang diguakan adalah

penggunaan thesauri untuk mendeteksi adanya frase.

Contoh : Pada thesauri tersebut terdapat

daftar frase-fase dalam bahasa

tertentu, kemudia kita bandingkan kata-kata dalam teks apakah mengandung

(59)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Metode umum yang diguakan adalah

penggunaan thesauri untuk mendeteksi adanya frase.

Contoh : Pada thesauri tersebut

terdapat daftar frase-fase dalam bahasa tertentu, kemudia kita

bandingkan kata-kata dalam teks apakah mengandung frase-frase dalam thesauri tersebut atau tidak.

Metode umum yang diguakan adalah

penggunaan thesauri untuk mendeteksi adanya frase.

Contoh : Pada thesauri tersebut

terdapat daftar frase-fase dalam bahasa tertentu, kemudia kita

(60)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Kelemahanya, tahap ini butuh komputasi yang cukup lama

Kebanyakan aplikasi teks mining atau IR tidak menggunakan Phrase

Detection

Sudah cukup dengan Token per Kata

Akan tetapi, sebenarnya pemanfaatan Phrase akan meningkatkan akurasi

Kelemahanya, tahap ini butuh

komputasi yang cukup lama

Kebanyakan aplikasi teks mining atau

IR tidak menggunakan Phrase Detection

Sudah cukup dengan Token per Kata

Akan tetapi, sebenarnya pemanfaatan

(61)

Langkah 4 :

Phrase

Detection

Langkah 4 :

Phrase

Detection

Kelemahanya, tahap ini butuh komputasi yang cukup lama

Kebanyakan aplikasi teks mining atau IR tidak menggunakan Phrase

Detection

Sudah cukup dengan Token per Kata

Akan tetapi, sebenarnya pemanfaatan Phrase akan meningkatkan akurasi

Kelemahanya, tahap ini butuh

komputasi yang cukup lama

Kebanyakan aplikasi teks mining atau

IR tidak menggunakan Phrase Detection

Sudah cukup dengan Token per Kata

Akan tetapi, sebenarnya pemanfaatan

(62)

Langkah 5 : Stemming

Langkah 5 : Stemming

Stemming adalah proses pengubahan

bentuk kata menjadi kata dasar atau tahap mencari root kata dari tiap

kata hasil fltering.

Stemming adalah proses pengubahan

bentuk kata menjadi kata dasar atau tahap mencari root kata dari tiap

(63)

Langkah 5 : Stemming

Langkah 5 : Stemming

Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian dapat lebih mengoptimalkan proses

teks mining.

Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian dapat lebih mengoptimalkan proses

(64)

Langkah 5 : Stemming

Langkah 5 : Stemming

Hasil Token Hasil Filtering Hasil Stemming

they -

-are -

-applied applied apply

to -

-the -

-words words word

in -

-the -

(65)

Langkah 5 : Stemming

Langkah 5 : Stemming

Hasil Token Hasil Filtering Hasil Stemming namanya namanya nama

adalah -

-santiago santiago santiago santiago santiago santiago

sudah -

-memutuskan memutuskan putus

untuk -

-mencari mencari cari

sang -

(66)

Langkah 5 : Stemming

Langkah 5 : Stemming

Implementasi proses stemming sangat beragam , tergantung dengan

bahasa dari dokumen.

Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Khoja (Arabic)

Implementasi proses stemming

sangat beragam , tergantung dengan

bahasa dari dokumen.

Beberapa metode untuk Stemming :

(67)

Langkah 5 : Stemming

Langkah 5 : Stemming

Implementasi proses stemming sangat beragam , tergantung dengan

bahasa dari dokumen.

Beberapa metode untuk Stemming :

Porter Stemmer (English & Indonesia)Stemming Arifn-Setiono (Indonesia)Stemming Nazief-Adriani (Indonesia)Khoja (Arabic)

Implementasi proses stemming

sangat beragam , tergantung dengan

bahasa dari dokumen.

Beberapa metode untuk Stemming :

Porter Stemmer (English & Indonesia)

Stemming Arifn-Setiono (Indonesia)

Stemming Nazief-Adriani (Indonesia)

(68)

Stemming : Metode

Stemming : Metode

Algorithmic: Membuat sebuah

algoritma yang mendeteksi imbuhan. Jika ada awalan atau

akhiran yang seperti imbuhan, maka akan dibuang.

Algorithmic: Membuat sebuah

algoritma yang mendeteksi imbuhan. Jika ada awalan atau

(69)

Stemming : Metode

Stemming : Metode

(70)

Stemming : Metode

Stemming : Metode

Metode Algorithmic

Kelebihan : relatif cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi dihilangkan

Contoh : makan -> mak; an dideteksi sebagai akhiran sehingga dibuang.

Metode Algorithmic

Kelebihan : relatif cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi dihilangkan

(71)

Stemming : Metode

Stemming : Metode

Metode Algorithmic

Kelebihan : relatif cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi

dihilangkan

Contoh : makan -> mak; an dideteksi sebagai akhiran sehingga dibuang.

Metode Algorithmic

Kelebihan : relatif cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi

dihilangkan

(72)

Stemming : Metode

Stemming : Metode

Metode Algorithmic

Kelebihan : relatif cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi

dihilangkan

Contoh : makan -> mak; an dideteksi sebagai akhiran sehingga dibuang.

Metode Algorithmic

Kelebihan : relatif cepat

Kekurangan : beberapa algoritma

terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata yang bukan imbuhan tapi

dihilangkan

Contoh : makan -> mak; an dideteksi

(73)

Stemming : Metode

Stemming : Metode

Metode Lemmatization

Lemmatization : Stemming berdasarkan kamus

Menggunakan vocabulary dan

morphological analysis dari kata untuk menghilangkan imbuhan dan

dikembalikan ke bentuk dasar dari kata. Metode Lemmatization

Lemmatization : Stemming

berdasarkan kamus

Menggunakan vocabulary dan

morphological analysis dari kata untuk menghilangkan imbuhan dan

(74)

Stemming : Metode

Stemming : Metode

Metode Lemmatization

Lemmatization : Stemming berdasarkan kamus

Menggunakan vocabulary dan

morphological analysis dari kata untuk menghilangkan imbuhan dan

dikembalikan ke bentuk dasar dari kata.

Metode Lemmatization

Lemmatization : Stemming

berdasarkan kamus

Menggunakan vocabulary dan

morphological analysis dari kata untuk

menghilangkan imbuhan dan

(75)

Stemming : Metode

Stemming : Metode

Metode Lemmatization

Stemming ini bagus untuk kata-kata yang mengalami perubahan tidak beraturan (terutama dalam english) Contoh : “see” -> “see”, “saw”, atau “seen”

Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk aslinya

yaitu “see”

Metode Lemmatization

Stemming ini bagus untuk kata-kata

yang mengalami perubahan tidak beraturan (terutama dalam english)

Contoh : “see” -> “see”, “saw”, atau “seen”

Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk aslinya

(76)

Stemming : Metode

Stemming : Metode

Metode Lemmatization

Stemming ini bagus untuk kata-kata yang mengalami perubahan tidak beraturan (terutama dalam english) Contoh : “see” -> “see”, “saw”, atau

“seen”

Jika ada kata “see”, “saw”, atau

“seen”, bisa dikembalikan ke bentuk aslinya yaitu “see”

Metode Lemmatization

Stemming ini bagus untuk kata-kata

yang mengalami perubahan tidak beraturan (terutama dalam english)

Contoh : “see” -> “see”, “saw”, atau

“seen”

Jika ada kata “see”, “saw”, atau

(77)

Stemming : Metode

Stemming : Metode

Algoritma Porter Stemming

merupakan algoritma yang paling populer. Ditemukan oleh Martin Porter pada tahun 1980.

Mekanisme algoritma tersebut dalam mencari kata dasar suatu kata berimbuhan, yaitu dengan membuang imbuhan–imbuhan (atau lebih tepatnya akhiran pada kata–kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan).

Algoritma Porter Stemming

merupakan algoritma yang paling populer. Ditemukan oleh Martin Porter pada tahun 1980.

Mekanisme algoritma tersebut dalam

(78)

Langkah 5 : Stemming

Langkah 5 : Stemming

Hasil

Token Hasil Filtering Hasil Stemming Type Term

they - - -

-are - - -

-applied applied apply apply apply

to - - -

-the - - -

-words words word word word

in - - -

-the - - -

(79)

Langkah 5 : Stemming

Langkah 5 : Stemming

Hasil

Token Hasil Filtering Hasil Stemming Type Term namanya namanya nama nama nama

adalah - - -

-santiago santiago santiago santiago santiago santiago santiago santiago -

-sudah - - -

-memutusk

an memutuskan putus putus putus

untuk - - -

-mencari mencari cari cari cari

sang - - -

(80)

Studi Kasus

Studi Kasus

Dokumen Ke-i Isi Dokumen

1

pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ijazah.

2

dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa

3

Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa fokus untuk ujian kompre-nya. terima kasih..

(81)

Studi Kasus

Studi Kasus

Dokume

n Ke-i Isi Dokumen Tokenisasi Filtering Stemming

1

pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ijazah.

pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas sehingga memudahkan mahasiswa yang ada di luar kota pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota sehingga lebih cepat mendapat ijazah

pembukaan daftar wisuda pelaksanaan umumkan web ub fakultas memudahkan mahasiswa kota pelaksanaan wisuda sebaiknya terjadwal tergantung kuota cepat ijazah

buka daftar wisuda laksana umum web ub fakultas mudah mahasiswa kota laksana wisuda baik jadwal gantung kuota cepat ijazah

2

dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa

dalam setahun belakangan ini pengaksesan krs diganti ke siam sebelumnya menggunakan sinergi saat menggunakan sinergi ftur serta kecepatan akses sangat handal dan nyaman tapi setelah diganti menggunakan siam keadaan berbalik menjadi buruk lambat loading dan bahkan sampai logout dengan sendirinya krs tidak hanya berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa

setahun belakangan pengaksesan krs diganti siam sinergi sinergi ftur kecepatan akses handal nyaman diganti siam keadaan berbalik buruk lambat loading logout sendirinya krs berpengaruh mahasiswa semester muda keseluruhan mahasiswa

tahun belakang akses krs ganti siam sinergi sinergi ftur cepat akses handal nyaman ganti siam ada balik buruk lambat loading logout sendiri krs pengaruh mahasiswa semester muda luruh mahasiswa

3

Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa fokus untuk ujian kompre-nya. terima kasih..

assalamualaikum wr wb yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifkat toeic sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre saya rasa ini sangat menghambat teman teman yang memang lemah dibidang bahasa inggris atau yang kurang beruntung dalam ujian toeic nya sehingga mereka tidak bisa fokus untuk ujian kompre nya terima kasih

assalamualaikum wr wb syarat ujian kompre sertifkat toeic lulus toeic ujian kompre menghambat lemah dibidang bahasa inggris kurang beruntung ujian toeic fokus ujian kompre terima kasih

assalamualaikum wr wb syarat uji kompre sertifkat toeic lulus toeic uji kompre hambat lemah bidang bahasa inggris kurang untung uji toeic fokus uji kompre terima kasih

4

pak/bu dosen saya mau minta keringanan biaya proposional dan spp ,soalnya ibu saya keberatan dengan biaya itu? terima kasih atas perhatiannya.

pak bu dosen saya mau minta keringanan biaya proposional dan spp soalnya ibu saya keberatan dengan biaya itu terima kasih atas perhatiannya

pak bu dosen minta keringanan biaya proposional spp soalnya ibu keberatan biaya terima kasih perhatiannya

(82)

Latihan :

Tentukan hasil Tokenisasi, Filtering dan Stemming setiap dokumen tersebut

Latihan :

Tentukan hasil Tokenisasi,

Filtering dan Stemming setiap dokumen tersebut

Dokumen

(Doc) (Content)Isi

Doc 1 elearning di PTIIK diatas jam 6 malam kok selalu gak bisa dibuka ya?

Doc 2 ub tidak punya lahan parkir yang layak. Dan jalanan terlalu ramai karena di buka untuk umum. Seperti jalan tol saja. Brawijaya oh brawijaya

Doc 3 Kelas Arsitektur dan Organisasi Komputer penuh, apakah tidak dibuka kelas lagi. Rugi kalo saya bisa ngambil 24 SKS tapi baru 18 SKS yg terpenuhi

Doc 4

Referensi

Dokumen terkait

Selebriti juga dapat meningkatkan value merek produk yang diiklankan (Royan, 2005, p.11). Oleh karena itu pemilihan selebritis sangat penting sekali karena selebritis yang tepat

Penggunaan teknologi NGS tidak hanya terbatas pada sekuensing genom saja, namun juga telah menujupada tahap aplikasi seperti pengembangan penanda molekuler, deteksi

Kemampuan membaca perlu dimiliki anak usia dini, karena dengan membaca anak dapat menyampaikan apa yang ada dipikirannya serta apa yang diinginkannya, membaca juga berperan

Sedangkan untuk kriteria performance history juga penting digunakan sebagai salah satu kriteria dalam pemilihan pemasok bahan baku, karena dengan mengetahui

suatu perushaan tidak hanya membahas apa saja yang terjadi di dalam ( internal ) perusahaan, tetapi faktor luar ( eksternal ) juga penting untuk melihat gambaran budaya

Pemilihan obyek Dear Me Beauty juga tidak jauh dari apa yang telah dilakukannya dalam mengkomunikasikan produknya di pemaparan sebelumnya, yaitu karena konsep co

Upaya untuk mengatasi permasalahan tersebut adalah dengan mengembangkan pertanyaan yang lebih dari sekedar menggunakan kata tanya apa, dimana dan kapan tapi juga

Untuk itu pertanyaan penting yang akan dijawab dalam penelitian ini adalah, “Faktor apa saja yang mempengaruhi Keputusan Pedagang Kaki Lima menempati bahu jalan di Koridor Jalan