TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA PUTU SATRIYA MARGA D
5108100068
KAKAS BANTU ANALISIS AMBIGUITAS KEBUTUHAN PERANGKAT LUNAK BERBASIS SISTEM KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA POHON KEPUTUSAN C4.5
LATAR BELAKANG
31.1%
proyek pengembangan TI di USdibatalkan
karenakesalahan identifikasi kebutuhan
. [Standish, 1995]Pernyataan kebutuhan PL harus
jelas
dantidak ambigu
. [Standish, 1995]Pemeriksaan dokumen secara manual
kurang obyektif
dankurang efisien.
Solusi:
Kakas bantu yang mampu mendeteksi secara otomatis ambiguitas kebutuhan PL pada fase elisitasi.KAKAS BANTU ANALISIS AMBIGUITAS KEBUTUHAN PERANGKAT LUNAK BERBASIS SISTEM KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA C4.5
KAKAS BANTU ANALISIS KEBUTUHAN PERANGKAT LUNAK BERBASIS SISTEM KLASIFIKASI TEKS
MENGGUNAKAN ALGORITMA C4.5
[JUDUL PROPOSAL]
[DOSEN WALI]
Umi Laili Yuhana, S.Kom., M.Sc.
[DOSEN PEMBIMBING]
Daniel O. Siahaan, S.Kom., M.Sc., P.D.Eng.
Umi Laili Yuhana, S.Kom., M.Sc.
SOLUSI
Informasi Pernyataan
Kebutuhan
Penilaian Kualitas Teks Ambigu?
Pernyataan Kebutuhan Yang Lebih Jelas YA
TIDAK
RUMUSAN MASALAH
Bagaimana menggunakan Pengolahan Bahasa Alamiah untuk mengekstrasi fitur dari sebuah kebutuhan?
Bagaimana membuat berkas data latih yang akan digunakan untuk pelatihan dan pengujian pada sistem klasifikasi teks?
Bagaimana memanfaatkan pohon keputusan untuk menganalisis ambiguitas pada kebutuhan perangkat lunak berbasis sistem klasifikasi teks?
Bagaimana melakukan penelusuran kembali terhadap kata-kata yang menyebabkan ambiguitas pada suatu dokumen Spesifikasi Kebutuhan Perangkat Lunak dan memberikan rekomendasi yang sesuai?
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
BATASAN PERMASALAHAN
Bahasa alamiah yang digunakan adalah bahasa Inggris.
Analisis ambiguitas difokuskan pada tingkat pemahaman secara harfiah.
Tugas akhir ini akan menggunakan implementasi algoritma C4.5 pada Weka, yaitu J48 sebagai perkakas untuk teknik penggalian data.
SISTEM KLASIFIKASI TEKS
Teknik mengklasifikasikan konten dari teks
kedalam dua atau lebih kategori
, berdasarkankarakteristik yang berbeda
.Menggunakan implementasi dari
Machine Learning Algorithm
.TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
PENILAIAN KUALITAS DOKUMEN
BERBASIS SISTEM KLASIFIKASI TEKS
Model Kualitas untuk Spesifikasi Kebutuhan Perangkat Lunak [Hussain et al., 2007]
KASUS PENGGUNAAN
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
ARSITEKTUR SISTEM
MODEL KLASIFIKASI TINGKAT KALIMAT
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
PEMBENTUKAN KATA KUNCI AMBIGUITAS
Berfungsi untuk ekstraksi fitur kata-kata penyebab ambiguitas.
Setiap kata dari korpus ambigu tingkat kalimat (korpus A) akan dihitung frekuensi kemunculan pasangan (kata, POS tag), kemudian dilakukan perhitungan rasio frekuensinya pada korpus A dan korpus tidak ambigu tingkat kalimat (korpus U).
Kata Kunci POS LR
All DT 0.66
Any DT 0.63
These DT 0.51
Some DT 0.47
Nilai Ambang = 0.5
An DT 0.36
Another DT 0.32
No DT 0.27
This DT 0.25
A DT 0.22
PEMBENTUKAN KATA KUNCI AMBIGUITAS
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
EKSTRAKTOR FITUR TINGKAT KALIMAT
Fitur Deskripsi Jenis LR
bad_RB Kata keterangan yang ambigu
Kata Kunci Ambigu 0.66
bad_MD Modal yang ambigu 0.63
bad_JJ Kata sifat yang am-
bigu 0.51
bad_DT Determinan yang am-
bigu 0.47
vbCount_in_p Jumlah kata kerja da- lam kurung
Fitur Sintaksis
0.38 tokenCount_in_
p
Jumlah token dalam
kurung 0.36
paranthCount Jumlah kurung 0.32
Fragment Apakah suatu kalimat
fragmen? 0.27
AdvCount Jumlah kata ketera-
ngan 0.25
PassCount Jumlah kata pasif 0.22
AdjCount Jumlah kata sifat 0.21
Batas Bawah Batas Bawah LR 0.21
0,0,0,0,0,0,0,TRUE,0,0,0,Ambiguous 1,0,0,2,0,0,0,TRUE,0,0,2,Ambiguous 6,0,1,1,0,0,0,TRUE,0,1,1,Ambiguous 10,2,0,1,0,11,1,FALSE,2,0,1,Ambiguous
2,2,1,0,0,0,0,FALSE,2,0,0,Unambiguous 4,1,1,8,0,2,2,FALSE,1,0,8,Unambiguous 6,0,0,0,0,0,0,FALSE,0,0,0,Unambiguous 2,1,0,0,0,0,0,FALSE,1,1,0,Unambiguous 5,1,0,3,0,0,0,FALSE,1,1,3,Unambiguous 4,2,0,2,0,0,0,FALSE,2,1,2,Unambiguous 5,0,0,2,0,0,0,FALSE,0,1,2,Unambiguous 8,0,0,5,0,14,1,FALSE,0,1,5,Unambiguous 9,1,0,0,0,0,0,FALSE,1,1,0,Unambiguous 4,0,0,1,0,0,0,FALSE,0,0,1,Unambiguous
@relation sentence_level_corpus
@attribute bad_DT numeric
@attribute bad_RB numeric
@attribute bad_MD numeric
@attribute bad_JJ numeric
@attribute vb_in_p numeric
@attribute tokn_in_p numeric
@attribute parentheses numeric
@attribute fragment {TRUE,FALSE}
@attribute adverbs numeric
@attribute passives numeric
@attribute adjectives numeric
@attribute class {Ambiguous,Unambiguous,'?'}
@data
3,1,1,4,0,0,0,FALSE,1,0,4,Ambiguous 1,0,0,2,2,9,1,FALSE,0,0,2,Ambiguous 5,1,0,2,0,0,0,FALSE,1,0,2,Ambiguous 4,0,0,1,3,9,1,FALSE,0,0,1,Ambiguous 5,1,0,3,5,22,1,FALSE,1,1,3,Ambiguous 7,1,0,3,5,16,1,FALSE,1,1,3,Ambiguous 3,2,0,1,0,0,0,FALSE,2,0,1,Ambiguous 6,0,3,2,0,0,0,FALSE,0,1,2,Ambiguous 4,1,1,5,0,0,0,FALSE,1,1,5,Ambiguous 2,3,1,2,1,6,1,FALSE,3,0,2,Ambiguous 1,2,1,2,0,0,0,FALSE,2,2,2,Ambiguous 2,0,1,3,0,0,0,FALSE,0,0,3,Ambiguous 4,1,0,2,0,0,0,FALSE,1,1,2,Ambiguous 6,0,0,3,1,8,1,FALSE,0,0,3,Ambiguous 4,0,1,1,0,0,0,TRUE,0,0,1,Ambiguous
BERKAS ARFF TINGKAT KALIMAT
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
MODEL KLASIFIKASI TINGKAT KALIMAT
J48 TREE MODEL
MODEL KLASIFIKASI TINGKAT WACANA
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
EKSTRAKTOR FITUR TINGKAT KALIMAT
Nama Atribut Deskripsi
ambiguous_sent_per_se ntence
Atribut ini bertipe numeric. Berfungsi untuk menyimpan rasio jumlah kalimat ambigu dan jumlah keseluruhan kalimat.
uniques_per_words Atribut ini bertipe numeric. Berfungsi untuk menyimpan rasio jumlah kata uniques dan jumlah keseluruhan kata.
words_per_sentence Atribut ini bertipe numeric. Berfungsi untuk menyimpan rasio jumlah kata dan jumlah keseluruhan kata
Class Atribut ini bertipe enumersi. Berfungsi untuk menyimpan jenis klasifikasi suatu wacana.
“Ambiguous” apabila suatu instance merupakan wacana ambigu, “Unambiguous”
apabila suatu instance merupakan wacana tidak ambigu, dan “?” apabila suatu instance masih belum terklasifikasi.
0,0,0,0,0,0,0,TRUE,0,0,0,Ambiguous 1,0,0,2,0,0,0,TRUE,0,0,2,Ambiguous 6,0,1,1,0,0,0,TRUE,0,1,1,Ambiguous 10,2,0,1,0,11,1,FALSE,2,0,1,Ambiguous
2,2,1,0,0,0,0,FALSE,2,0,0,Unambiguous 4,1,1,8,0,2,2,FALSE,1,0,8,Unambiguous 6,0,0,0,0,0,0,FALSE,0,0,0,Unambiguous 2,1,0,0,0,0,0,FALSE,1,1,0,Unambiguous 5,1,0,3,0,0,0,FALSE,1,1,3,Unambiguous 4,2,0,2,0,0,0,FALSE,2,1,2,Unambiguous 5,0,0,2,0,0,0,FALSE,0,1,2,Unambiguous 8,0,0,5,0,14,1,FALSE,0,1,5,Unambiguous 9,1,0,0,0,0,0,FALSE,1,1,0,Unambiguous 4,0,0,1,0,0,0,FALSE,0,0,1,Unambiguous
@relation sentence_level_corpus
@attribute bad_DT numeric
@attribute bad_RB numeric
@attribute bad_MD numeric
@attribute bad_JJ numeric
@attribute vb_in_p numeric
@attribute tokn_in_p numeric
@attribute parentheses numeric
@attribute fragment {TRUE,FALSE}
@attribute adverbs numeric
@attribute passives numeric
@attribute adjectives numeric
@attribute class {Ambiguous,Unambiguous,'?'}
@data
3,1,1,4,0,0,0,FALSE,1,0,4,Ambiguous 1,0,0,2,2,9,1,FALSE,0,0,2,Ambiguous 5,1,0,2,0,0,0,FALSE,1,0,2,Ambiguous 4,0,0,1,3,9,1,FALSE,0,0,1,Ambiguous 5,1,0,3,5,22,1,FALSE,1,1,3,Ambiguous 7,1,0,3,5,16,1,FALSE,1,1,3,Ambiguous 3,2,0,1,0,0,0,FALSE,2,0,1,Ambiguous 6,0,3,2,0,0,0,FALSE,0,1,2,Ambiguous 4,1,1,5,0,0,0,FALSE,1,1,5,Ambiguous 2,3,1,2,1,6,1,FALSE,3,0,2,Ambiguous 1,2,1,2,0,0,0,FALSE,2,2,2,Ambiguous 2,0,1,3,0,0,0,FALSE,0,0,3,Ambiguous 4,1,0,2,0,0,0,FALSE,1,1,2,Ambiguous 6,0,0,3,1,8,1,FALSE,0,0,3,Ambiguous 4,0,1,1,0,0,0,TRUE,0,0,1,Ambiguous
BERKAS ARFF TINGKAT WACANA
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
0,3.038647,34.5,Unambiguous 0,1.697613,31.416667,Unambiguous 0.166667,2.847162,38.166667,Unambiguous 0,2.767635,30.125,Unambiguous
1,7.882353,85,Unambiguous 1,7.157895,95,Unambiguous 0,16.585366,41,Unambiguous
@relation discourse_level_corpus
@attribute ambiguous_sent_per_sentence numeric
@attribute uniques_per_words numeric
@attribute words_per_sentence numeric
@attribute class {Ambiguous,Unambiguous,'?'}
@data
0.2,0.288372,43,Ambiguous
0.545455,0.196009,38.727273,Ambiguous 0.2,0.938144,38.8,Ambiguous
0.944444,0.288557,44.666667,Ambiguous 0.75,0.556263,39.25,Ambiguous
1,0.829609,32.545455,Ambiguous 1,2.488189,127,Ambiguous 1,1.661538,39,Ambiguous
0.888889,0.687129,56.111111,Ambiguous 1,0.492829,42.611111,Ambiguous 0.333333,1.641129,41.333333,Ambiguous 0.333333,1.061321,35.333333,Ambiguous 0.5,2.063063,27.75,Ambiguous
0.935484,0.527778,32.516129,Ambiguous 0.5,1.493225,46.125,Ambiguous
0.545455,1.451282,35.454545,Ambiguous 0,4.185185,27,Ambiguous
1,1.725664,26.076923,Ambiguous 0,2.052805,43.285714,Ambiguous 0,8.680556,36,Unambiguous 0,2.565574,40.666667,Unambiguous 0,2.377863,65.5,Unambiguous
WACANA
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
MODEL KLASIFIKASI TINGKAT WACANA
J48 TREE MODEL
Penelusuran kembali dan pemberian rekomendasi hanya diberikan pada pernyataan yang memiliki hasil analisis ambigu. Penelusuran kembali dilakukan dengan mencocokkan pasangan <kata, POS> pada pernyataan kebutuhan yang ambigu dengan pasangan <kata, POS> pada daftar kata kunci ambiguitas, apabila ditemukan persamaan maka kata tersebut akan diberi tanda untuk kemudian dilakukan highlight. Rekomendasi selain hanya diberikan pada pernyataan yang memiliki hasil analisis ambigu juga terdapat ketentuan tambahan, yakni apabila jumlah pasangan <kata, POS> yang terdeteksi untuk setiap daftar kata kunci ambiguitas (badDT, bad RB, badMD, badJJ) melebihi nilai ambang yang ditentukan.
PENELUSURAN KEMBALI DAN
REKOMENDASI
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
PENELUSURAN KEMBALI
REKOMENDASI
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
UJI COBA DAN EVALUASI
Test ID TC-NF-001
Tujuan Test Mengetahui nilai kebenaran hasil dari kakas bantu analisis ambi-guitas.
Kondisi Awal Telah dibentuk model Sistem Klasifikasi Teks dengan menggu-nakan 60% dari pernyataan kebu- tuhan pada dokumen uji sebagai data latih secara acak.
Data Input Prosedur pengujian Hasil yang diharapkan Hasil yang diperoleh Data Uji yang berasal dari ahli 1: Daniel Oranova Siahaan, S.Kom, M.Sc., PD.Eng.
Dokumen
“Earchive.docx”
Aplikasi dijalankan sampai dengan tahap untuk analisis
ambiguitas dokumen.
Hasil analisis ambigu ahli dan sistem
menemui kecocokan.
Merujuk pada tabel 5.7
UJI COBA DAN EVALUASI
Kakas Bantu
Ambigu Tidak Ambigu
Ahli
Ambigu 9 1
Tidak Ambigu 12 18
Berdasarkan kutipan tabel 5.7 terlihat bahwa 9 buah pernyataan kebutuhan dinyatakan ambigu oleh ahli maupun kakas bantu dan 18 buah pernyataan kebutuhan dinyatakan tidak ambigu. Berdasarkan data tersebut maka P(A) = (9+ 18) / 40 = 0.675 . Kemudian untuk menghitung P(E) dilakukan dengan cara sebagai berikut:
1. Ahli menjawab ambigu sebanyak 11 kali dan tidak ambigu sebanyak 29 kali, maka prosentase ahli menjawab ambigu = 27.5%
2. Kakas bantu menjawab ambigu sebanyak 22 kali dan tidak ambigu sebanyak 18 kali, maka prosentase kakas bantu menjawab ambigu = 55%
3. Probabilitas para penguji menjawab ambigu adalah 0.275* 0.55 = 0.15
4. Probabilitas para penguji menjawab tidak ambigu adalah 0.725 * 0.45 = 0.33 5. P(E) = 0.15 + 0.33 = 0.48
Setelah itu nilai κ (indeks Kappa) dapat ditentukan dengan:
κ = ( 0.675 – 0.48) / (1-0.48) = 0.195/0.52 = 0.375.
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA
UJI COBA DAN EVALUASI
UJI COBA DAN EVALUASI
terima kasih…
(^_^)
TUGAS AKHIR [2011/2012]
PUTU SATRIYA MARGA DINATA