Teknik Informatika UKDW Yogyakarta
Teks penuh
(2) 4/1/13. Outlook. Temperature. Humidity. Windy. Play. Sunny Sunny Overcast Rainy Rainy Rainy Overcast Sunny Sunny Rainy Sunny Overcast Overcast Rainy. Hot Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild. High High High High Normal Normal Normal High Normal Normal Normal High Normal High. False True False False False True True False False False True True False True. No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 3. 4. 2.
(3) 4/1/13. Teknik Informatika UKDW Yogyakarta. 5. Menurut. Loretta Auvil dan Duane Searsmith dari University of Illinois, karakteristik dokumen teks:. • database teks yang berukuran besar, • memiliki dimensi yang tinggi, yakni satu kata merupakan satu. dimensi,. • mengandung kumpulan kata yang saling terkait (frase) dan. antara kumpulan kata satu dengan lain dapat memiliki arti yang berbeda, • banyak mengandung kata ataupun arti yang bias (ambiguity), • dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang baku, karena di dalamnya terkadang muncul istilah slank seperti ”r u there?”, ”helllooo bosss, whatzzzzzzz up?”, dan sebagainya.. Teknik Informatika UKDW Yogyakarta. 6. 3.
(4) 4/1/13. Data. mining adalah suatu proses yang secara otomatis mencari atau menemukan informasi yang bermanfaat dari suatu kumpulan data yang besar. Tidak semua tugas penemuan informasi disebut sebagai data mining. • Sebagai contoh, pencarian data pribadi dengan. menggunakan sebuah sistem manajemen basis data, atau • pencarian suatu halaman web tertentu dengan cara melakukan query pada search engine di Internet. • Sebutkan contoh lain? Teknik Informatika UKDW Yogyakarta. 7. Text. mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk tujuan tertentu. Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi lebih terstruktur. Teknik Informatika UKDW Yogyakarta. 8. 4.
(5) 4/1/13. Teknik Informatika UKDW Yogyakarta. 9. tahap. text preprocessing akan dilakukan analisis terhadap sintak dan atau semantik (di sini terdapat proses tokenisasi). tahap text transformation, diterapkan proses stopword list dan atau stemming. tahapan features selection akan dilakukan perhitungan jumlah kata yang muncul ataupun statistik sederhana lainnya.. Teknik Informatika UKDW Yogyakarta. 10. 5.
(6) 4/1/13. Tokenisasi. secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata. • bagaimana membedakan karakter-karakter tertentu yang dapat. diperlakukan sebagai pemisah kata atau bukan.. • Sebagai contoh karakter whitespace, seperti enter, tabulasi,. spasi dianggap sebagai pemisah kata.. Namun. untuk karakter petik tunggal ('), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata.. • Sebagai contoh antara “tahu, tempet dan sambal” dengan. “100,56”.. Teknik Informatika UKDW Yogyakarta. 11. Dalam. memperlakukan karakterkarakter dalam teks sangat tergantung sekali pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).. Teknik Informatika UKDW Yogyakarta. 12. 6.
(7) 4/1/13. Karakter. Nonalphanumeric. • contoh: Yahoo!, AT&T, dsb.. Sebuah. titik (.) biasanya untuk tanda akhir kalimat, tapi dapat juga muncul dalam singkatan, inisial orang, alamat internet • Contoh: Sdr., S.Kom., 192.168.1.1, ukdw.ac.id. Tanda. hypen (-) biasanya muncul untuk menggabungkan dua token yang berbeda untuk membentuk token tunggal. Tapi dapat pula ditemukan untuk menyatakan rentang nilai, kata berulang, dsb. • Contoh: x-ray, 32-120, lari-lari. Teknik Informatika UKDW Yogyakarta. 13. Karakter. slash ( / ) sebagai pemisah file atau direktori atau url ataupun untuk menyatakan “dan atau” • Contoh: /opt/rapidminer, www.google.com/search?. num=100&q=text+mining, Ibu/Bapak.. URL.. Format. nomor telepon. Emoticon Format angka Frase Teknik Informatika UKDW Yogyakarta. 14. 7.
(8) 4/1/13. Setelah. deretan karakter telah disegmentasi ke dalam kata-kata (token), langkah berikut yang mungkin dilakukan adalah mengubah setiap token ke bentuk standard. • Proses ini disebut menerapkan stemming dan atau. lemmatization. • Tujuan: untuk mendapatkan bentuk dasar umum dari suatu kata.. Contoh:. • Am, are, is => be • Car, cars, car's, cars' => car Teknik Informatika UKDW Yogyakarta. 15. Stemming. • Proses heuristic yang memotong akhir kata, dan. sering juga membuang imbuhan. Lemmatization. • Serupa dengan stemming, hanya lebih baik. hasilnya. • Memperhatikan kamus dan analisis morfologi. • Menghasilkan kata dasar (lemma) N-gram Teknik Informatika UKDW Yogyakarta. 16. 8.
(9) 4/1/13. Prinsip. dari ZIPF’s LAW. • Kita menggunakan sedikit kata lebih sering dan. jarang untuk sebagian besar kata lain. • Rata-rata 20% kata-kata berperan sebagai mayoritas kata dalam suatu teks. Kata-kata. yang memiliki frekuensi kemunculan tinggi, dapat dibuang.. Teknik Informatika UKDW Yogyakarta. 17. Karakteristik. ciri/sifat sebuah dokumen dinyatakan oleh token atau kata-kata di dalamnya.. Teknik Informatika UKDW Yogyakarta. 18. 9.
(10) 4/1/13. Dalam. pembentukan features, dapat juga menerapkan pembobotan: • TF/IDF • Chi-Square • Information Gain. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 19. 20. 10.
(11) 4/1/13. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 21. 22. 11.
(12) 4/1/13. Teknik Informatika UKDW Yogyakarta. 23. Klasifikasi. Dokumen Information Retrieval Pengorganisasian dan Clustering Dokumen Information Extraction Natural Language Processing Text Summarization. Teknik Informatika UKDW Yogyakarta. 24. 12.
(13) 4/1/13. Teknik Informatika UKDW Yogyakarta. 25. Analisis. cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.. Teknik Informatika UKDW Yogyakarta. 26. 13.
(14) 4/1/13. Clustering. bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, membuat keputusan dan machine learning, termasuk data mining, document retrieval, segmentasi citra, dan klasifikasi pola. Metodologi clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 27. 28. 14.
(15) 4/1/13. Konsep. dasar dari IR adalah pengukuran kesamaan • sebuah perbandingan antara dua dokumen,. mengukur sebearapa mirip keduanya.. Setiap. input query yang diberikan, dapat dianggap sebagai sebuah dokumen yang akan dicocokan dengan dokumen-dokumen lain. Pengukuran kemiripan serupa dengan metode klasifikasi yang disebut metode nearest-neighbour. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 29. 30. 15.
(16) 4/1/13. Information. Extraction bermanfaat untuk menggali struktur informasi dari sekumpulan dokumen. Dalam menerapkan IE, perlu sekali dilakukan pembatasan domain problem. IE sangat memerlukan NLP untuk mengetahui gramatikal dari setiap kalimat yang ada. Sebagai contoh: • “Indonesia dan Singapore menandatangani MoU. kerjasama dalam bidang informasi dan komunikasi.” • KerjaSama(Indonesia, Singapore, TIK) Teknik Informatika UKDW Yogyakarta. Dengan. 31. IE, kita dapat menemukan:. • concepts (CLASS) • concept inheritance (SUBCLASS-OF) • concept instantiation (INSTANCE-OF) • properties/relations (RELATION) • domain and range restrictions (DOMAIN/. RANGE) • equivalence. Teknik Informatika UKDW Yogyakarta. 32. 16.
(17) 4/1/13. Teknik Informatika UKDW Yogyakarta. 33. Web. Mining bertujuan untuk menemukan informasi atau pengetahuan dari:. • Web hyperlink structure menemukan halaman web terpenting menemukan komunitas pemakai yang berbagi ketertarikan topik yang sama • page content Ekstraksi data/informasi dari halaman web Integrasi dan pencocokan skema informasi beberapa web Ekstraksi opini Knowledge synthesis Segmentasi halaman web dan mendeteksi noise • usage data. menemukan pola akses pemakai terhadap web, melalaui click stream. Teknik Informatika UKDW Yogyakarta. 34. 17.
(18) 4/1/13. Web. Structure Mining. • Wrapper induction • Structure Matching: edit distance Web. Content Mining. • Machine learning dan information extraction Web. Usage Mining. • Sequence pattern analysis. Teknik Informatika UKDW Yogyakarta. 35. jumlah. data/informasi di web sangat besar dan terus bertambah. tipe data beragam informasi pada web sangat beragam. informasi-informasi di web saling terhubung. informasi di web sangat "kotor". web juga merupakan service. web dinamis web merupakan sarana komunitas sosial virtual. Teknik Informatika UKDW Yogyakarta. 36. 18.
(19) 4/1/13. Dengan. analisis terhadap tautan dari sekumpulan halaman web, dapat ditentukan sifat authoritative tiap web. • PageRank • HITS • Atau bisa menggunakan beberapa metode. Social Network Analysis Betweeness centrality Closeness centrality Degree centrality Teknik Informatika UKDW Yogyakarta. Aggregate. 37. content. • Asosiasi informasi Reference. structure. • folksonomy Algorithms. • Prediksi, rekomendasi, klasifikasi, clustering. Teknik Informatika UKDW Yogyakarta. 38. 19.
(20) 4/1/13. Social. networking site Mashups Portals Wikis Media-sharing sites Online gaming Semantic Web. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 39. 40. 20.
(21) 4/1/13. Teknik Informatika UKDW Yogyakarta. Teknik Informatika UKDW Yogyakarta. 41. 42. 21.
(22) 4/1/13. Teknik Informatika UKDW Yogyakarta. Repositori. 43. data terstruktur dari 23 juta. entitas • Entitas dapat berupa orang, organisasi, tempat,. atau sesuatu objek.. Teknik Informatika UKDW Yogyakarta. 44. 22.
(23)
Dokumen terkait
Kinerja Ilmiah adalah kegiatan dalam pengembangan ilmiah yaitu sebagai peserta suatu kegiatan ilmiah, sebagai pendidik dalam artian yang luas termasuk sebagai pimpinan
Seperti halnya dalam fungsi riil am fungsi riil, , dalam fungsi kompl dalam fungsi kompleks juga dikenal eks juga dikenal istilah istilah integral fungsi kompleks
Penelitian ini bertujuan untuk mengetahui perencanaan, pelaksanaan serta evaluasi pelaksanaan program pembelajaran kejuruan pada paket keahlian teknik konstruksi batu dan
Berdasarkan hasil penelitian dan pembahasan yang telah dilakukan, menunjukkan bahwa hipotesis terdapat hubungan yang positif antara pola asuh permisif orang
Sedangkan, aksesibilitas kelembagaan tani tidak berkorelasi nyata (p>0,05) dengan persepsi petani nonkooperator Sulawesi Selatan pada aspek biofisik, sosial dan ekonomi. Saran
Dalam Hadist tersebut dijelaskan bahwa perintah menutup aurat adalah wajib untuk seluruh tubuh kecuali yang biasa nampak kemudian dalam hal ini Aisyah menunjukkan
(satu) buah bungkusan plastik bening berisikan 1 (satu) bungkus kecil daun ganja terbalut dengan kertas coklat didalam saku celana sebelah kanannya, selanjutnya
Az anyagi helyzet hatása azonban mind a két alminta esetében ha- sonló: a kedvezőbb anyagi helyzetben lévő csoportok elkötelezettsége magasabb, s szemléletes azoknak