Klasifikasi Teks

Top PDF Klasifikasi Teks:

Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN.

Klasifikasi Teks Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN.

Teks merupakan salah satu jenis penyajian informasi yang terbentuk dari susunan kata-kata dengan bahasa tertentu. Informasi yang tersimpan dalam suatu teks diantaranya tema yang dibahas, isu yang diangkat, bahasa yang digunakan dan sebagainya. Seseorang dapat mengetahui tema yang sedang dibahas oleh suatu teks karena melihat adanya karakteristik dari teks tersebut. Karakteristik dari sebuah teks dapat dilihat dari kata -kata penyusunnya. Dengan memanfaatkan karakteristiknya, sebuah teks dapat diklasifikasikan berdasarkan jenis informasi yang tersimpan. Terdapat berbagai algoritma klasifikasi. Salah satu algoritma klasifikasi teks yang sering digunakan adalah Naive Bayes Classifier (NBC). NBC dalam penelitian ini digunakan untuk mengklasifikasikan teks berupa soal-soal ujian SBMPTN berdasarkan tema bidang studinya. Salah satu metode seleksi fitur DF-Threshold diterapkan untuk mendukung proses klasifikasi. Model increment dari klasifikasi diperlukan, mengingat jumlah teks soal ujian yang terus berkembang dan bertambah. Model increment dari NBC yaitu Naive Bayes Updateable memiliki kemampuan untuk belajar dari data-data yang baru dikenal oleh sistem bahkan setelah classifier dijalankan dengan data yang ada sebelumnya. Penelitian ini dilakukan untuk mengetahui bagaimana kinerja Naive Bayes Updateable dalam mengklasifikasikan soal-soal ujian SBMPTN berdasarkan tema bidang studi. Evaluasi klasifikasi dengan algoritma Naive Bayes Updateable menghasilkan akurasi 90,91%.
Baca lebih lanjut

16 Baca lebih lajut

Efek Penggunaan Keterkaitan Kata pada Algoritma Similaritas Semantik Terhadap Kinerja Proses Klasifikasi Teks dengan K-Nearest Neighbour

Efek Penggunaan Keterkaitan Kata pada Algoritma Similaritas Semantik Terhadap Kinerja Proses Klasifikasi Teks dengan K-Nearest Neighbour

Klasifikasi teks merupakan proses untuk mengelompokkan dokumen teks ke kelas-kelas yang telah ada. Metode k-nearest neighbour dapat digunakan dalam proses klasifikasi teks yang mengandalkan hasil perhitungan similaritas semantik untuk menentukan skor jarak/kedekatan antar dokumen teks. Perhitungan similaritas dua dokumen tidak hanya dipengaruhi oleh kesamaan kata-kata yang terkandung dalam dokumen, namun dipengaruhi juga oleh faktor keterkaitan kata di antara kedua dokumen. Tulisan ini membandingkan kinerja proses klasifikasi yang menerapkan fungsi kosinus tanpa memperhitungkan keterkaitan kata dan fungsi Dice yang memperhitungkan keterkaitan kata dengan Google bi-gram. Metode klasifikasi yang diuji adalah k-nearest neighbour. Hasil pengamatan menunjukkan bahwa penambahan faktor Google bi-gram pada fungsi Dice meningkatkan skor similaritas dua dokumen dan meningkatkan kinerja proses klasifikasi. Algoritma tanpa penambahan keterkaitan kata menghasilkan nilai F-Measure sebesar 0.648, sedangkan dengan penambahan faktor keterkaitan kata diperoleh F-Measuer sebesar 0.759.
Baca lebih lanjut

7 Baca lebih lajut

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi teks merupakan proses penentuan kategori suatu dokumen teks sesuai dengan karakteristik dari teks tersebut. Dalam prosesnya klasifikasi teks terdiri dari 3 komponen yaitu praproses data, konstruksi pengklasifikasi dan pengkatagorian dokumen. Tahapan praproses terdiri dari case folding, tokenizing, filtering dan stemming. Selain itu pembentukan kamus, pemilihan fitur dan pembobotannya merupakan bagian dari tahap ini [2]. Tahap pembentukan pengklasifikasi adalah suatu tahap pembentukan model pengklasifikasi melalui proses pembelajaran terhadap data latih. Sedangkan pengkatagorian documen adalah suatu tahapan proses testing dari data uji atau data yang akan ditentukan katagorinya berdasarkan model pengklasifikasi yang telah diperoleh.
Baca lebih lanjut

6 Baca lebih lajut

Klasifikasi Teks Pesan Spam Menggunakan Algoritma Naïve Bayes.

Klasifikasi Teks Pesan Spam Menggunakan Algoritma Naïve Bayes.

Intensitas pengiriman teks pesan spam melalui layanan sms semakin meningkat seiring dengan meningkatnya trafik komunikasi. Hal ini bisa meresahkan dan membuat ketidaknyamanan para penerima pesan. Salah satu cara yang bisa terapkan untuk mengatasi pesan spam adalah dengan melakukan filterisasi. Filterisasi diterapkan untuk membedakan pesan yang berisi spam dan pesan yang tidak berisi spam menggunakan teknik klasifikasi teks dengan metode naïve bayes. Naïve bayes efektif diterapkan untuk melakukan klasifikasi data dengan jumlah yang besar. Hasil eksperimen menunjukkan bahwa Naïve Bayes dalam melakukan klasifikasi teks pesan memiliki nilai akurasi 84.40%, precision 45.76% dan recall 88.09% dengan proses dokumen menggunakan word vector TF-IDF tanpa metode prune. Penerapan klasifikasi teks menggunakan Naïve Bayes dengan word vector TF-IDF dapat menghasilkan tingkat akurasi yang baik, sehingga dapat diterapkan untuk memfilter pesanyang berisi spam.
Baca lebih lanjut

5 Baca lebih lajut

TINJAUAN PUSTAKA  KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

TINJAUAN PUSTAKA KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

membuat pilihan fitur / atribut mudah dan ini menyebabkan baiknya akurasi prediksi / klasifikasi (Padhiyar, 2013). Klasifikasi teks mengunakan machine learning LVQ telah digunakan untuk melakukan klasifikasi teks berbahasa Arab Ada langkah-langkah yang berbeda yang digunakan untuk mengukur keberhasilan klasifikasi yaitu akurasi, presisi, ingat , F - ukuran dan waktu . Parameter lima algoritma LVQ ini telah dipilih secara empiris dengan sedikit peningkatan dan penurunan nilai mereka dan analisis output (Azara, Mohammed, Fatayer, Tamer, El-Halees, 2012).
Baca lebih lanjut

6 Baca lebih lajut

PENDAHULUAN  KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

PENDAHULUAN KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

Teknik yang digunakan untuk klasifikasi teks yang bekerja untuk dataset dengan dokumen besar seperti karya ilmiah tidak bekerja dengan baik untuk dokumen dalam corpus dengan pelatihan yang singkat. Kehilangan kinerja dapat dikaitkan dengan tanda kelemahan dari konsep yang dimodelkan karena ukuran pendek dari teks (Healy, Delany and Zamolotskikh, 2004).

8 Baca lebih lajut

TESIS  KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

TESIS KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

Metode yang digunakan dalam melakukan klasifikasi teks adalah metode Learning Vector Quantization (LVQ) untuk melakukan klasifikasi teks secara otomatis yang termasuk dalam kategori algoritma dari machine learning . Selain itu untuk melakukan perbaikan kata pada saat preprocessing data akan menggunakan metode Damerau Levensthein.

12 Baca lebih lajut

HASIL PENELITIAN DAN PEMBAHASAN  KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

HASIL PENELITIAN DAN PEMBAHASAN KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

Basis data SMS yang digunakan berada dalam 3 kategori yang telah ditentukan sebelumnya, data yang digunakan untuk uji coba berjumlah 20 teks SMS yang berada pada 3 kategori. Berikut masing – masing data pada tiap kategori yang ada :

11 Baca lebih lajut

KESIMPULAN DAN SARAN  KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

KESIMPULAN DAN SARAN KLASIFIKASI TEKS SHORT MESSAGE SERVICE (SMS).

Neural Techniques for Improving the Classification Accuracy of Microarray Data Set using Rough Set Feature Selection Method.. International Journal of Computer Trends and Technology, 43,[r]

6 Baca lebih lajut

Klasifikasi Teks Emosi Bahasa Aceh Menggunakan Metode Term Frekuensi Invers Dokument Frekuensi

Klasifikasi Teks Emosi Bahasa Aceh Menggunakan Metode Term Frekuensi Invers Dokument Frekuensi

Abstrak-Dalam bahasa Aceh teks emosi marah, senang, sedih, jijik dan normal dapat dinyatakan dalam bentuk verbal (menulis kata- kata). Emosi marah, senang, sedih, jijik dan normal juga dapat ditunjukkan dengan teks, akan tetapi tingkatan emosinya agak sulit ditebak disebabkan teks yang tidak dikenali suatu teks itu berupa emosi marah, senang, sedih, jijik dan bahkan emosi normal. Tingkatan emosinya agak sulit ditebak karena dalam bahasa aceh teks emosi belum tentu dapat digambarkan dengan pasti perasaan emosi yang dirasakan oleh teks itu sendiri. Oleh karena itu, dibuat sebuah program aplikasi yang dapat mengetahui tingkat emosi seseorang. Penelitian ini bertujuan untuk membahas teks emosi marah melalui kalimat atau teks marah, senang, sedih, jijik dan normal dalam bahasa Aceh untuk memperoleh tampilan persentase tingkat emosi dari suatu teks. Program aplikasi ini menggunakan metode Term Frekuensi / Invers Dokument Frekuensi. Penelitian sistem aplikasi ini menghasilkan akurasi kebenaran prediksi sebesar 80%.
Baca lebih lanjut

6 Baca lebih lajut

Kecerdasan Buatan dalam Game untuk Meres (1)

Kecerdasan Buatan dalam Game untuk Meres (1)

Penelitian yang telah dilakukan sebagian besar masih menggunakan teks bahasa Inggris, sedangkan untuk teks berbahasa Indonesia masih jarang dilakukan. Pada game penerapan emosi untuk mengatur perilaku dari NPC belum banyak dilakukan. Pada penelitian ini akan dibahas tentang pembuatan model kecerdasan buatan dalam game untuk merespon emosi dari kalimat teks berbahasa Indonesia dengan menggunakan klasifikasi teks dan logika fuzzy.

6 Baca lebih lajut

Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi-Square.

Klasifikasi Dokumen Teks Menggunakan Metode Support Vector Machine dengan Pemilihan Fitur Chi-Square.

Peningkatan dokumen akan mempengaruhi kinerja klasifikasi yang menyebabkan kerja sistem classifier akan semakin berat. Hal tersebut dikarenakan sistem klasifikasi mengambil isi dari uraian setiap dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi dengan menerapkan teknik pemilihan fitur dokumen. Pemilihan fitur merupakan suatu metode yang bertujuan untuk mengurangi jumlah kata yang digunakan untuk menjadi penciri dan meningkatkan akurasi hasil klasifikasi. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain document frequency thresholding (DF), information gain (IG), mutual information (MI), term strength (TS) dan chi-square testing ( � ) (Yang et al. 2003). Penelitian klasifikasi teks menggunakan pemilihan fitur ciri yang telah dilakukan sebelumnya, antara lain Herawan (2011) menggunakan metode naive bayes dengan ekstraksi ciri chi-square dan Saputra (2012) menggunakan metode semantic smoothing dengan ekstraksi ciri chi-square. Akurasi yang diperoleh dari penelitian dengan menggunakan naive Bayes adalah 93.26% dan semantic smoothing adalah 95.55%. Hal ini membuktikan bahwa kedua penelitian tersebut dapat digunakan untuk melakukan klasifikasi dokumen teks. Namun metode ini cocok untuk dokumen yang relatif pendek.
Baca lebih lanjut

32 Baca lebih lajut

Penerapan Metode Support Vector Machine (SVM) Menggunakan Kernel Radial Basis Function (RBF) Pada Klasifikasi Tweet

Penerapan Metode Support Vector Machine (SVM) Menggunakan Kernel Radial Basis Function (RBF) Pada Klasifikasi Tweet

Banyak penelitian – peneltian sebelumnya yang dikembangkan pada area klasifikasi khususnya teks untuk analisa sentiment, yaitu: klasifikasi tweet entity pada Twitter. Beberapa penelitian klasifikasi teks yang pernah dilakukan (Nur dan Santika, 2011 dimana mereka mengambil tweet untuk dataset dan SVM untuk metode klasifikasi untuk memperoleh akurasi sentiment terhadap merek telepon seluler) yang dikutip oleh [8] penelitian [4],Berdasarkan penelitian sebelumnya maka pada penelitian ini akan melakukan pengklasifikasian, berbeda dengan penelitian sebelumnya pada penelitian sekarang, penulis akan mencoba melakukan pengklasifikasian untuk “PENERAPAN METODE
Baca lebih lanjut

9 Baca lebih lajut

Klasifikasi Berita pada Twitter Menggunakan Metode Naive Bayes dan Query Expansion Hipernim-Hiponim

Klasifikasi Berita pada Twitter Menggunakan Metode Naive Bayes dan Query Expansion Hipernim-Hiponim

Salah satu solusi yang dapat dilakukan adalah dengan metode klasifikasi teks, yang dalam proses klasifikasinya mampu mengklasifikasikan secara otomatis terhadap beberapa kategori pada teks tidak terstruktur dengan bahasa alami. Salah satu metode klasifikasi adalah Naïve Bayes. Contoh penerapan metode Naïve Bayes adalah pada penelitian yang dilakukan oleh Perdana pada tahun 2013, menunjukkan bahwa Naïve Bayes pada klasifikasi tweet berbahasa indonesia menghasilkan performa yang baik, menggunakan metode pengukuran akurasi dengan precission, recall, dan F1 measure menghasilkan nilai masing-masing yaitu 80%, 79%, dan 78%. Pada penelitian lain yang dilakukan oleh Buzic dan Dobsa pada tahun 2018, menerapkan Naive Bayes untuk klasifikasi lirik lagu mendapatkan akurasi sebesar 88,4% dan metode pengukuran precision, recall, dan F1 menghasilkan nilai masing-masing yaitu 86,9%, 95,2% dan 90,9%. Dari penelitian-penelitian sebelumnya, maka dapat dipahami bahwa Naïve Bayes cocok untuk melakukan klasifikasi teks.
Baca lebih lanjut

7 Baca lebih lajut

Klasifikasi emosi untuk teks bahasa indo

Klasifikasi emosi untuk teks bahasa indo

Penelitian ini menggunakan 6 kelas emosi dasar yang diperoleh dari dataset ISEAR (International Survey on Emotion Antecedents and Reaction) berisikan 7.666 kalimat dan 1096 partisipan dari berbagai disiplin ilmu psikologi, ilmu sosial, seni, bahasa, ilmu alam, teknik, dan kesehatan. Berasal dari 16 negara lintas lima benua, Penelitian ISEAR tidak ditujukan pada klasifikasi teks namun mencoba mencari hubungan antara emosi dan perbedaaan budaya, gender, umur dan agama. Dataset tujuh jenis emosi yaitu jijik, malu, marah, sedih, senang, bersalah dan takut. Dalam penelitian ini ada beberapa hal yang perlu diperhatikan adalah
Baca lebih lanjut

8 Baca lebih lajut

Klasifikasi Berita Online Menggunakan Metode Support Vector Machine dan K- Nearest Neighbor

Klasifikasi Berita Online Menggunakan Metode Support Vector Machine dan K- Nearest Neighbor

Abstrak — Teknologi informasi merupakan salah satu hal yang tidak akan lepas dari kehidupan manusia. Tanpa adanya teknologi, manusia akan kesulitan dalam berkomunikasi dan menyampaikan informasi. Perlu adanya sistem yang secara otomatis yang dapat mengelompokkan berita sesuai dengan kategori berita dengan menggunakan text mining. Dalam penelitian ini, metode yang digunakan dalam klasifikasi adalah SVM dan KNN. KNN memiliki kelebihan dalam hal data training yang cukup banyak. Sebagai komparasi, dalam penelitian ini juga menggunakan SVM karena metode ini merupakan salah satu metode yang banyak digunakan untuk klasifikasi data, khususnya data teks. Kedua metode ini akan dibandingkan untuk mengetahui hasil ketepatan klasifikasi yang paling baik. Hasil dari penelitian ini bahwa SVM kernel linier dan kernel polynomial menghasilkan ketepatan klasifikasi yang paling baik adalah kernel polynomial. Apabila dibandingklan dengan KNN maka SVM lebih baik daripada KNN dengan hasil nilai akurasi, recall, precision dan F-Measure sebesar 93.2%, 93.2%, 93.63% dan 93.14% .
Baca lebih lanjut

6 Baca lebih lajut

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto

Berdasarkan pembahasan dapat ditarik beberapa kesimpulan: (1) Semua data uji telah masuk ke dalam setiap sub sub kategori pada masing-masing sub kategori dan kategori namun tidak semua artikel sesuai dengan sub sub kategori, oleh karena itu diperlukan pengujian manual. (2) Centroid pada masing-maing sub sub kategori terdiri dari tiga buah artikel yang diambil nilai tengahnya kemudian dihitung jarak kedekatan dengan masing-masing data uji. (3) Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran sebesar 60%. Terdapat faktor-faktor yang mempengaruhi akurasi kebenaran tersebut yaitu data uji diambil secara acak dari file dump Wikipedia, sehingga belum tentu semua data uji dapat masuk ke dalam kategori yang sesuai. Selain itu isi dari masing-masing data uji juga berpengaruh terhadap klasifikasi. Jika judul dari artikel sesuai, namun isinya tidak sesuai maka tidak akan masuk ke dalam sub sub kategori yang sesuai dengan judul artikel. Faktor berikutnya adalah jumlah artikel yang akan dijadikan centroid, jika semakin banyak jumlah artikel maka centroid akan semakin akurat.
Baca lebih lanjut

8 Baca lebih lajut

Aplikasi Mobile untuk Identifikasi Emosi Manusia Berbasis Teks pada Jejaring Sosial Twitter dengan Klasifikasi Decision Tree

Aplikasi Mobile untuk Identifikasi Emosi Manusia Berbasis Teks pada Jejaring Sosial Twitter dengan Klasifikasi Decision Tree

Data dalam penelitian ini didapatkan dari berbagai data sensor yang pada smartphone. Sensor yang dibutuhkan adalah smartphone yang memiliki sensor touchscreen, accelerometer, dan global positioning system (GPS). Data dikategorikan ke dalam 2 jenis. Pertama, data perilaku pengguna yaitu data yang mencakup kebiasaan mengetik pengguna seperti kecepatan mengetik, frekuensi menekan tombol yang spesifik, panjang maksimum teks, banyaknya teks yang dihapus dan jumlah sentuhan. Kedua, data konteks pengguna yaitu data yang menggambarkan lingkungan di sekitar pengguna seperti lokasi, zona waktu, dan kondisi cuaca. Seluruh daftar fitur ditunjukkan pada Tabel 1.
Baca lebih lanjut

27 Baca lebih lajut

Klasifikasi Supervised Learning Pada Teks Bahasa Bali Dengan Metode Information Gain Dan Naive Bayes Classifier.

Klasifikasi Supervised Learning Pada Teks Bahasa Bali Dengan Metode Information Gain Dan Naive Bayes Classifier.

Ketersediaan dokumen teks bahasa Bali yang meningkat jumlahnya membuat proses pencarian informasi pada dokumen teks berbahasa Bali menjadi semakin sulit. Mengklasifikasikanya secara manual menjadi tidak efisien mengingat peningkatan jumlah dokumen yang semakin banyak. Pada penelitian ini dikembangkan sebuah aplikasi yang dapat mengklasifikasikan teks bahasa Bali ke dalam kategori yang ditentukan. Aplikasi ini menggunakan metode klasifikasi Naive Bayes Classifier (NBC) dan metode Information Gain (IG) untuk seleksi fitur. Aplikasi ini diuji dengan teknik cross validation. Hasilnya adalah nilai rata- rata akurasi dari 10 fold cross validation sebesar 95,22%.
Baca lebih lanjut

16 Baca lebih lajut

Leaflet pelatihan angka kredit  PLP

Leaflet pelatihan angka kredit PLP

……… Peserta pelatihan akan mendapatkan materi tentang wawasan karier jabatan fungsional PLP, peraturan perundangan yang berkaitan dengan PLP, prosedur dan cara mendapatkan angka kredit [r]

2 Baca lebih lajut

Show all 10000 documents...