Kuis Intelligent Information Retrieval
1. Gambarkan dan jelaskan tahapan pengolahan text mining
Tahapan pengolahan text mining melibatkan beberapa langkah utama:
1. Pengumpulan Data: Mengumpulkan data teks dari berbagai sumber seperti dokumen, artikel, web, dan lainnya.
2. Preprocessing: Membersihkan dan mempersiapkan teks untuk analisis lebih lanjut.
Langkah-langkah preprocessing meliputi:
- Tokenisasi: Memecah teks menjadi unit-unit kecil seperti kata atau frasa.
- Stopword Removal: Menghapus kata-kata umum yang tidak memiliki makna signifikan seperti "dan", "di", "dengan".
- Stemming dan Lemmatization: Mengubah kata-kata ke bentuk dasarnya untuk mengurangi variasi kata.
- Normalization: Menstandarkan format teks, termasuk konversi ke huruf kecil dan penghapusan tanda baca.
3. Transformasi Data: Mengubah teks menjadi bentuk yang dapat dianalisis, seperti
representasi vektor menggunakan teknik seperti Bag of Words (BoW) atau Term Frequency- Inverse Document Frequency (TF-IDF).
4. Analisis: Menerapkan teknik text mining seperti clustering, classification, sentiment analysis, dan lain-lain untuk mengekstrak informasi atau menemukan pola dalam data.
5. Evaluasi: Mengevaluasi hasil analisis untuk memastikan akurasi dan relevansi.
2. Jelaskan perbedaan text clustering dengan text classification
- Text Clustering:
- Tujuan: Mengelompokkan dokumen berdasarkan kesamaan isi tanpa label yang telah ditentukan sebelumnya.
- Teknik: Unsupervised learning (tidak ada label).
- Contoh Algoritma: K-means, Hierarchical Clustering, DBSCAN.
- Hasil: Grup atau cluster dokumen yang memiliki karakteristik serupa.
- Text Classification:
- Tujuan: Mengklasifikasikan dokumen ke dalam kategori yang telah ditentukan sebelumnya berdasarkan label yang ada.
- Teknik: Supervised learning (menggunakan label).
- Contoh Algoritma: Naive Bayes, Support Vector Machine (SVM), Random Forest.
- Hasil: Dokumen yang diberi label atau kategori tertentu.
3. Kasus
Dokumen:
1. Dokumen 1: belajar klasifikasi text mining
2. Dokumen 2: dalam proses klasifikasi text diperlukan Kumpulan dokumen
3. Dokumen 3: Kumpulan dokumen perlu diproses lanjut untuk menghasilkan klasifikasi berdasarkan kategori
Langkah Penyelesaian:
1. Lakukan Preprocessing:
- Tokenisasi:
- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mining']
- Dokumen 2: ['dalam', 'proses', 'klasifikasi', 'text', 'diperlukan', 'kumpulan', 'dokumen']
- Dokumen 3: ['kumpulan', 'dokumen', 'perlu', 'diproses', 'lanjut', 'untuk', 'menghasilkan', 'klasifikasi', 'berdasarkan', 'kategori']
- Stopword Removal:
- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mining']
- Dokumen 2: ['proses', 'klasifikasi', 'text', 'diperlukan', 'kumpulan', 'dokumen']
- Dokumen 3: ['kumpulan', 'dokumen', 'diproses', 'lanjut', 'menghasilkan', 'klasifikasi', 'berdasarkan', 'kategori']
- Stemming/Lemmatization:
- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mine']
- Dokumen 2: ['proses', 'klasifikasi', 'text', 'perlukan', 'kumpul', 'dokumen']
- Dokumen 3: ['kumpul', 'dokumen', 'proses', 'lanjut', 'hasil', 'klasifikasi', 'dasar', 'kategori']
2. Lakukan Term Weighting:
- Menghitung frekuensi setiap kata dalam dokumen.
3. Tentukan TF-IDF:
- Menghitung nilai TF-IDF untuk setiap kata dalam dokumen.
Sebagai contoh:
- Dokumen 1: {'belajar': 0.5, 'klasifikasi': 0.5, 'text': 0.5, 'mine': 0.5}
- Dokumen 2: {'proses': 0.25, 'klasifikasi': 0.25, 'text': 0.25, 'perlukan': 0.25, 'kumpul': 0.25, 'dokumen': 0.25}
- Dokumen 3: {'kumpul': 0.25, 'dokumen': 0.25, 'proses': 0.25, 'lanjut': 0.25, 'hasil': 0.25, 'klasifikasi': 0.25, 'dasar': 0.25, 'kategori': 0.25}
4. Tentukan Hasil Clustering:
- Menggunakan algoritma clustering seperti K-means untuk mengelompokkan dokumen berdasarkan vektor TF-IDF yang telah dihitung.
Misalnya, setelah menggunakan K-means clustering:
- Cluster 1: Dokumen 1 dan Dokumen 2 (karena memiliki kata 'klasifikasi' dan 'text') - Cluster 2: Dokumen 3 (karena lebih fokus pada proses lanjut dan kategori)