Tahapan Pengolahan Text Mining

(1)

Kuis Intelligent Information Retrieval

1. Gambarkan dan jelaskan tahapan pengolahan text mining

Tahapan pengolahan text mining melibatkan beberapa langkah utama:

1. Pengumpulan Data: Mengumpulkan data teks dari berbagai sumber seperti dokumen, artikel, web, dan lainnya.

2. Preprocessing: Membersihkan dan mempersiapkan teks untuk analisis lebih lanjut.

Langkah-langkah preprocessing meliputi:

- Tokenisasi: Memecah teks menjadi unit-unit kecil seperti kata atau frasa.

- Stopword Removal: Menghapus kata-kata umum yang tidak memiliki makna signifikan seperti "dan", "di", "dengan".

- Stemming dan Lemmatization: Mengubah kata-kata ke bentuk dasarnya untuk mengurangi variasi kata.

- Normalization: Menstandarkan format teks, termasuk konversi ke huruf kecil dan penghapusan tanda baca.

3. Transformasi Data: Mengubah teks menjadi bentuk yang dapat dianalisis, seperti

representasi vektor menggunakan teknik seperti Bag of Words (BoW) atau Term Frequency- Inverse Document Frequency (TF-IDF).

4. Analisis: Menerapkan teknik text mining seperti clustering, classification, sentiment analysis, dan lain-lain untuk mengekstrak informasi atau menemukan pola dalam data.

5. Evaluasi: Mengevaluasi hasil analisis untuk memastikan akurasi dan relevansi.

2. Jelaskan perbedaan text clustering dengan text classification

- Text Clustering:

- Tujuan: Mengelompokkan dokumen berdasarkan kesamaan isi tanpa label yang telah ditentukan sebelumnya.

- Teknik: Unsupervised learning (tidak ada label).

- Contoh Algoritma: K-means, Hierarchical Clustering, DBSCAN.

- Hasil: Grup atau cluster dokumen yang memiliki karakteristik serupa.

- Text Classification:

- Tujuan: Mengklasifikasikan dokumen ke dalam kategori yang telah ditentukan sebelumnya berdasarkan label yang ada.

- Teknik: Supervised learning (menggunakan label).

- Contoh Algoritma: Naive Bayes, Support Vector Machine (SVM), Random Forest.

- Hasil: Dokumen yang diberi label atau kategori tertentu.

(2)

3. Kasus

Dokumen:

1. Dokumen 1: belajar klasifikasi text mining

2. Dokumen 2: dalam proses klasifikasi text diperlukan Kumpulan dokumen

3. Dokumen 3: Kumpulan dokumen perlu diproses lanjut untuk menghasilkan klasifikasi berdasarkan kategori

Langkah Penyelesaian:

1. Lakukan Preprocessing:

- Tokenisasi:

- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mining']

- Dokumen 2: ['dalam', 'proses', 'klasifikasi', 'text', 'diperlukan', 'kumpulan', 'dokumen']

- Dokumen 3: ['kumpulan', 'dokumen', 'perlu', 'diproses', 'lanjut', 'untuk', 'menghasilkan', 'klasifikasi', 'berdasarkan', 'kategori']

- Stopword Removal:

- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mining']

- Dokumen 2: ['proses', 'klasifikasi', 'text', 'diperlukan', 'kumpulan', 'dokumen']

- Dokumen 3: ['kumpulan', 'dokumen', 'diproses', 'lanjut', 'menghasilkan', 'klasifikasi', 'berdasarkan', 'kategori']

- Stemming/Lemmatization:

- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mine']

- Dokumen 2: ['proses', 'klasifikasi', 'text', 'perlukan', 'kumpul', 'dokumen']

- Dokumen 3: ['kumpul', 'dokumen', 'proses', 'lanjut', 'hasil', 'klasifikasi', 'dasar', 'kategori']

2. Lakukan Term Weighting:

- Menghitung frekuensi setiap kata dalam dokumen.

3. Tentukan TF-IDF:

- Menghitung nilai TF-IDF untuk setiap kata dalam dokumen.

Sebagai contoh:

- Dokumen 1: {'belajar': 0.5, 'klasifikasi': 0.5, 'text': 0.5, 'mine': 0.5}

- Dokumen 2: {'proses': 0.25, 'klasifikasi': 0.25, 'text': 0.25, 'perlukan': 0.25, 'kumpul': 0.25, 'dokumen': 0.25}

- Dokumen 3: {'kumpul': 0.25, 'dokumen': 0.25, 'proses': 0.25, 'lanjut': 0.25, 'hasil': 0.25, 'klasifikasi': 0.25, 'dasar': 0.25, 'kategori': 0.25}

4. Tentukan Hasil Clustering:

- Menggunakan algoritma clustering seperti K-means untuk mengelompokkan dokumen berdasarkan vektor TF-IDF yang telah dihitung.

(3)

Misalnya, setelah menggunakan K-means clustering:

- Cluster 1: Dokumen 1 dan Dokumen 2 (karena memiliki kata 'klasifikasi' dan 'text') - Cluster 2: Dokumen 3 (karena lebih fokus pada proses lanjut dan kategori)