• Tidak ada hasil yang ditemukan

Tahapan Pengolahan Text Mining

N/A
N/A
Andra Alfitra

Academic year: 2024

Membagikan " Tahapan Pengolahan Text Mining"

Copied!
3
0
0

Teks penuh

(1)

Kuis Intelligent Information Retrieval

1. Gambarkan dan jelaskan tahapan pengolahan text mining

Tahapan pengolahan text mining melibatkan beberapa langkah utama:

1. Pengumpulan Data: Mengumpulkan data teks dari berbagai sumber seperti dokumen, artikel, web, dan lainnya.

2. Preprocessing: Membersihkan dan mempersiapkan teks untuk analisis lebih lanjut.

Langkah-langkah preprocessing meliputi:

- Tokenisasi: Memecah teks menjadi unit-unit kecil seperti kata atau frasa.

- Stopword Removal: Menghapus kata-kata umum yang tidak memiliki makna signifikan seperti "dan", "di", "dengan".

- Stemming dan Lemmatization: Mengubah kata-kata ke bentuk dasarnya untuk mengurangi variasi kata.

- Normalization: Menstandarkan format teks, termasuk konversi ke huruf kecil dan penghapusan tanda baca.

3. Transformasi Data: Mengubah teks menjadi bentuk yang dapat dianalisis, seperti

representasi vektor menggunakan teknik seperti Bag of Words (BoW) atau Term Frequency- Inverse Document Frequency (TF-IDF).

4. Analisis: Menerapkan teknik text mining seperti clustering, classification, sentiment analysis, dan lain-lain untuk mengekstrak informasi atau menemukan pola dalam data.

5. Evaluasi: Mengevaluasi hasil analisis untuk memastikan akurasi dan relevansi.

2. Jelaskan perbedaan text clustering dengan text classification

- Text Clustering:

- Tujuan: Mengelompokkan dokumen berdasarkan kesamaan isi tanpa label yang telah ditentukan sebelumnya.

- Teknik: Unsupervised learning (tidak ada label).

- Contoh Algoritma: K-means, Hierarchical Clustering, DBSCAN.

- Hasil: Grup atau cluster dokumen yang memiliki karakteristik serupa.

- Text Classification:

- Tujuan: Mengklasifikasikan dokumen ke dalam kategori yang telah ditentukan sebelumnya berdasarkan label yang ada.

- Teknik: Supervised learning (menggunakan label).

- Contoh Algoritma: Naive Bayes, Support Vector Machine (SVM), Random Forest.

- Hasil: Dokumen yang diberi label atau kategori tertentu.

(2)

3. Kasus

Dokumen:

1. Dokumen 1: belajar klasifikasi text mining

2. Dokumen 2: dalam proses klasifikasi text diperlukan Kumpulan dokumen

3. Dokumen 3: Kumpulan dokumen perlu diproses lanjut untuk menghasilkan klasifikasi berdasarkan kategori

Langkah Penyelesaian:

1. Lakukan Preprocessing:

- Tokenisasi:

- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mining']

- Dokumen 2: ['dalam', 'proses', 'klasifikasi', 'text', 'diperlukan', 'kumpulan', 'dokumen']

- Dokumen 3: ['kumpulan', 'dokumen', 'perlu', 'diproses', 'lanjut', 'untuk', 'menghasilkan', 'klasifikasi', 'berdasarkan', 'kategori']

- Stopword Removal:

- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mining']

- Dokumen 2: ['proses', 'klasifikasi', 'text', 'diperlukan', 'kumpulan', 'dokumen']

- Dokumen 3: ['kumpulan', 'dokumen', 'diproses', 'lanjut', 'menghasilkan', 'klasifikasi', 'berdasarkan', 'kategori']

- Stemming/Lemmatization:

- Dokumen 1: ['belajar', 'klasifikasi', 'text', 'mine']

- Dokumen 2: ['proses', 'klasifikasi', 'text', 'perlukan', 'kumpul', 'dokumen']

- Dokumen 3: ['kumpul', 'dokumen', 'proses', 'lanjut', 'hasil', 'klasifikasi', 'dasar', 'kategori']

2. Lakukan Term Weighting:

- Menghitung frekuensi setiap kata dalam dokumen.

3. Tentukan TF-IDF:

- Menghitung nilai TF-IDF untuk setiap kata dalam dokumen.

Sebagai contoh:

- Dokumen 1: {'belajar': 0.5, 'klasifikasi': 0.5, 'text': 0.5, 'mine': 0.5}

- Dokumen 2: {'proses': 0.25, 'klasifikasi': 0.25, 'text': 0.25, 'perlukan': 0.25, 'kumpul': 0.25, 'dokumen': 0.25}

- Dokumen 3: {'kumpul': 0.25, 'dokumen': 0.25, 'proses': 0.25, 'lanjut': 0.25, 'hasil': 0.25, 'klasifikasi': 0.25, 'dasar': 0.25, 'kategori': 0.25}

4. Tentukan Hasil Clustering:

- Menggunakan algoritma clustering seperti K-means untuk mengelompokkan dokumen berdasarkan vektor TF-IDF yang telah dihitung.

(3)

Misalnya, setelah menggunakan K-means clustering:

- Cluster 1: Dokumen 1 dan Dokumen 2 (karena memiliki kata 'klasifikasi' dan 'text') - Cluster 2: Dokumen 3 (karena lebih fokus pada proses lanjut dan kategori)

Referensi

Dokumen terkait

Berdasarkan hasil penelitian yang telah dilakukan, dan melalui berbagai tahapan, mulai dari pengumpulan data, pengolahan data, serta analisis data, maka dapat ditarik

Dari hasil penelitian terhadap analisis sentimen data twitter dengan menggunakan text mining pada suatu produk dapat disimpulkan sebagai berikut : 1. Algoritma Naïve Bayes

Text preprocessing merupakan serangkaian tahap dalam persiapan data awal berupa teks yang akan diterapkan metode yang melibatkan algoritma pembelajaran mesin dimana badan

Analisis yang dilakukan bertujuan untuk mengklasifikasi sentimen para pelanggan terhadap layanan uang elektronik OVO melalui teknik text mining dengan data yang

Applying the model to test data represents step 5 in the text mining workflow. 6.2.3 GLMNet

Text Mining *Web Mining *Concept Extraction *Natural Language Processing *Information Extraction *Document Classification *Document Clustering *Information Retrieval Data Mining

Teknik penelitian ini menggunakan model analisis interaktif yang diajukan oleh Emzir 2010: 85 di mana analisis ini melibatkan tahapan: 1 Pengumpulan data yang dilakukan dengan melakukan