• Tidak ada hasil yang ditemukan

Information Extraction

Dalam dokumen BAB 2 LANDASAN TEORI (Halaman 55-61)

2. Preprocessing data

2.8 Text Mining

2.8.2 Teknologi Text Mining

2.8.2.1 Information Extraction

Titik permulaan untuk komputer menganalisa teks yang tidak terstruktur ialah dengan menggunakan extraction information. Software information extraction mengidentifikasi frasa

kunci dan hubungan dalam teks. Ini dilakukan dengan mencari urutan yang telah didefinisakan sebelumnya di dalam teks, sebuah proses yang disebut pattern matching. Software ini dapat menyimpulkan hubungan di antara objek yang telah terdefinisi untuk memberikan user informasi yang bermakna. Teknologi ini sangat berguna untuk volume data yang besar. Hampir semua software text mining menggunakan information extraction karena ini merupakan dasar dari semua teknologi text mining yang ada.

1. Topic Extraction

Sistem Topic Extraction bekerja dengan menyimpan profil user dan berdasarkan dokumen yang user lihat, lalu memprediksi dokumen lain yang memiliki daya tarik untuk user tersebut. Teknologi Topic Extraction mempunyai keterbatasan pada tingkatan akurasinya. Beberapa text mining tool yang baik memungkinkan user untuk memilih kategori tertentu atau software secara otomatis dapat menarik kesimpulan dari ketertarikan user berdasarkan sejarah bacaan user dan informasi yang dicari user melalui penekanan tombol mouse.

2. Summarization

Text summarization sangat membantu untuk mengetahui apakah sebuah dokumen yang panjang termasuk dalam kriteria yang dibutuhkan oleh user dan cocok untuk terus dibaca. Kunci dari summarization ialah mengurangi panjang dan detail dari dokumen namun tetap menjaga maksud inti dan keseluruhan. Tantangannya terletak di sana, walaupun komputer mampu untuk menentukan pelaku, tempat, dan waktu, namun tetap sulit untuk mengajarkan software untuk menganalisa kata-kata dan menerjemahkan

maknanya. Secara umum, ketika manusia menyimpulkan bacaan, kita membaca secara keseluruhan untuk memahaminya, lalu menuliskan kesimpulannya dengan mengambil intinya. Karena komputer belum mempunyai kapabilitas bahasa manusia, metode alternatif harus dipertimbangkan.

Salah satu strategi yang sering digunakan pada text summarization tool ialah sentence extraction, mengekstrak kalimat penting dari sebuah artikel dengan mengukur kalimat tersebut secara statistik. Summarization dapat bekerja dengan topic tracking tool atau categorization tool dalam proses untuk merangkum dokumen yang diinginkan pada topik-topik tertentu. Jika user diberikan ratusan dokumen yang berhubungan dengan topic yang mereka inginkan, maka summarization tool dapat digunakan untuk mengurangi waktu pencarian mereka untuk menyortir dokumen-dokumennya.

3. Categorization

Categorization mengidentifikasi topik utama dari dokumen dengan menempatkan dokumen ke dalam suatu set topik yang telah didefinisikan sebelumnya. Ketika mengkategorikan suatu dokumen, program komputer akan memperlakukan dokumen sebagai bag of words. Categorization tidak melakukan proses pada informasi aktual seperti pada information extraction lakukan. Categorization hanya menghitung kata-kata yang muncul dan mengidentifikasi topik utama dari judul dokumen. Categorization biasanya bergantung pada kosakata pada topik yang telah ditentukan sebelumnya dan hubungan didefinisikan dengan mencari broad terms, narrower terms, sinonim dan related terms. Categorization tool secara normal mempunyai metode untuk membuat ranking pada dokumen berdasarkan isi yang paling sesuai dengan topik yang ditentukan.

4. Clustering

Clustering ialah teknik yang sering digunakan untuk mengelompokkan dokumen-dokumen yang memiliki kemiripan tertentu, namun berbeda dari categorization, clustering tidak menentukan topik sebelum melakukan proses. Keuntungan teknik clustering bahwa dokumen-dokumen tersebut dapat dimunculkan dalam beberapa subtopik. Hal ini memastikan bahwa sebuah dokumen yang berharga tidak akan dihilangkan dari hasil pencarian. Algoritma dasar Clustering menciptakan vektor dari topik untuk setiap dokumen dan mengukur berat dari seberapa baik dokumen itu cocok untuk setiap cluster.

5. Concept Linkage

Teknik concept linkage menghubungkan dokumen-dokumen yang berhubungan dengan cara mengidentifikasi kemiripan mereka dan membantu user untuk menemukan informasi yang mereka tidak dapatkan ketika mereka menggunakan metode pencarian tradisional. Metode ini memungkinkan penjelajahan informasi dibandingkan pencarian informasi. Concept linkage adalah konsep yang berharga di dalam text mining, khususnya dalam aspek biomedical dimana begitu banyak riset yang telah dilakukan sehingga tidak mungkin jika si peneliti harus membaca seluruh materi dan menghubungkan materi-materi tersebut dengan risetnya yang lain.

6. Information Visualization

Visual text mining atau information visualization menempatkan sumber besar yang berupa teks ke dalam hirarki visual atau peta dan menyediakan kapabilitas penjelajahan, dalam penambahan untuk pencarian sederhana. User dapat berinteraksi dengan peta dokumen dengan memperbesar, menskala dan membuat peta kecil lain. Information visualization sangat berguna ketika user butuh untuk mempersempit dokumen dan menjelajah topik yang berhubungan.

7. Question Answering

Aplikasi lain dari natural language processing adalah natural language queries atau question answering yang menangani bagaimana menemukan jawaban terbaik untuk pertanyaan yang diberikan. Banyak websites yang dilengkapi dengan teknologi question answering, memungkingkan end user untuk “bertanya” pada computer sebuah pertanyaan dan diberikan jawaban.

2.9 Analisis SWOT

Menurut Rangkuti (2000, p18) analisis SWOT adalah pengidentifikasian dari factor-faktor yang ada secara sistematis. Untuk merumuskan strategi perusahaan, analisa ini didasarkan pada logika yang dapat memaksimalkan kekuatan dan peluang, namun secara bersamaan dapat meminimalkan kelemahan dan ancaman. Proses pengambilan keputusan strategis selalu berkaitan dengan pengembangan misi, tujuan, strategi dan kebijakan perusahaan, dengan demikian perencanaan strategi harus menganalisa factor-faktor strategis perusahaan dalam kondisi yang ada pada saat ini. SWOT merupakan kependekan dari kekuatan (Strength),

kelemahan (Weakness), kesempatan (Opportunity), dan ancaman (Threat). Analisis ini dapat mengindentifikasi factor-faktor tersebut secara sistematis dan dapat menunjukkan strategi yang cocok bagi perusahaan untuk dijadikan solusi.

2.9.1 Strength

Strength merupakan faktor yang memperbesar daya tawar dalam menghadapi pelanggan, menghindari persaingan dengen perusahaan sejenis dan memungkinkan biaya rendah dalam kelompok strategi.

2.9.2 Weakness

Weakness merupakan faktor yang dapat memperlemah posisi perusahaan dalam persaingan bisnisnya, menyebabkan biaya yang tinggi untuk melaksanakan strategi dan mengurangi daya tawar dalam menghadapi pelanggan. Kelangkaan dalam sumber daya yang memungkinkan perusahaan mengatasi rintangan yang ada juga termasuk dalam Weakness.

2.9.3 Opportunity

Opportunity merupakan faktor luar yang dapat memungkinkan terciptanya strategi bisnis baru atau memperkuat posisi struktural perusahaan yang telah ada.

2.9.4 Threat

Threat merupakan faktor luar yang dapat memungkinkan timbulnya hambatan dan rintangan bagi bisnis perusahaan, seperti inflasi, munculnya perusahaan sejenis, peraturan pemerintah dan lain-lain.

Dalam dokumen BAB 2 LANDASAN TEORI (Halaman 55-61)

Dokumen terkait