• Tidak ada hasil yang ditemukan

Analisis Pengelompokan Dokumen Paten dalam Bidang Biomass Energy menggunakan Metode K-Median Clustering

N/A
N/A
Protected

Academic year: 2021

Membagikan "Analisis Pengelompokan Dokumen Paten dalam Bidang Biomass Energy menggunakan Metode K-Median Clustering"

Copied!
5
0
0

Teks penuh

(1)

Analisis Pengelompokan Dokumen Paten dalam Bidang

Biomass Energy menggunakan Metode

K-Median Clustering

Annisa Rahmah Nur S, Jadi Suprijadi, Zulhanif

Departemen Statistika, FMIPA, Universitas Padjadjaran, Jatinangor

[email protected]

ABSTRAK

Sumber energi dunia yang berasal dari fosil saat ini keberadaannya mulai menipis. Sehingga diperlukan untuk mencari energi alternatif sebagai sumber energi. Salah satu alternatif yang dapat digunakan adalah

biomass energy yang berasal dari sumber daya alam. Indonesia sebagai negara agraris yang kaya akan

sumber biomass namun, dalam pemanfaatan masih sangat minim. Untuk mengorientasikan riset dan pengembangan dalam bidang biomass energy perlu dukungan informasi teknologi. Sumber informasi yang relevan adalah paten. Dalam penelitian ini, dokumen paten diunduh dari database Espacenet dari EPO (European Patent Office) yang merupakan data teks yang tidak terstruktur. Data tersebut dalam format bibliografik (meliputi title, abstrak, IPC, dll). Data yang diolah pada penelitian ini adalah data teks dalam abstrak. Persiapan data dilakukan menggunakan metode Text Mining meliputi tokenizing, filtering, dan stemmning. Disamping itu diperoleh Term Document Matrix yang dibangun dari term frekuensi berdasarkan kemunculan kata-kata. Selanjutnya dilakukan analisis pengelompokan dokumen paten terhadap kata-kata yang diperoleh dengan menggunakan Algoritma K-Median Clustering. Hasil yang diperoleh merupakan knowledge dalam bentuk kelompok-kelompok dokumen paten dengan beberapa

terms yang terkait didalamnya.

Keyword : Biomass Energy, clustering, K-Median, paten, Text Mining.

1. PENDAHULUAN

Dewasa ini energi merupakan kebutuhan penting bagi manusia. Energi yang banyak digunakan saat ini adalah bersumber dari energi fosil. Namun pada kenyataannya ketersedian energi fosil dari tahun ke tahun semakin menipis sehingga perlu dilakukan pencarian energi alternatif untuk memenuhi kebutuhan energi untuk saat ini dan untuk jangka waktu kedepan. Energi alternatif harus berasal dari sumber energi yang dapat terus diperbaharui atau terbarukan. Energi terbarukan meliput matahari, angin, air, gelombang samudra, panas bumi, biomassa dan sumber energi lain yang secara alamiah terus menurus diperbaharui [1]. Biomassa merupakan salah satu energi alternatif yang berasal dari sumber daya alam. Contoh biomassa antara lain adalah tanaman, pepohonan, rumput, ubi, limbah pertanian, limbah perkotaan dan kotoran ternak. Potensi biomassa di Indonesia bisa digunakan sebagai sumber energi yang jumlahnya sangat melimpah. Meskipun potensi energi terbarukan Indonesia yang cukup besar namun dalam pemanfaatannya masih belum optimal [2].

Peningkatan penggunaan biomass energy perlu terus menerus ditingkatkan dengan mengorientasikan riset dan pengembangan dengan dukungan informasi teknologi. Sumber informasi yang relevan dengan kebutuhan ini adalah paten. Informasi pada paten merupakan alat yang sangat baik untuk mempelajari hal-hal yang menyangkut pada transfer teknologi, inovasi dan kreativitas [3]. Oleh karena itu perlu dilakukan analisis dari sejumlah paten yang terkait biomass energy.

Dalam mengorientasikan program-program riset peneliti perlu menggunakan dokumen paten yang telah tersedia dalam database dapat diakses melalui internet secara komersil dan non-komersil. Dalam penelitian ini database yang digunakan yaitu database espacenet oleh EPO (European Patent Office) yang merupakan salah satu database yang dapat diakses secara non-komersil.

Dokumen paten mengandung informasi meliputi komponen-kompenen (fields): Abstract, Title;

(2)

number (PN), priority number (PR). Dokumen paten terdiri dari data terstruktur maupun tidak terstruktur.

Data terstruktur misalnya IPC ,PR dan untuk data tidak terstruktur adalah abstract dan title. Abstrak sebagai salah satu komponen dokumen paten merupakan bentuk ringkasan pendek dari suatu penemuan teknologi [4]. Berdasarkan hal tersebut, maka fokus penelitian ini kepada data tidak terstruktur (abstract) dimana yang menjadi objek analisis adalah kata-kata (terms) yang terkandung dalam dokumen abstrak paten.

Field abstrak paten merupakan data yang berbentuk data teks yang mencakup sejumlah besar

kata-kata kunci terkait teknologi biomass energy. Dokumen paten berupa abstrak mengenai biomass energy berbentuk data teks yang belum siap untuk dianalisis secara kuantitaif. Dalam penelitian ini penulis mencoba untuk melakukan pengelompokan dokumen paten berdasarkan kata-kata kunci terkait kedalam kelompok-kelompok yang lebih kecil secara tematis.

Berdasarkan penjelasan diatas yang menjadi permasalahan disini adalah proses pengelompokan yang akan dilakukan adalah analisis cluster. Oleh karena itu untuk melakukan hal tersebut perlu adanya proses menstrukturkan data teks menjadi data numerik yaitu dengan proses text mining.

Proses pengelompokan (clustering) non-hierarki yang umum dilakukan adalah K-Means, namun penenlitian ini dihadapkan pada masalah munculnya frekuensi-frekuensi kata-kata kunci yang memiliki varians yang tinggi, sehingga dalam dalam penerapannya penentuan centroid berdasarkan mean tidak akan dapat mengatasi masalah varins yang tinggi. Oleh karena itu dalam menanggulangi hal tersebut metode clustering yang dapat digunakan adalah K-Median [5].

Maksud dalam penelitian ini adalah menggunakan metode text mining untuk menstrukturkan data dan metode K-Median Clustering dalam mengelompokan data teks ke dalam beberapa cluster. Tujuan yang ingin dicapai adalah untuk memperoleh kelompok-kelompok dokumen abstrak paten terkait kata-kata kunci dalam bidang biomass energy.

2. TINJAUAN PUSTAKA

1.

Dokumen Paten

Dokumen paten merupakan kumpulan hasil-hasil riset berisi pengetahuan yang mengandung berbagai teknologi in

formasi. D

okumen paten berisi tentang hasil penelitian penting yang berharga bagi industri, bisnis, hukum, dan komunitas dalam pembuatan kebijakan

[6]

. Dokumen berupa paten saat ini terdiri lebih dari jutaan paten yang tersebar di berbagai database yang terintegrasi diberbag

ai web terkini [7].

Sumber database yang popular saat ini dan dapat dengan mudah diakses gratis adalah United States Patents and Trademark Office (USPTO) dan European

Patent Office (EPO). Dokumen paten terdiri dari data terstruktur maupun tidak terstruktur. Data

terstruktur misalnya IPC ,PR dan untuk data tidak terstruktur adalah abstract dan title. Fokus penelitian ini adalah untuk menganalisis salah satu bagian dari dokumen paten yaitu Field abstract yang merupakan data teks tidak terstuktur. I

nformasi yang terkandung dari suatu

komponen data paten dijelaskan pada tabel berikut ini :

Tabel 2.1 Format dan informasi konten dokumen paten

Format Letak Konten Tipe Fungsi

Title dan

abstract

Front page

Ringkasan pendek dari suatu penemuan teknologi

Unstructured

free text Arsip

Bibliographic

data

Front page

Informasi bibliografik berupa nomer dokumen, tanggal publikasi dan pengarsipan, nama inventors, dan hak milik. Structured strict text Bisnis dan kebijakan publik Description Main body

Mengungkapkan dengan jelas teknik detail, di ilustrasikan oleh contoh yang menunjukan bagaiamana penemuan diterapkan dalam praktek.

Unstructured free text Teknik dan hukum Claims Main body

Menentukan cakupan proteksi untuk penemuan yang dipertimbangkan karena memenuhi aspek hukum dokumen paten.

Unstructured

(3)

2.

Text Mining

Text mining merupakan proses penggalian pengetahuan oleh pengguna ilmu text mining yang

berinteraksi dengan koleksi dokumen dari berbagai waktu dengan menggunakan alat analisis[8]. Penggalian pengatahun dapat dikatakan sebagai proses pengambilan dari suatu dokumen dengan tujuan mendapatkan kata-kata yang bisa mewakili isi dari dokumen tersebut. Sebagian besar informasi dalam suatu dokumen disimpan dalam bentuk data teks [9]. Tahapan text mining membutuhkan persiapan data yang sangat baik agar suatu pengetahuan atau informasi dapat diungkap. Tahap persiapan data tersebut adalah document pre-processing dan feature selection. Document Pre-Processing merupakan langkah dalam Text Mining untuk mentransformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan analisis. Terdapat tiga tahapan dalam Document Pre-Processing.

1. Tokenizing bertujuan memisahkan data teks dengan spasi atau enter ke dalam satu dokumen untuk memudahkan mendapatkan token yang ada di analisis.

2. Tahap filtering adalah proses pengambilan kata-kata penting dari hasil tahapan tokenizing.

3. Stemming adalah suatu proses yang bertujuan untuk mengambil kata dasar (root) dari hasil

tahapan filtering.

Tahapan future selection dilakukan setelah tahap Document Pre-processing yang bertujuan untuk dapat memilih term atau kata yang dapat dijadikan sebagai wakil penting untuk kumpulan dokumen yang akan dianalisis. Metode yang digunakan pada tahap ini adalah Term Frequency – Inverse Document

Frequency (TF-IDF) dengan melakukan proses perhitungan yang melibatkan pembobotan frekuensi

kemunculan term pada keseluruhan koleksi teks dengan rumusan sebagai berikut [10] :

dengan:

: bobot untuk term ke-i pada dokumen ke-j

: jumlah kemunculan term ke-i pada dokumen ke-j 𝑁 : jumlah dokumen dalam database

: jumlah dokumen yang mengandung term ke-i

Setelah dilakukan kedua tahap text mining tersebut untuk menemukan dan mengetahui frekuensi kemunculan setip term pada dokumen paten biomass energy di buat dalam bentuk Term Document

Matrix.

3.

K- Median Clustering

K-Median clustering merupakan salah satu metode dalam pengelompokan yang berdasarkan nilai mediannya [11]. Algoritma K-Median memilih pusat cluster K dengan bertujuan untuk meminimalkan jumlah jarak pengukuran antara masing-masing cluster titik dan pusat cluster terdekat. Algoritma K-Median dapat dengan cepat menemukan titik stationer yang berguna dan kemampuan algoritma ini dapat menangani database besar [12].

Sebelum dilakukan analisis K-Median Clustering, perlu diketahui berapa banyak klaster yang akan dibentuk dari data. Tidak berbeda jauh dengan analisis klaster non-hierarki lain, pada K-Median

Clustering jumlah klaster ditetapkan sebelum pengelompokan dilakukan. Salah satu metode yang dapat

digunakan untuk menentukan jumlah klaster adalah metode Silhoutte. Nilai average silhouette width paling besar menunjukan bahwa jumlah klaster yang diperoleh merupakan jumlah klaster optimum[13].

4.

Validasi Klaster

Setelah dilakukan clustering analysis, hal yang dilakukan untuk melihat apakah metode algoritma menghasilkan pengelompokan data yang baik perlu adanya pengujian. Silhouette Coefficient digunakan untuk melihat kualitas dan kekuatan cluster, seberapa baik suatu objek ditempatkan dalam suatu cluster. Metode ini merupakan gabungan dari metode cohesion dan separation. Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut [13]:

1. Hitung rata-rata jarak dari suatu dokumen misalkan i dengan semua dokumen lain yang berada dalam satu cluster

dengan j adalah dokumen lain dalam satu cluster A dan d(i,j) adalah jarak antara dokumen i dengan j.

(4)

2. Hitung rata-rata jarak dari dokumen i tersebut dengan semua dokumen di cluster lain, dan diambil nilai terkecilnya.

dengan d(i,C) adalah jarak rata-rata dokumen i dengan semua objek pada cluster lain C dimana A ≠ C.

3. Nilai Silhouette nya adalah :

Berikut ini adalah perhitungan nilai silhouette coefficient menggunakan rumus sebagai berikut objek [13]:

dengan, = average silhouette width.

Interpretasi dari nilai silhouette coefficient ditunjukan sebagai berikut : Tabel 2.2 Interpretasi silhouette coefficient Silhoutte

Coefficient Interpretasi

0,71-1,00 Klaster yang kuat

0,51-0,70 Klaster telah layak atau sesuai

0,26-0,50 Klaster yang lemah

0,25 Tidak dapat dikatakan sebagai klaster

3. METODOLOGI PENELITIAN

Data yang digunakan dalam penelitian ini adalah data sekunder tentang informasi bibliografik paten dengan kata kunci “Biomass AND Energy” pada judul dan abstrak yang diperoleh dari

www.espacenet.com dengan menggunakan software Matheo Paten XE. Sebanyak 3358 informasi bibliografik paten data yang digunakan yaitu data tahun 2000- 2014. Langkah-langkah analisis dapat dilakukan sebagai berikut.

1. Pengambilan dokumen paten berupa abstrak pada informasi bibliografik paten.

2. Melakukan tahap Document Pre-Processing yang terdiri dari tokenizing, filtering, dan stemming sehingga didapatkan Term Document Matrix yang merupakan matriks frekuensi kemunculan setiap kata di setiap dokumen.

3. Melakukan tahap Feature Selection dengan menggunakan Term Frequency-Inverse Document

frequency, sehingga didapatkan matrix yang terlah diboboti.

4. Melakukan tahap analisis pengelompokan data menggunakan K-Median Clustering dengan bantuan software R pada package flexclust. Langkah- langkah dasar algoritma k-median didefinisikan sebagai berikut [5] :

1. Tentukan jumlah cluster yang ingin dibentuk. 2. Alokasi data kedalam cluster secara random.

3. Hitung jarak antara setiap objek ke setiap centroid menggunakan Euclidean distance sebagai berikut [14] :

dimana:

𝑑𝑖𝑘 = jarak Euclidean objek ke-i dengan objek ke-k 𝑦𝑖𝑗 = objek ke-i pada variabel ke-j

4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan pusat cluster. 5. Tentukan posisi pusat cluster baru dengan cara menghitung nilai median dari data yang ada

(5)

6. Kembali ke langkah 3 apabila masih terdapat data yang berpindah cluster.

Pada penelitian ini setiap tahapan perhitungan menggunakan alat perangkat lunak, yaitu menggunakan software R 3.1.2.

5. Validasi klaster menggunakan Silhoutte Coefficient.

4. DAFTAR PUSTAKA

[1] www.wcre.de diakses 5 September 2017

[2] https://ugm.ac.id/id/berita/ diakses 18 september pukul 21.00

[3] Quoniam, L., Baaziz, A.2014. “Patent used by NPE as an Open Information System in Web 2.0-Two mini case studie”. Journal of intelegence Studies in Business Vol4, No 2,51-60

[4] Zelkjo T., dkk. 2015. “Psalm – Patent Mining Tool For Competitive Intelligence”. Technical Gazette [5]Aggarwal, C. C., & Reddy, C. K. (2013). Data Clustering Algorithms and Applicants. CRC Press [6] Tseng, Y., Lin, C., Lin, Y., “Text mining techniques for patent analysis”, Information Processing and

Management, vol. 43, no. 5, pp. 1216-1247, 2007.

[7] Assad, A., Zhang, L., & Khan, S. U. (2014). A literature review on the state-of-the-art in patent analysis. World Patent Information, 1-11.

[8] Feldman R, Sanger. J. 2006. “Text mining handbook”. Camridge University. America

[9] Han, J., & Kamber, M. (2006). Data mining Concepts and techniques. America: Morgan kaufmann. [10]Salton, G., and McGill, M. 1983.”Introduction to Modern Information Retrieval”. University of

Michigan.

[11] Kumar, Mahesh dan Nithin R Patel. “Clustering data with measurement Error”. New Jersey: Rutcor Research Report of Rutgers University. 2005.

[12]P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization," in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, MA: MIT Press, 1997, pp. 368-374.

[13]Kaufman, L. dan J. Rousseeuw. 1990.”Finding Group in Data: An Introduction to Cluster Analysis”. New York: Wiley & Sons

Gambar

Tabel 2.1 Format dan informasi konten dokumen paten

Referensi

Dokumen terkait

Akurasi juga menunjukkan bahwa hasil pelabelan data laporan masyarakat berdasarkan cluster menggunakan metode K-Means Clustering ini ketika diklasifikasi

Pengelompokan siswa berdasarkan faktor-faktor yang mempengaruhi keberhasilan siswa dalam belajar bertujuan untuk membantu dan mempermudah pada proses pengelolaan data

Kesimpulan dari penelitian ini berdasarkan metode yang digunakan adalah ketepatan data menggunakan metodenbc diatas belum benar sepenuhnya karena hasil ketepatan data yang

Sedangkan, Centroid Linkage adalah metode klaster hierarki yang dapat digunakan pada data yang mengandung outlier, dimana outlier bisa membuat data yang diolah

Berdasarkan hasil analisis menggunakan software JASP diperoleh bahwa pada metode kmeans nilai summary effect dari forest plot sebesar 0.67 atau dengan kata lain pengaruh model peramalan

Clustering adalah salah satu metode dalam data mining yang dimana objek data yang mempunyai kemiripan atau karakteristik yang sama akan dikelompokan menjadi satu kelompok dan yang

Dapat dikatakan, data mining adalah teknik analisis data untuk mendapatkan informasi yang tersembunyi dari data yang kompleks dalam jumlah besar.. Salah satu tugas data mining

Hasil penelitian dari jurnal tersebut mendapatkan hasil yang baik, algoritma K-Medoids dapat melakukan pengelompokan data covid-19 mana saja wilayah yang terinfeksi di wilayah masing –