Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan

(1)

1 BAB I PENDAHULUAN

Sebagai negara berkembang, perekonomian Indonesia didorong untuk tumbuh dengan pesat. Salah satu indikator pertumbuhan perekonomian yang baik adalah tingginya daya beli masyarakat. Tingginya daya beli masyarakat pada produk kendaraan bermotor menimbulkan dampak semakin tingginya angka kemacetan di Indonesia. Pertumbuhan jumlah kendaraan di Indonesia sebesar 9,56% setiap tahun tidak sebanding dengan pertumbuhan jalan yang hanya sebesar 1,46% setiap tahunnya. Selain pembangunan infrastruktur, diperlukan juga sistem pemantauan lalu lintas agar pihak berwenang dapat segera melakukan rekayasa lalu lintas ketika terjadi kemacetan.

Salah satu pendekatan yang mulai digunakan dalam pemantauan keadaan lalu lintas adalah dengan menggunakan data dari media sosial yang banyak digunakan oleh masyarakat. Kumpulan data latih yang digunakan dalam pemantauan tersebut sering kali mengandung data yang kurang penting yang membebani sistem ketika pembuatan model klasifikasi. Penelitian sebelumnya mengenai reduksi kumpulan data latih oleh Yuan dkk. [1] dan Yang dkk. [2]

mempunyai kompleksitas waktu yang tinggi dan dikhususkan untuk algoritme klasifikasi kNN, sementara penelitian oleh Yu dkk. [3] tidak sesuai dengan data teks yang mempunyai fitur yang sangat banyak. Penelitian-penelitian sebelumnya tersebut belum dapat melakukan reduksi kumpulan data latih yang sesuai dengan klasifikasi teks yang menggunakan algoritme SVM.

Penelitian ini bertujuan untuk mengembangkan metode reduksi kumpulan data latih klasifikasi teks yang sesuai untuk Support Vector Machine (SVM) untuk mengatasi data yang kurang penting sehingga dapat mengurangi sumber daya komputasi yang dibutuhkan ketika pembuatan model klasifikasi.

Pada penelitian ini, kumpulan data latih akan direduksi dengan

menggunakan perhitungan koefisien kemiripan teks Cosine, Dice, Jaccard, dan

Overlap dengan batas ambang yang divariasikan dari 0,1 hingga 1 dengan langkah

(2)

sebesar 0,1. Data yang dianggap mirip dengan data-data sebelumnya akan dihilangkan sehingga menghasilkan kumpulan data baru yang lebih kecil.

Reduksi kumpulan data dengan perhitungan kemiripan antar teks yang dikembangkan pada penelitian ini dapat bekerja dengan baik. Sistem dapat mereduksi kumpulan data dengan cukup signifikan dan akurasi yang lebih baik daripada sebelum direduksi. Untuk mencapai hasil akurasi yang lebih baik atau sama dengan sebelum direduksi, reduksi data paling signifikan ditunjukkan oleh perhitungan Dice dengan batas ambang 0,4. Dengan konfigurasi tersebut, data berkurang sebanyak 78,06% dan akurasi meningkat 0,07% menjadi 98,88%. Jika diamati dari peningkatan akurasi yang terbaik, sistem yang dikembangkan pada penelitian ini mencatatkan peningkatan akurasi terbesar sebesar 0,08% menjadi 98,89%. Konfigurasi yang menghasilkan peningkatan akurasi tersebut antara lain Cosine dengan batas ambang 0,7, Jaccard dengan batas ambang 0,5, serta Jaccard dengan batas ambang 0,6.

Sistem yang dikembangkan dalam penelitian ini dapat mengungguli metode pemilihan sebagian data secara acak yang tidak dapat mencapai angka akurasi yang sama dengan atau lebih dari akurasi sebelum direduksi. Dengan berkurangnya jumlah data yang dibutuhkan untuk melatih model klasifikasi, sistem pemantauan kondisi lalu lintas menggunakan data media sosial akan menjadi lebih murah dan lebih mudah diimplementasikan dengan sumber daya komputasi yang terbatas.

1.1 Latar Belakang

Sebagai negara berkembang, perekonomian Indonesia didorong untuk

tumbuh dengan pesat. Salah satu indikator pertumbuhan perekonomian yang baik

adalah tingginya daya beli masyarakat. Walaupun tingginya daya beli masyarakat

menunjukkan pertumbuhan ekonomi, hal tersebut juga menimbulkan dampak

negatif. Tingginya daya beli masyarakat pada produk kendaraan bermotor

menimbulkan dampak semakin tingginya angka kemacetan di Indonesia. Hal ini

dikarenakan pertumbuhan sarana infrastruktur seperti jalan dan jembatan tidak

secepat pertumbuhan jumlah kendaraan.

(3)

Tabel 1.1 Pertumbuhan Panjang Jalan dan Jumlah Kendaraan Tahun Panjang

Jalan (km)

Jumlah Kendaraan

Pertumbuhan Jalan

Pertumbuhan Kendaraan

2010 487.314 76.907.127 1,91% 11,30%

2011 496.607 85.601.351 1,08% 10,25%

2012 501.969 94.373.324 1,20% 10,33%

2013 508.000 104.118.969 1,90% 9,69%

2014 517.663 114.209.260 1,91% 11,30%

2015 523.974 121.394.185 1,22% 6,29%

Data pada Tabel 1.1 didapat dari Statistik Transportasi yang dirilis oleh Badan Pusat Statistik nasional dari tahun 2010 hingga tahun 2015 [4]–[9]. Data tersebut menunjukkan perbedaan yang sangat signifikan antara pertumbuhan panjang jalan dan pertumbuhan jumlah kendaraan. Jika dihitung dengan persamaan Compound Growth Annual Rate (CGAR), didapat pertumbuhan rata-rata panjang jalan sebesar 1,46% dan pertumbuhan rata-rata jumlah kendaraan sebesar 9,56% dari tahun 2010 hingga 2015. Tidak seimbangnya pertumbuhan tersebut mengakibatkan peningkatan kemacetan di berbagai ruas jalan di Indonesia. Hal ini didukung pula oleh semakin tingginya mobilitas masyarakat modern, sehingga semakin banyak kendaraan yang berada di jalan.

Hal ini mendorong penggunaan berbagai cara pemantauan kondisi lalu lintas di berbagai ruas jalan. Dengan adanya pemantauan kondisi lalu lintas, permasalahan lalu lintas seperti kemacetan dapat segera ditangani dengan melakukan rekayasa lalu lintas oleh aparat terkait.

Salah satu pendekatan yang mulai digunakan dalam pemantauan keadaan lalu

lintas adalah dengan menggunakan data dari media sosial yang banyak digunakan

oleh masyarakat. Salah satu contoh jejaring sosial yang banyak digunakan sebagai

media pelaporan suatu kejadian adalah Twitter. Twitter saat ini memiliki 320 juta

pengguna aktif bulanan, dan ada 500 juta tweet (pesan) yang dibuat oleh pengguna

setiap harinya. Sebuah pendekatan yang dikembangkan oleh Sakaki dkk. [10]

(4)

menunjukkan bahwa Twitter mendeteksi suatu kejadian lebih cepat dibandingkan media tradisional.

Saat ini telah ada beberapa penelitian terkait penggunaan media sosial sebagai pemantauan kondisi dan kejadian lalu lintas. Sebagian besar dari penelitian tersebut menggunakan Twitter (www.twitter.com) sebagai sumber data, sebagian yang lain menggunakan Sina Weibo (www.weibo.com, sebuah jejaring sosial Tiongkok yang hampir sama dengan Twitter). Penelitian yang menggunakan studi kasus di luar negeri, antara lain D’Andrea dkk. [11] yang membandingkan performa tujuh algoritme klasifikasi untuk mengklasifikasikan tweet berbahasa Italia, Sakaki dkk.

[12] yang mengusulkan empat tahap pendeteksian lokasi pada Twitter berbahasa Jepang, Gu dkk. [13] mengklasifikasikan tweet mengenai lalu lintas di kota Pittsburgh dan Philadelphia (Amerika Serikat) dengan menggunakan metode Semi Naive Bayes, dan Gutiérrez dkk. [14] melakukan klasifikasi tweet di Inggris menggunakan perangkat lunak RapidMiner.

Terdapat pula beberapa penelitian di Indonesia terkait penggunaan jejaring sosial sebagai pemantauan kondisi dan kejadian lalu lintas. Penelitian oleh Wibisono dkk. [15] di Jakarta menggunakan konsep jaringan syaraf Learning Vector Quantization (LVQ) untuk mengklasifikasikan tweet menjadi tiga kelas:

arus lalu lintas rendah, arus lalu lintas sedang, dan arus lalu lintas tinggi. Sistem

yang dikembangkan oleh Wibisono dkk. [15] menggunakan tweet dari akun resmi

aparat lalu lintas sebagai sumber data. Penelitian lain di Bandung oleh Rodiyansyah

dan Winarko [16] melakukan klasifikasi tiga kelas (Macet, Lancar, Unknown) pada

tweet lalu lintas dengan menggunakan algoritme Naive Bayes dan Support Vector

Machine (SVM) dari perangkat lunak RapidMiner. Penelitian di Yogyakarta oleh

Kurniawan dkk. [17] membandingkan beberapa algoritme machine learning Naive

Bayes, SVM, dan Decision Tree pada klasifikasi teks pelaporan keadaan lalu lintas

melalui Twitter. Penelitian oleh Kurniawan dkk. [17] tersebut menyimpulkan

bahwa algoritme SVM menghasilkan akurasi yang paling baik dibandingkan Naive

Bayes dan Decision Tree dalam mengklasifikasikan tweet ke kategori traffic dan

non_traffic. SVM dapat memberikan hasil yang baik untuk klasifikasi teks salah

satunya dikarenakan teks mempunyai banyak fitur dan fitur-fitur tersebut penting

(5)

dalam klasifikasi, sementara SVM mempunyai proteksi overfitting sehingga dapat dengan baik menangani fitur yang sangat banyak (lebih dari 10.000 fitur) [18].

Selain itu, vektor dokumen teks yang merupakan vektor sparse (setiap dokumen hanya memiliki beberapa nilai yang bukan nol) sesuai dengan SVM [18]. SVM digunakan dengan kernel linier karena untuk fitur yang sangat banyak penggunaan kernel nonlinier tidak meningkatkan performa [19] dibuktikan juga pada penelitian sebelumnya oleh Kurniawan dkk [17] penggunaan kernel nonlinier meningkatkan beban komputasi tetapi mempunyai akurasi lebih rendah.

Pada sistem yang dikembangkan oleh Kurniawan dkk. [17], klasifikasi menggunakan metode SVM dan kumpulan data latih dengan jumlah data 110.449 tweet. Pada kumpulan data latih tersebut terdapat banyak sekali data yang kurang penting dikarenakan banyaknya retweet yang hanya merupakan pengulangan konten tweet yang sudah pernah dibuat sebelumnya. Selain itu, sangat banyak tweet yang kontennya mirip antara satu dengan yang lainnya. Konten-konten tweet yang mirip tersebut seharusnya dapat direduksi dengan hanya diwakili oleh satu atau beberapa tweet yang dapat mewakili beberapa konten sekaligus. Data-data kurang penting tersebut membuat sumber daya komputasi yang digunakan pada saat melatih model klasifikasi menjadi besar. Sumber daya komputasi yang dimaksud adalah, waktu prosesor, penggunaan memori (RAM), dan ruang penyimpanan (storage).

Sebelumnya, Yuan dkk. [1] mengembangkan reduksi kumpulan data latih

pada klasifikasi teks akan tetapi mempunyai kompleksitas waktu yang cukup tinggi

Θ(n

²

). Penelitian oleh Yu dkk. [3] mereduksi kumpulan data yang besar dengan

metode hierarchical clustering. Besarnya memori yang digunakan oleh

hierarchical clustering sebanding dengan banyaknya fitur data, sehingga tidak

sesuai dengan kumpulan data teks karena kumpulan data teks mempunyai fitur yang

sangat banyak. Pada penelitian tersebut, data yang digunakan hanya memiliki 41

fitur sementara data teks dapat memiliki hingga puluhan ribu fitur. Selain itu,

terdapat juga penelitian oleh Yang dkk. [2] yang mengembangkan metode

pemilihan sampel data latih sebelum dilabeli oleh manusia berdasarkan

representativeness sampel pada algoritme kNN.

(6)

Penelitian-penelitian sebelumnya tersebut belum dapat melakukan reduksi kumpulan data latih yang sesuai dengan klasifikasi teks yang menggunakan algoritme SVM. Oleh karena itu, penelitian ini mengusulkan metode reduksi kumpulan data latih klasifikasi teks yang sesuai untuk SVM dengan tetap mempertahankan performa. Penelitian ini akan menyempurnakan sistem yang telah dikembangkan sebelumnya [17]. Berbagai metode perhitungan kemiripan akan dibandingkan dan divalidasi dengan mengukur akurasi, presisi, recall, dan F-score.

Dengan berkurangnya kumpulan data latih dan berkurangnya kebutuhan sumber daya komputasi, sistem pemantauan lalu lintas dengan menggunakan data media sosial akan menjadi lebih murah dan dapat berjalan di sistem dengan spesifikasi rendah.

1.2 Perumusan Masalah

Kumpulan data latih klasifikasi tweet sering kali berisi banyak data berlebih yang kurang penting sehingga membebani proses latih model klasifikasi. Berbagai penelitian sebelumnya belum merumuskan metode reduksi kumpulan data latih klasifikasi teks yang sesuai untuk SVM dengan tetap mempertahankan performa.

1.3 Keaslian Penelitian

Penelitian ini merupakan kelanjutan dari penelitian “Analisis Data Jejaring

Sosial Twitter untuk Pemetaan Kondisi Kemacetan Jalan di Provinsi DIY dengan

Metode Text Mining” [17] dan “ Real-time Traffic Classification with Twitter Data

Mining” [20]. Penelitian ini berupaya mereduksi kumpulan data latih pada

penelitian sebelumnya tersebut untuk mengurangi penggunaan sumber daya

komputasi dengan mempertahankan atau bahkan meningkatkan performa akurasi

dari model klasifikasi dalam mengklasifikasikan tweet ke kategori traffic dan

non_traffic.

(7)

Tabel 1.2 Penelitian Terkait

No. Peneliti Judul Penelitian Tujuan Hasil dan Kesimpulan Terkait

1 Yuan dkk.

(2007) [1]

A New Density-Based Method for Reducing the Amount of Training Data in k-NN Text Classification

Mengurangi jumlah data latih untuk mengurangi beban komputasi model klasifikasi kNN serta meningkatkan presisi klasifikasi.

Melakukan reduksi data dengan algoritme Θ(n

²

) dan berhasil meningkatkan akurasi dari 71,44%

menjadi 72,68% dengan reduksi data sebesar 20,67%.

2 Yu dkk. (2003) [3]

Classifying Large Data Sets Using SVMs with

Hierarchical Clusters

Menangani jumlah data yang besar dalam klasifikasi SVM dengan menggunakan metode klaster hierarkis.

Dengan menggunakan hasil clustering sebagai data latih, data berkurang sebesar 99,5% dengan akurasi sedikit menurun dari 99,94% menjadi 99,92%.

3 Yang dkk.

(2017) [2]

A New Samples Selecting Method based on K Nearest Neighbors

Mengurangi kumpulan data yang harus diberi label secara manual oleh manusia. Mengusulkan metode Top K Representative untuk mengambil sampel data dari kumpulan data.

Menghitung representativeness

sampel pada algoritme kNN untuk

memilih sampel dan mendapatkan

hasil akurasi yang lebih baik

daripada metode pemilihan acak.

(8)

Beberapa penelitian mengenai reduksi kumpulan data latih dapat dilihat pada Tabel 1.2. Algoritme pada penelitian Yuan dkk. [1] mereduksi kumpulan data latih klasifikasi teks berbahasa Tiongkok. Algoritme yang diusulkan pada penelitian tersebut diawali dengan penghitungan kemiripan teks pada setiap kombinasi dua teks pada kumpulan data latih. Proses pada awal algoritme tersebut menunjukkan kompleksitas waktu Θ(n

²

). Setelah itu, algoritme akan melakukan perulangan untuk melakukan reduksi data hingga densitas dari setiap kategori kurang dari densitas dari keseluruhan kumpulan data. Hal ini juga menambah kompleksitas dari algoritme tersebut. Algoritme tersebut membutuhkan waktu dan sumber daya yang sangat banyak, tidak sesuai dengan kumpulan data yang jumlahnya besar.

Algoritme pada penelitian Yu dkk. [3] merupakan state of the art pada penelitian mengenai penanganan kumpulan data yang besar. Ratusan penelitian yang lain merujuk pada penelitian tersebut. Penelitian tersebut mengatasi kumpulan data yang besar dengan melakukan hierarchical clustering pada kumpulan data kemudian centroid dari klaster yang terbentuk digunakan untuk melatih model klasifikasi. Algoritme ini sesuai digunakan untuk kumpulan data yang memiliki fitur yang terbatas, tidak seperti data teks yang mempunyai fitur yang sangat banyak hingga puluhan ribu fitur. Apabila digunakan pada kumpulan data teks, algoritme tersebut akan membutuhkan memori yang sangat besar, karena besarnya memori yang digunakan bergantung pada banyaknya fitur pada data. Selain itu, hasil reduksi pada penelitian tersebut berupa vektor, tidak berupa kumpulan teks seperti kumpulan data awal.

Sementara itu Yang dkk. [2] menggunakan algoritme kNN untuk melakukan klasifikasi teks kemudian merumuskan pengurangan sampel kNN berdasarkan representativeness sampel pada kNN. Tujuan utama dari penelitian tersebut adalah untuk mengurangi sampel data latih yang harus diberi label manual oleh manusia. Pengurangan sampel tersebut diberi nama Top-K Representative.

Metode Top-K Representative ini ditujukan spesifik untuk algoritme klasifikasi

kNN.

(9)

Metode reduksi kumpulan data pada penelitian ini melakukan reduksi dengan algoritme dengan kompleksitas atas O(n

²

) dan kompleksitas bawah Ω(n), yang lebih rendah daripada penelitian Yuan dkk. [1] yang memiliki kompleksitas Θ(n

²

). Reduksi data yang diusulkan pada penelitian ini dapat dilakukan dengan memori dan penyimpanan terbatas serta menghasilkan kumpulan data baru yang berisi kumpulan teks. Selain itu, metode reduksi data yang dikembangkan pada penelitian ini terlepas dari metode klasifikasi yang digunakan.

1.4 Tujuan Penelitian

Penelitian ini bertujuan untuk mengembangkan metode reduksi kumpulan data latih klasifikasi teks yang sesuai untuk SVM untuk mengatasi data yang kurang penting sehingga dapat mengurangi sumber daya komputasi yang dibutuhkan ketika pembuatan model klasifikasi. Sistem akan divalidasi dengan mengukur akurasi, presisi, recall, dan F-score.

1.5 Manfaat Penelitian

1. Penelitian ini menyempurnakan sistem pemantauan kondisi lalu lintas yang dikembangkan pada penelitian sebelumnya oleh Kurniawan dkk. [17]

sehingga data yang kurang penting pada kumpulan data latih menjadi berkurang. Dengan berkurangnya jumlah data latih, maka sumber daya komputasi seperti CPU dan RAM yang dibutuhkan untuk melakukan pembuatan model klasifikasi menjadi lebih rendah. Sistem pemantauan kondisi lalu lintas menggunakan data media sosial akan menjadi lebih murah dan dapat lebih mudah diimplementasikan dengan sumber daya komputasi minimum.

2. Penelitian ini mengidentifikasi metode perhitungan kemiripan yang paling sesuai digunakan untuk melakukan reduksi data latih pada klasifikasi teks.

Penelitian ini dapat menjadi rujukan untuk penelitian selanjutnya

mengenai reduksi data latih klasifikasi teks dengan perhitungan koefisien

kemiripan teks yang merupakan hal yang baru.

(10)

1.6 Batasan Penelitian

1. Penelitian ini menggunakan kumpulan data latih yang digunakan pada penelitian sebelumnya oleh Kurniawan dkk. [17] [20].

2. Penelitian ini tidak mempertimbangkan waktu yang dibutuhkan untuk melakukan reduksi kumpulan data karena reduksi kumpulan data seharusnya hanya berjalan sekali untuk kumpulan data yang sama.

3. Kumpulan data yang direduksi pada penelitian ini merupakan kumpulan

data dari penelitian sebelumnya oleh Kurniawan dkk. [17] yang

dikumpulkan dari tanggal 26 Februari 2016 hingga 4 Maret 2016.