1 BAB I
PENDAHULUAN
1.1. Latar Belakang
Saat ini adalah era dimana perkembangan teknologi semakin pesat dan cepat. Seiring dengan perkembangan teknologi yang ada, maka ukuran data yang diolah juga akan semakin besar. Data yang berukuran besar membutuhkan analisis supaya dapat dimanfaatkan sehingga menjadi sebuah informasi yang berguna.
Teknik yang dapat digunakan untuk analisis data yang berukuran besar adalah data mining.
Data mining adalah mengeksplorasi dan menganalisis data dalam jumlah besar untuk menemukan pola dan rule yang berarti (Berry dan Linoff, 2004).
Menurut Tan, Steinbach, dan Kumar (2006), disebutkan bahwa teknik data mining dapat digunakan untuk menemukan pola menarik yang belum diketahui sebelumnya. Data mining juga dapat digunakan untuk memprediksi hasil dari observasi dimasa mendatang, seperti memprediksi keterkaitan item pembelian pada sebuah transaksi yang terjadi, misalnya keterkaitan antara makanan ringan dengan minuman botolan atau kaleng. Selain itu data mining memiliki beberapa fungsionalitas yang dapat digunakan untuk analisis data yang berukuran besar, yaitu asosiasi, klasisfikasi, klastering dan analisis outlier. Namun, dari fungsionalitas yang ada, analisis outlier merupakan fungsionalitas yang sering diabaikan. Padahal analisis outlier sangat penting untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu kredit, deteksi adanya penyusupan pada jaringan komunikasi, penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan sebagainya.
Menurut Tan, Steincbach, dan Kumar (2006) disebutkan bahwa outlier sering juga disebut sebagai anomali, yaitu suatu objek yang berbeda dengan mayoritas objek yang lainnya pada suatu kumpulan objek tertentu. Sedangkan deteksi outlier bertujuan menemukan objek tersebut. Outlier ini pada umumnya disebabkan karena data berasal dari kelas yang berbeda, variasi alami, dan juga
kesalahan ketika pengukuran atau pengumpulan data. Dengan melakukan deteksi outlier, akan diketahui data-data yang menyimpang atau berbeda dengan mayoritas data yang ada.
Saat ini telah banyak metode yang telah dikembangkan untuk melakukan permasalahan outlier. Akan tetapi kebanyakan metode yang ada hanya fokus pada data yang seragam, yaitu hanya terdiri dari salah satu tipe atribut saja, numerik atau kategorik. Padahal pada data nyata kebanyakan tidak hanya mempunyai atribut numerik atau atribut kategorik, tetapi juga memiliki atribut campuran (numerik dan kategorik) (Maryono, 2010). Contoh data nyata dengan atribut campuran yaitu data transaksi penjualan di Apotek. Berdasarkan Permenkes RI No. 1332/Menkes/SK/X/2002, Apotek adalah suatu tempat tertentu, tempat dilakukan pekerjaan kefarmasian dan penyaluran sediaan farmasi, perbekalan kesehatan lainnya kepada masyarakat. Apotek melayani penjualan obat, baik obat yang dijual secara bebas atau pun obat yang dijual berdasarkan resep dokter.
Deteksi outllier pada data transaksi penjualan di apotek sangat penting dilakukan untuk mendapatkan informasi pada data tersebut yang dapat digunakan untuk analisis lebih jauh.
Ortiz (2007) melakukan pengujian beberapa metode untuk mengetahui unjuk kerja dan kecepatan dari deteksi outlier pada data kategorik. Metode yang digunakan dalam pengujian tersebut yaitu Greedy, AVF (Attribute Value Frequency), FPOF (Find Frequent Pattern Outlier Factor) dan FDOD (Fast Distributed Outlier Detection). Dari hasil pengujian tersebut diperoleh bahwa AVF merupakan metode yang paling baik dari segi akurasi dan kecepatan dibandingkan metode Greedy, FPOF dan FDOD. Menurut Mandal, Satapathy, Sanyal, Sarkar, dan Mukhopadhyay (2015), AVF adalah metode yang sangat efisien untuk deteksi outlier pada data kategorik. Algoritma AVF melakukan perhitungan frekuensi di setiap atribut pada setiap record dan melakukan perhitungan skor frekuensi menggunakan rumus skor AVF. Sedangkan Seo (2006) melakukan deteksi outlier pada data univariate yang berjenis numerik menggunakan metode Z-Score. Z-Score melakukan perhitungan skor outlier
dengan mencari nilai mean dan standar deviasi dari data yang berjenis numerik dan selanjutnya diproses menggunakan rumus Z-Score.
Beberapa uraian di atas telah melatarbelakangi penulis untuk melakukan penelitian deteksi outlier pada data transaksi penjualan di Apotek yang berjenis campuran (numerik dan kategorik). Algoritma yang digunakan adalah AVF (Attribute Value Frequency) dan Z-Score. Algoritma AVF sebagai algoritma deteksi outlier pada data jenis kategorik. Sedangkan algoritma Z-Score sebagai algoritma deteksi outlier pada data jenis numerik.
1.2. Rumusan Masalah
Berdasarkan latar belakang permasalahan, rumusan masalah yang dikaji adalah bagaimana mendeteksi outlier yang ada pada kumpulan data transaksi penjualan di Apotek yang berjenis campuran melalui kombinasi algoritma AVF (Attribute Value Frequency) dan algoritma Z-Score.
1.3. Batasan Masalah
Dari permasalahan yang telah dirumuskan sebelumnya di atas, maka batasan-batasan dalam penelitian ini adalah:
1. Algoritma yang digunakan dalam mendeteksi outlier pada data berjenis kategorik adalah algoritma AVF (Attribute Value Frequency).
2. Algoritma yang digunakan dalam mendeteksi outlier pada data berjenis numerik adalah algoritma Z-Score.
3. Pembahasan hasil deteksi outlier dan validasi oleh pengguna data merupakan 10 data teratas dari ranking outlier yang sudah didapat.
4. Data yang akan diproses adalah data transaksi penjualan dari tanggal 1 – 16 April 2016 yang diperoleh dari Apotek UGM. Data terdiri dari 3372 record.
1.4. Tujuan Penelitian
Berdasarkan permasalahan yang telah dikemukakan sebelumnya, maka tujuan yang ingin dicapai dalam penelitian ini adalah mengimplementasikan
kombinasi algoritma AVF dan algoritma Z-Score dalam mendeteksi outlier dari data transaksi penjualan di Apotek UGM.
1.5. Manfaat Penelitian
Diharapkan dengan penelitian ini, tercapai beberapa manfaat sebagai berikut:
1. Secara ilmiah, penelitian ini bermanfaat dalam menyajikan informasi mengenai deteksi outlier pada data campuran (kategorik dan numerik), dimana para peneliti dapat memanfaatkannya sebagai pencarian referensi untuk melanjutkan penelitiannya.
2. Secara teknis, penelitian ini nantinya diharapkan dapat di implemetasikan pada sistem multi node dengan menggunakan data yang berukuran lebih besar.
3. Membantu pihak Apotek UGM dalam menemukan transaksi penjualan yang aneh atau outlier.
1.6. Metodologi Penelitian
Supaya penelitian yang dilakukan dapat berjalan secara terstruktur, maka perlu dibuat metodologi penelitian. Adapun metodologi penelitian ini adalah sebagai berikut:
1. Studi Literatur
Pengumpulan informasi dan teori-teori mengenai data mining, deteksi outlier pada data campuran, deteksi outlier pada data kategorik, deteksi outlier pada data numerik, algoritma AVF, dan algoritma Z-Score yang berasal dari buku, jurnal, karya tulis ilmiah, dan artikel-artikel yang diperoleh dari internet.
Serta mengumpulkan data-data yang diperlukan, termasuk data transaksi penjualan dari Apotek UGM.
2. Analisis
Berdasarkan pengumpulan data dan informasi pendukung, maka untuk memahami sistem yang akan dibangun perlu dilakukan analisis terhadap algoritma yang digunakan, yaitu algoritma AVF dan algoritma Z-Score. Selain
itu, pada tahapan ini juga dilakukan analisis terhadap data yang digunakan untuk penelitian, yaitu data transaksi penjualan di Apotek UGM.
3. Perancangan
Tahapan ini merupakan kelanjutan dari proses analisis. Pada tahapan ini dilakukan perancangan langkah-langkah yang dibutuhkan berkaitan dengan pengolahan data pada data transaksi penjualan di Apotek UGM dan juga perancangan percobaan untuk melakukan pengujian deteksi outlier melalui kombinasi algoritma AVF dan algoritma Z-Score.
4. Implementasi
Tahapan ini merupakan implementasi algoritma berdasarkan hasil analisis dan perancangan yang sudah dibuat sebelumnya. Pada tahapan ini algoritma di implementasikan ke dalam bahasa pemrograman yang sudah dipilih, yaitu bahasa pemrograman R.
5. Pengujian
Pada tahap ini akan dilakukan pengujian terhadap program yang sudah dibuat. Pengujian dilakukan dengan memasukkan data transaksi penjualan yang diperoleh dari Apotek UGM untuk kemudian dilakukan deteksi outlier melalui kombinasi algoritma AVF dan algoritma Z-Score. Setelah itu dilakukan kombinasi perankingan diantara dua algoritma sehingga didapatkan ranking outlier. Kemudian dilakukan analisis yang lebih detail dari hasil deteksi outlier yang sudah dilakukan.
1.7. Sistematika Penulisan
Untuk memberikan gambaran secara menyeluruh tentang permasalahan yang akan dibahas pada penelitian ini, maka sistematika penulisan akan dibagi menjadi tujuh bab sebagai berikut:
1. BAB I PENDAHULUAN
Pada bab ini disampaikan penjelasan mengenai latar belakang permasalahan, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode penelitian dan sistematika penulisan.
2. BAB II TINJAUAN PUSTAKA
Pada bab ini disampaikan penjelasan mengenai hasil penelitian-penelitian sejenis yang dilakukan oleh para peneliti sebelumnya, termasuk metode penelitian yang digunakan.
3. BAB III LANDASAN TEORI
Pada bab ini disampaikan penjelasan mengenai uraian teori-teori dasar yang berkaitan dengan penelitian yang dilakukan dan akan menjadi dasar dari pemecahan permasalahan.
4. BAB IV ANALISIS DAN PERANCANGAN PERCOBAAN
Pada bab ini disampaikan penjelasan mengenai uraian analisis dataset, algoritma dan perancangan percobaan untuk pengujian pada bab selanjutnya.
5. BAB V IMPLEMENTASI
Pada bab ini disampaikan penjelasan implementasi dari algoritma AVF dalam mendeteksi outlier pada data kategorik dan algoritam Z-Score dalam mendeteksi outlier pada data numerik berdasarkan rancangan percobaan yang telah dilakukan sebelumnya.
6. BAB VI HASIL DAN PEMBAHASAN
Pada bab ini disampaikan hasil implementasi dari algoritma AVF dan algoritma Z-Score dalam melakukan deteksi outlier pada data berjenis campuran dan disertai pula pembahasan dari hasil pengujian.
7. BAB VII KESIMPULAN DAN SARAN
Pada bab ini disampaikan penutup dari laporan penelitian yang sudah dibuat, kesimpulan dari uraian pada bab-bab sebelumnya serta saran untuk pengembangan penelitian ini kedepannya.