Tugas data mining

(1)

TUGAS II

TEKNOLOGI SISTEM BASIS DATA

Semester Genap 2015/2016

Kelas 2015FA



EENNNN! ! II""NNA A EE##A A SSAA""II 11550066$$112211$$00 "

"AANNGGGGA A KK%%AA""IISSMMA A &&UUTT""AA 11550066$$1122''((55 T

TAANSNSA A T"T"ISISNA NA AASTSTONONO &UO &UT"T"II 15150606$1$12)2)(6(6

MAGISTE" TEKNOLOGI INFO"MASI MAGISTE" TEKNOLOGI INFO"MASI

FAKULTAS ILMU KOM&UTE" FAKULTAS ILMU KOM&UTE"

UNI#E"SITAS INDONESIA UNI#E"SITAS INDONESIA

2016 2016

(2)

Pu

Puji ji syusyukur kur kehkehadiadirat rat TuTuhan Yahan Yang ng MahMaha a Esa Esa atas atas segsegala ala rahmrahmat-Nat-Nya ya dandan karunia-Nya sehingga kami dapat menyelesaikan Tugas Teknologi Sistem Basis Data karunia-Nya sehingga kami dapat menyelesaikan Tugas Teknologi Sistem Basis Data mengenai Data Mining. Tidak lupa kami juga mengucapkan anyak terima kasih mengenai Data Mining. Tidak lupa kami juga mengucapkan anyak terima kasih kepada Dosen kami! D". #chmad Ni$ar %idayanto! S.&om.! M.&om! yang telah kepada Dosen kami! D". #chmad Ni$ar %idayanto! S.&om.! M.&om! yang telah memiming dan menjelaskan kami mengenai materi Data Mining.

memiming dan menjelaskan kami mengenai materi Data Mining.

Terlepas dari semua itu! kami menyadari sepenuhnya ah'a masih terdapat Terlepas dari semua itu! kami menyadari sepenuhnya ah'a masih terdapat eerapa

eerapa kekurangan kekurangan dari dari segi segi penulisan! penulisan! tata tata ahasa! ahasa! maupun maupun kekurangan kekurangan dalamdalam pendalaman

pendalaman materi materi mengenai mengenai data data mining. mining. (leh (leh karena karena itu! itu! kami kami menerima menerima segalasegala saran dan kritik dari pemaca maupun dari pak dosen! agar kami dapat memperaiki saran dan kritik dari pemaca maupun dari pak dosen! agar kami dapat memperaiki tugas kami.

tugas kami. #k

#khihir r kakata ta kakami mi eerhrhararap ap sesemomoga ga tutugagas s kakami mi memengngenenai ai DaData ta MiMininingng men

mengguggunaknakan an aplaplikaikasi si ))eeka ka ini ini dapdapat at memmemererikan ikan manman*aat *aat dan dan solsolusi usi kepkepadaada permasalahan mengenai Data Mining.

permasalahan mengenai Data Mining.

+akarta!

+akarta! +uni +uni ,/,/

Penulis Penulis

ABST"AK

Teknologi yang semakin erkemang di segala aspek telah menyeakan peruahan Teknologi yang semakin erkemang di segala aspek telah menyeakan peruahan terutama dalam idang perdagangan. Perdagangan yang semula ialah transaksi terutama dalam idang perdagangan. Perdagangan yang semula ialah transaksi

(3)

tukar-menukar arang! lalu menggunakan mata uang seagai nilai arang yang dijual! dan untuk saat ini telah erkemang perdangan online di dunia internet atau yang iasa diseut dengan e-commerce. Dalam e-commerce! penjual dan pemeli tidak memerlukan tatap muka! dan transaksi pemayaran dilakukan dengan menggunakan metode transfer atau metode pemayaran lainnya.

Selain e*ekti0itas 'aktu dan jarak! teknologi e-commerce memiliki kelemahan yaitu ketidaksesuaian arang yang diinginkan dengan yang dieli oleh konsumen. %al terseut dapat mempengaruhi tingkat kepuasan konsumen dalam memilih metode pemelian online! yang dapat dilihat dari proailitas arang yang dikemalikan

dengan arang yang tidak dikemalikan oleh konsumen. %al ini dapat diprediksi dan dianalisis menggunakan data mining dengan melihat pada data order e-commerce.

Data order ialah sekumpulan data yang didalamnya masih terdapat kemungkinan nilai yang tidak terinput 1 missing value2. Nilai ini dapat mengurangi tingkat kualitas data dan akan mempengaruhi hasil akhir analisis terhadap data yang masih memiliki missing value. 3ntuk menndapatkan hasil yang leih akurat dan e*isiensi 'aktu komputasi! dapat dilakukan proses preprocessing yaitu proses trans*ormasi data ke suatu *ormat yang prosesnya leih mudah dan e*ekti* unutk keutuhan pemakai.

#nalisis dilakukan dengan memandingkan metode klasi*ikasi dengan menggunakan tools )E&# 4.5 diantaranya algoritma Bayesian Net'ork! Na60e Bayes! #DTree! dan 7ero". %asil pengujian mendapatkan akurasi tertinggi terhadap data train seesar /5.8/9 dengan menggunakan model klasi*ikasi Bayesian Net'ork. %asil prediksi yang memiliki nilai tertinggi seesar ::.589 dilakukan dengan metode Bayesian Net'ork.

&ata kunci; data mining, missing value, Bayesian Network, Naïve Bayes, AD Tree, ZeroR, decision tale

(4)

DAFTA" ISI

KATA &ENGANTA"

...2

ABST"AK

...3

DAFTA" ISI

...4

BAB I &ENDA%ULUAN

...5

1*1* Latar Bela+an,...5 1*2* T-.-an...6 1*'* "-an, Ln,+-p...6

BAB II TINAUAN &USTAKA

...7

2*1* Data Mnn,...7

2*1* Data &repressn,...9

,... "epresentasi dari Data Mentah...9

,..,. &arakteristik dari Data Mentah...9

,..4. Trans*ormasi dari Data...10

,..<. Penanganan dari Data yang %ilang...12

,..=. #nalisa (utlier ... 13

BAB III ANALISIS KEBUTU%AN DAN METODE &ENELITIAN

...15

'*1* Analss Ke-t-3an Sstem...15

'*2* Keran,+a &eneltan...15

'*'* Dataset...16

'*)* &repressn,...16

'*5* 4a+t- an Tempat &eneltan...17

BAB I# ANALISIS %ASIL &ENELITIAN

...18

)*1* &eneltan...18

<... #nalisis Data...18

<..,. Data Preprocessing...19

<..,.. "eplace Missing >alue...20

<..,.,. Mendeteksi (utlier ...20

<..,.4. #ttriute Selection...21

<..,.<. Discreti$e...22

<..4. &lasi*ikasi Data Training... 23

<..<. &lasi*ikasi Data Testing...25

)*2* Analss %asl &en,-.an...27

BAB I# KESIM&ULAN DAN SA"AN

...28

5*1* Kesmp-lan...28

5*2* Saran...28

(5)

1* BAB I

2* &ENDA%ULUAN

1*1* Latar Bela+an,

Transaksi secara online !e-commerce" merupakan salah satu cara metode erelanja dan erdagang secara online atau direct selling yang meman*aatkan *asilitas internet. Sistem pemayaran pada transaksi e-commerce menggunakan metode trans*er secara digital! seperti account paypal! kartu kredit! transfer e-anking ! dll. Metode e-commerce telah anyak diimplementasikan dan digunakan oleh perusahaan yang ergerak di idang arang dan jasa. Tujuan utama perusahaan dari metode e-commerce ialah untuk memperluas pangsa pasar 1market e#posure2 dan meningkatkan pro*it perusahaan. Bagi konsumen! teknologi e-commerce juga memerikan keuntungan yaitu transaksi pemelian dapat dilakukan kapan saja! dan dapat memeli arang dari mana saja karena arang akan dikirim langsung menggunakan ekspedisi.

Selain man*aat yang dierikan dari teknologi e-commerce! terdapat juga eerapa masalah yang dihadapi dari penggunaan metode terseut! salah satunya adalah ketidaksesuian arang yang ditampilkan?dijual dengan arang yang diharapkan oleh konsumen. %al ini erakiat menurunnya kepuasan konsumen serta meningkatnya item penjualan yang dikemalikan.

Data order konsumen dalam e-commerce dapat diolah dan dianalisis untuk melihat proailitas arang yang dikemalikan dengan arang yang tidak dikemalikan oleh konsumen. Data order terseut masih terdapat adanya kemungkinan missing value! yang erupa null value yaitu data yang diisikan tidak sesuai *ormat maupun kesalahan input data. %al ini dapat mempengaruh tingkat akurasi prediksi dari data order yang diolah dan dianalisis.

3ntuk mengantisipasi hal terseut! diperlukan penerapan proses Data Mining seperti pre-processing ! melakukan pengujian terhadap eerapa classifier ! dan analisis prediksi yang mengatasi permasalahan prediksi pengemalian arang sehingg tujuan perusahaan dengan menggunakan sistem e-commerce dapat tercapai.

(6)

1*2* T-.-an

Tujuan dari penyusunan tugas ini adalah seagai erikut;

a2 Melakukan proses analisis! perhitungan akurasi! serta dokumentasi pada data training kemudian dapat digunakan untuk melakukan prediksi pada data order. 2 Menggunakan tools data mining dengan melakukan eerapa percoaan

terhadap eerapa classifier untuk mencari hasil prediksi yang memiliki tingkat keakuratan yang paling tinggi.

1*'* "-an, Ln,+-p

Berikut ini ruang lingkup dari proses analisis dan penghitungan hasil prediksi;

a2 Data yang digunakan merupakan data orders training dan data order DM@ ,< yang didapatkan dari Scele MTA

2 Pemilihan uji coa algoritma klasi*ikasi yang digunakan terhadap data orders diatasi menjadi algoritma Bayesian Net'ork! Na60e Bayes! dan #DTree.

2* BAB II

'* TINAUAN &USTAKA

2*1* Data Mnn,

Data Mining memang salah satu caang ilmu komputer yang relati* aru. Dan sampai sekarang orang masih memperdeatkan untuk menempatkan data mining di

(7)

idang ilmu mana! karena data mining menyangkut dataase! kecerdasan uatan 1artificial intelligence2! statistik! ds. #da pihak yang erpendapat ah'a data mining tidak leih dari mac$ine learning atau analisa statistik yang erjalan di atas dataase. Namun pihak lain erpendapat ah'a dataase erperanan penting di data mining karena data mining mengakses data yang ukurannya esar 1isa sampai terayte2 dan disini terlihat peran penting dataase terutama dalam optimisasi uery-nya. Calu apakah data mining itu #pakah memang erhuungan erat dengan dunia pertamangan! tamang emas! tamang timah! ds. De*inisi sederhana dari data mining adalah ekstraksi in*ormasi atau pola yang penting atau menarik dari data yang ada di dataase yang esar. Dalam jurnal ilmiah! data mining juga dikenal dengan nama %nowledge Discovery in Dataases 1&DD2.

&ehadiran data mining dilatarelakangi dengan prolema data e#plosion yang dialami akhir-akhir ini dimana anyak organisasi telah mengumpulkan data sekian tahun lamanya 1data pemelian! data penjualan! data nasaah! data transaksi ds.2. %ampir semua data terseut dimasukkan dengan menggunakan aplikasi komputer yang digunakan untuk menangani transaksi sehari-hari yang keanyakan adalah (CTP 1&n 'ine Transaction (rocessing 2. Bayangkan erapa transaksi yang dimasukkan oleh %ypermarket semacam @arre*our atau transaksi kartu kredit dari seuah ank dalam seharinya dan ayangkan etapa esarnya ukuran data mereka jika nanti telah erjalan eerapa tahun. Pertanyaannya sekarang! apakah data terseut akan diiarkan menggunung! tidak erguna lalu diuang! ataukah kita dapat me- namangF-nya untuk mencari emasF! erlianF yaitu in*ormasi yang erguna untuk organisasi kita. Banyak diantara kita yang keanjiran data tapi miskin in*ormasi.

(8)

Gamar 2*1 &rama

Dari gamar di atas terlihat ah'a teknologi data 'arehouse digunakan untuk melakukan (C#P! sedangkan data mining digunakan untuk melakukan information discovery yang in*ormasinya leih ditujukan untuk seorang Data #nalyst dan Business #nalyst 1dengan ditamah 0isualisasi tentunya2. Dalam prakteknya! data mining juga mengamil data dari data 'arehouse. %anya saja aplikasi dari data mining leih khusus dan leih spesi*ik diandingkan (C#P mengingat dataase ukan satu-satunya idang ilmu yang mempengaruhi data mining! anyak lagi idang ilmu yang turut memperkaya data mining seperti; information science 1ilmu in*ormasi2! $ig$ performance computing ! visualisasi! mac$ine learning ! statistik! neural networks 1jaringan syara* tiruan2! pemodelan matematika! information retrieval dan information e#traction serta pengenalan pola. Bahkan pengolahan citra 1image processing 2 juga digunakan dalam rangka melakukan data mining terhadap data image)spatial . Dengan memadukan teknologi (C#P dengan data mining diharapkan pengguna dapat melakukan hal-hal yang iasa dilakukan di (C#P seperti drilling)rolling untuk melihat data leih dalam atau leih umum! pivoting, slicing dan dicing* Semua hal terseut diharapkan nantinya dapat dilakukan secara interakti* dan dilengkapi dengan 0isualisasi. Data mining tidak hanya melakukan mining terhadap data transaksi saja. Penelitian di idang data mining saat ini sudah meramah ke sistem dataase lanjut seperti o+ect oriented dataase! image)spatial dataase!

(9)

time- series data)temporal dataase! teks 1dikenal dengan nama te#t mining 2! we 1dikenal dengan nama we mining 2 dan multimedia dataase. GH

2*2* Data &repressn,

2*1*1* "epresentas ar Data Menta3

Data yang elum diproses diseut data mentah. Data mentah peru disiapkan terleih dahulu agar isa dipakan dalam proses Data Mining. G=H

#da , tipe data secara umum; . Numerik

Nilai numerik termasuk nilai real 1pecahan2 dan integer 1ilangan ulat2. Iitur dengan nilai numerik memiliki , properti penting! yaitu; setiap nilai memiliki urutan dan memiliki relasi jarak.

,. &ategorikal 1simolik2

Dinyatakan dengan sama dengan atau tidak sama dengan.. 0ariael kategori yang memiliki , nilai dapat dikon0ersi menjadi 0ariael numerik dengan , nilai 0alues 1 atau 2. >ariael pengkodean dengan N uah nilai dapat dikon0ersikan ke dalam N uah 0ariael ertipe numerik yang memiliki nilai iner untuk setiap kategorikal. Pengkodean ini diseut Jdummy 0arialesJ. Misal 0ariael mata memiliki empat uah nilai; hitam! iru! hijau! dan cokelat! maka dapat dikodekan ke dalam empat digit iner;

Nilai 0ariael kode

%itam 

Biru 

%ijau 

@okelat 

2*1*2* Kara+terst+ ar Data Menta3

Pada data mentah sering ditemukan anyaknya nilai yang hilang 1 missing value", distorsi nilai! tidak tersimpannya nilai 1misrecording", sampling yang tidak cukup agus dan seagainya. 3ntuk itu perlu ditingkatkan kualitasnya dengan melakukan penyiapan data 1 preprocessing"*

Penyea kurang aiknya kualitas data mentah adalah karena adanya kesalahan dalam penyimpanan dan pengukuran! tapi isa juga karena tidak adanya nilai me'akili yang tersedia.

(10)

(utlier atau adanya nilai yang tidak iasa 1lain dari umumnya2 muncul karena anyak hal! antara lain kesalahan pada entri data dan adanya data yang tidak

tersimpan sehingga nilai de*ault otomatis tersimpan. G=H 2*1*'* Transrmas ar Data

Data mentah perlu dilakukan proses trans*ormasi untuk meningkatkan per*ormanya. Salah satu trans*ormasi yang umum digunakan adalah dengan

melakukan normalisasi. G/H @ontoh ;

Pada tael erikut ini! tiap *aktor memiliki skala yang tidak sama! ada yang esar dan ada yang kecil.

Tael E7al-as erasar+an tap a+tr

Dari tael diatas! dapat dilihat tidak adil karena skala yang dimiliki oleh maing-masing *aktor ereda.

3ntuk mendapatkan hasil yang leih adil mengunakan , cara; . Merangking Pilihan dari tiap *aktor

@aranya;

• Memeri rangking per aris

(11)

Tael E7al-as erasar+an ran,+n,

,. Menguah nilai sehingga tiap *aktor mempunyai nilai yang sama @aranya;

• 3ntuk menguahnya supaya mempunyai range -! menggunakan

cara geometri sederhana pada garis lurus.

Dimana;

Na ; atas atas nilai aru N ; atas a'ah nilai aru Naa ; atas atas nilai asli Na ; atas a'ah nilai asli

(12)

2*1*)* &enan,anan ar Data 9an, %lan,

Metode data mining seringkali mensyaratkan semua nilai data lengkap atau tidak ada yang hilang. Padahal pada kenyataannya anyak atriut atau field dari eerapa record yang tidak diketahui nilainya. Solusi paling sederhana adalah dengan menghapus semua record yang erisi nilai yang kosong. 3ntuk data yang esar mungkin cara ini tidak erpengaruh terhadap model data mining yang dihasilkannya. #kan tetapi lain hasilnya jika data-data yang dihapus ini memiliki potensi yang sangat esar.

Solusi untuk menangani data yang hilang adalah data miner ersama-sama dengan pakar domain secara manual menguji data-data yang kosong kemudian memperkirakan nilai yang tepat untuk data terseut. #kan tetapi metode ini akan memutuhkan 'aktu yang lama apalagi jika data yang ditangani erukuran esar dan erdimensi anyak.

Pendekatan kedua dilakukan dengan cara penggantian suatu nilai konstanta terhadap nilai yang hilang terseut. G/H

Selain itu ada lagi cara yang isa dilakukan! yaitu dengan mengintepretasikan nilai yang hilang seagai nilai JdonFt careJ. Dengan cara ini! suatu sample data dengan nilai yang kosong akan digantikan oleh eerapa data dari himpunan sample uatan yang erisi semua kemungkinan yang ada dari domain nilai terseut. Seagai contoh! jika sampel K merupakan sampel 4 dimensi dan dinyatakan KL!!4! dimana nilai *itur kedua adalah nilai yang hilang! maka proses akan menggenerate lima sampel uatan yang domain *iturnya adalahL

(13)

KL !!4! K,L !!4! KL !,!4! K4L !4!4! K<L !<!4 2*1*5* Analsa O-tler

Seringkali pada data set! terdapat suatu nilai yang ereda dari iasanya dan tidak mencerminkan karakteristik data secara umum. Nilai yang tidak konsisten itu dinamakan outlier G,H

Berikut ini metode untuk melakukan deteksi terhadap outlier; . Deteksi outlier erdasarkan teknik statistik

@ara paling sederhana adalah dengan cara statistik. Perlu dilakukan perhitungan rata-rata dan standar de0iasi. &emudian erdasarkan nilai terseut diuat *ungsi t$res$old erpotensi untuk dinyatakan seagai outlier

Maka semua data yang erada diluar range -=.<! 4., adalah Tres$$old . Pada contoh diatas terdapat 4 nilai yang termasuk outlier; =/! 4:! -/8

2. Distance Based &utlier Detection

Metode yang kedua ini erusaha mengeliminasi keteratasan dari pendeteksian erdasarkan teknik statistik. Metode ini cocok digunakan untuk data yang multidimensi. @ara yang dilakukan adalah dengan menge0aluasi nilai jarak diantara semua sampel data set yang erukuran n-dimensi.

(14)

2*2* 4e+a

)eka adalah kumpulan algoritma mac$ine learning untuk pengerjaan proyek data mining* #lgoritma dalam )eka dapat digunakan secara langsung terhadap dataset yang kita miliki. )eka erisi tools untuk data preprocessing, klasi*ikasi! regresi! klastering! dan 0isualisasi. )eka juga isa digunakan untuk mengemangkan skema mac$ine learning* G4H

(15)

BAB III

ANALISIS KEBUTU%AN DAN METODE &ENELITIAN

'*1* Analss Ke-t-3an Sstem

a. Spesi*ikasi Perangkat Cunak

Dalam penelitian ini diutuhkan eerapa perangkat lunak seperti erikut ;

• Sistem (perasi ; M#@ (S K

• Perangkat lunak pendukung ; )eka! +D&

• Dataase ; dataset dalam *ormat cs0

. Spesi*ikasi Perangkat &eras

Dalam penelitian ini diutuhkan eerapa perangkat keras seperti erikut ;

• Processor ; Antel @ore i= • "#M ; <OB

'*2* Keran,+a &eneltan

Tahapan yang dilakukan dalam proses memprediksi returnShipment! adalah seagai erikut ;

a. Preprocessing

Tahap preprocessing yang dilakukan dalam penelitian ini adalah dengan menggunakan teknik data-cleaning . Dengan menggunakan teknik terseut! maka dalam tahap ini dilakukan proses untuk menghilangkan nilai-nilai data yang salah! memperaiki kekacauan data dan memeriksa data yang tidak konsisten.

. Training

Pada tahap ini dilakukan proses training dengan mengimplementasikan algoritma dalam tools )eka terhadap data train yaitu orderstrain.cs0. Tahapan ini ertujuan agar tools memiliki pengetahuan 1mac$ine-learning 2 terhadap metode klasi*ikasi pada data training yang kemudian akan isa mengimplementasikannya ke data testing .

c. Testing

Pada tahap ini dilakukan proses testing atau prediksi nilai return$ipment pada data tes ordersclass.cs0 dengan menggunakan metode klasi*ikasi yang sudah digunakan pada tahap training seelumnya.

(16)

Ani merupakan tahap akhir dalam penelitian ini! yaitu menge0aluasi per*ormansi metode atau algoritma klasi*ikasi yang sudah dipakai dalam penelitian ini.

'*'

* Dataset

Dataset yang digunakan pada penelitian ini erasal dari Data Mining @up 1DM@2 pada tahun ,<. Dataset yang disediakan terdiri atas orderstrain.cs0 seagai data training dan ordersclass.cs0 seagai data testing dalam penelitian ini. Data ini merupakan data order pada suatu e-commerce yang kemudian akan dilakukan prediksi apakah arang yang dieli customer akan dikemalikan atau tidak.

Data training yaitu orderstrain.cs0 terdiri atas < atriut dan <5:, instances sedangkan data testing ordersclass.cs0 terdiri atas 4 atriut dan =85 instances. Peredaannya adalah pada ordersclass.cs0 tidak memiliki atriut returnShipment seperti pada orderstrain.cs0.

'*)* &repressn,

(reprocessing merupakan tahap untuk memperaiki data seelum dilakukan proses klasi*ikasi. Tujuannya adalah untuk menghasilkan nilai per*ormansi klasi*ikasi yang leih aik lagi. #dapun penyea data yang kurang aik adalah seagai erikut ;

• Ancomplete ; kekurangan nilai-nilai atriut atau atriut tertentu lainnya • Noisy ; erisi kesalahan atau nilai-nilai outlier yang menyimpang • Anconsistent; ketidakcocokan dalam penggunaan kode atau nama

3ntuk menja'a permasalahan diatas! maka dilakukan tahapan seagai erikut dalam tahap preprocessing untuk data training dan data testing pada penelitian ini ;

. Melakukan analisis untuk mencari apakah ada atriut outlier ! atriut yang tidak memiliki isi 1missing value2 dan atriut yang salah kode atau nama. ,. Memperaiki atriut yang kurang aik terseut.

4. Melakukan filter terhadap satu atau leih atriut untuk mendapatkan per*ormansi klasi*ikasi yang leih aik lagi.

'*5* 4a+t- an Tempat &eneltan

Penelitian dilaksanakan selama  hari pada ulan Mei ,/ ertempat di 3ni0ersitas Andonesia Salema! +akarta Pusat.

(17)

BAB I#

(18)

)*1* &eneltan

)*1*1* Analss Data

Berdasarkan dari dataset yang digunakan! yaitu orderstrain*csv seagai data training dan ordersclass*csv seagai data testing, maka didapatkan analisis atriut pada masing-masing dataset seagai erikut.

Tabel 1 Analisis Atribut orders_train.csv

#triut Tipe Data Missing

>alues

orderAtemAD Natural Numer No

orderDate Date No

deli0eryDate Date Yes

itemAD Natural Numer No

Si$e String No

@olor String Yes

manu*acturerAD Natural Numer No

price Positi0e "eal Numer No

customerAD Natural Numer No

salutation String No

date(*Birth Date Yes

state String No

creationDate Date No

returnShipment ! No

Tabel 2 Analisis Atribut orders_class.csv

#triut Tipe Data Missing

>alues

orderAtemAD Natural Numer No

orderDate Date No

deli0eryDate Date Yes

itemAD Natural Numer No

Si$e String No

@olor String No

manu*acturerAD Natural Numer No

price Positi0e "eal Numer No

customerAD Natural Numer No

(19)

date(*Birth Date Yes

state String No

creationDate Date No

Selain ditemukan atriut yang mengandung missing values seperti yang ditunjukkan pada tael diatas! juga ditemukan eerapa masalah pada atriut dalam dataset! antara lain ;

. Pada atriut color, ditemukan data yang mengalami pengejaan yang salah seperti Qoli0J! Qro'nJ! QlauJ! QdarklueJ.

,. Pada atriut deliveryDate ditemukan tanggal pengiriman yang ereda dari yang lainnya. Pada rekor data yang lain! tanggal pengiriman dimulai pada tahun ,,! dan ditemukan data yang menunjukkan tahun ,:.

)*1*2* Data &repressn,

Data preprocessing ertujuan untuk memperaiki data seelum dilakukan proses klasi*ikasi. Tahap-tahap preprocessing yang dilakukan dalam penelitian ini antara lain! replace missing value, mendeteksi oulier, attriute selection, discreti.e. Data preprocessing ini dilakukan terhadap data training dan juga data testing*

4.1.2.1. Replace Missing Value

Tahap ini dilakukan untuk menggantikan nilai yang kosong yang dimiliki oleh satu atau leih atriut dalam dataset. Tahap ini dilakukan dengan menggunakan tools )eka. Replace /issing 0alue dapat dilakukan pada )eka dengan menggunakan *ilter Replace/issing0alues seperti gamar <.. di a'ah ini.

(20)

Gambar 4.2 Replace Missing Values

4.1.2.2. Mendeteksi Outlier

Salah satu proses untuk memperaiki dataset adalah dengan melakukan pendeteksian outlier* &utlier merupakan data yang ereda jauh

dengan yang lainnya dan dapat mempengaruhi per*ormansi algoritma data mining . &utlier isa diseakan oleh kesalahan pengetikan atau penginputan pada dataset sehingga menjadikannya seagai outlier*

Tahap pendeteksian outlier ini dilakukan dengan menggunakan tools )eka dan ditunjukkan pada gamar <., erikut.

(21)

Gambar 4.3 ete!si "utlier

Iilter 1nter2uartileRange akan menghasilkan atriut &utlier dan 3#treme0alue. #triut terseut dapat dihapus dengan menggunakan

*ilter remove*

4.1.2.3. Attribute Selection

Tahap attriute selection dilakukan dengan menggunakan )eka. Tahapan ini ertujuan untuk meningkatkan per*ormansi dan keakuratan training data dengen algoritma data mining . Tahap ini menggunakan *ilter Attriuteelection dan menggunakan e0aluator 4ainRatio seagai evaluator-nya dan diurutkan dari yang paling tinggi sampai yang paling rendah! isa dilihat pada gamar <.4 dia'ah ini.

(22)

Gambar 4.4 Attribute #electi$n

4.1.2.4. Discretize

Tahap ini dilakukan untuk mengurangi angka dari nilai-nilai yang akan dianalisis untuk memerikan atriut selanjutnya dengan cara melakukan pemagian range atriut menjadi inter0al. Tahapan ini dilakukan dengan menggunakan )eka dan dapat dilihat pada gamar <.< dia'ah ini.

(23)

Gambar 4.5 iscreti%e

)*1*'* Klas+as Data Trann,

Proses klasi*ikasi adalah proses untuk memprediksi atriut return$ipment pada data train orderstrain*csv. Proses klasi*ikasi ini dilakukan dengan

menggunakan 4 algoritma data mining untuk mengetahui algoritma mana yang memiliki tingkat akurasi per*ormansi yang paling tinggi. 4 algoritma terseut adalah Na60e Bayes! Bayesian Net'ork dan #DTree. Proses klasi*ikasi ini dilakukan dengan menggunakan )eka dengan menggunakan percentage split seesar //9 isa dilihat pada gamar <.=! <./! dan <.8 dia'ah ini.

(24)

Gambar 4.6 &ai'e (a)es

Gambar 4.7

(25)

Gambar 4.8 ATree

Berdasarkan dari percoaan yang sudah dilakukan diatas! dapat ditampilkan dalam tael seperti dia'ah ini.

Tabel 3 +asil A!urasi Alg$ritma pa,a ata Training

#lgoritma %asil #kurasi &lasi*ikasi

Bayesian Net'ork /5.8/9

Na60e Bayes /5./,9

#DTree /.,89

)*1*)* Klas+as Data Testn,

Setelah dilakukan prediksi dengan menggunakan data training orderstrain*csv langkah selanjutnya adalah melakukan prediksi dengan menggunakan data testing ordersclass*csv. Cangkah ini dilakukan dengan menggunakan )eka dan menggunakan supplied test set setelah melakukan klasi*ikasi dengan data training dan pilih ordersclass*csv.

(26)

Gambar 4.8 -lasi!asi ata Testing

Proses testing ini dilakukan setelah proses klasi*ikasi data training untuk memerikan pengetahuan terleih dahulu kepada algoritma sehingga dapat menerapkannya pada *ile data testing sesuai dengan rule pada data training* Setelah proses klasi*ikasi data testing dengan menggunakan < algoritma yang sama dengan klasi*ikasi data training, maka didapatkan hasil seagai erikut pada tael <.

Tabel 4 +asil A!urasi Alg$ritma pa,a ata Testing

#lgoritma %asil #kurasi &lasi*ikasi

Bayesian Net'ork ::.589

Na60e Bayes ::.5<9

#DTree :5.9

)2

Analss %asl &en,-.an

Berdasarkan dari penelitian dan percoaan yang sudah dilakukan! didapatkan eerapa analisis yaitu seagai erikut ;

(27)

. (reprocessing pada dataset yang dilakukan di a'al seelum melakukan proses klasi*ikasi dengan menggunakan algoritma data mining mempengaruhi per*ormansi algoritma terseut.

,. Dari ketiga algoritma yang dilakukan percoaan didapatkan ah'a algoritma Bayesian Net'ork leih aik per*ormansi diandingkan dengan algoritma lainnya.

4. &ualitas data yang aik juga mempengaruhi per*ormansi algoritma data mining dalam menentukan atriut kelasnya.

BAB I#

KESIM&ULAN DAN SA"AN

5*1* Kesmp-lan

(28)

. Proses preprocessing perlu dilakukan untuk meningkatkan akurasi per*ormansi algoritma data mining dalam proses klasi*ikasi.

,. Tahapan yang dilakukan dalam proses preprocessing juga mempengaruhi aik atau tidaknya hasil dari proses preprocessing terseut. Maka dari itu! diperlukan juga analisis terhadap dataset untuk mengetahui kekurangan yang ada pada dataset sehingga dapat diperaiki pada proses preprocessing*

4. Tingkat akurasi per*ormansi algoritma klasi*ikasi yang paling aik dimiliki oleh algoritma Bayesian Net'ork yaitu seesar /5.8/9 untuk data training dan ::.589 untuk data testing*

<. Berdasarkan dari hasil terseut! maka dapat disimpulkan ah'a Bayesian Net'ork adalah algoritma klasi*ikasi yang paling aik digunakan untuk data training dan data testing*

5*2* Saran

3ntuk saran pengemangan selanjutnya adalah menggunakan dataset untuk studi kasus yang lain untuk mengetahui apakah kesimpulan yang didapatkan erlaku untuk semua jenis dataset.

DAFTA" &USTAKA

GH Iadli! #ri 1,2. &onsep Data Mining. Almu &omputer. 3ni0ersitas Oadjah Mada. Yogyakarta.

G,H &norr! Ed'in and T.! "aymond 1::52. #lgorithms *or Mining Distance-Based (utliers in Carge Datasets. 3ni0ersity o* British. @anada.

(29)

G4H )esite )E&#. '''.cs.ccsu.edu?Rmarko0?:e+a-t-tral.pd* diakses pada tanggal ,: Mei ,/.

G<H )esite. https;??'''.researchgate.net?*ile.PostIileCoader.html diakses pada tanggal ,: Mei ,/

G=H )esite. http;??eritati.logspot.co.id?,<??jenis-jenis-atriut-data-dalam-data.html diakses pada tanggal 4 Mei ,/

G/H )esite. https;??rencanait.'ordpress.com?,?4?5?data-mining-data- preprocessing? diakses pada tanggal 4 Mei ,/