PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES
DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI
KABUPATEN DEMAK TAHUN 2012
DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI
KABUPATEN DEMAK TAHUN 2012
PERBANDINGAN METODE KLASIFIKASI NAÏVE BAYES
DAN K-NEAREST NEIGHBOR PADA ANALISIS DATA STATUS KERJA DI
KABUPATEN DEMAK TAHUN 2012
Oleh :
RIYAN EKO PUTRI
24010210120042
Sebagai Salah Satu Syarat untuk Memperoleh Gelar
Sarjana Sains pada Jurusan Statistika
JURUSAN STATISTIKA
FAKULTAS SAINS DAN MATEMATIKA
UNIVERSITAS DIPONEGORO
SEMARANG
2014
KATA PENGANTAR
Puji dan syukur penulis panjatkan kehadirat Allah SWT karena berkat rahmat dan
hidayah-Nya, penulis dapat menyelesaikan Tugas Akhir dengan judul
Perbandingan
Metode Klasifikasi Naïve Bayes dan K-Nearest Neighbor pada Analisis Data Status
Kerja di Kabupaten Demak Tahun 2012 .
Penulis menyadari bahwa dalam penyusunan laporan ini tidak lepas dari bimbingan dan
dukungan yang diberikan beberapa pihak. Oleh karena itu, penulis ingin menyampaikan
terima kasih kepada:
1. Ibu Dra. Dwi Ispriyanti, M.Si. selaku Ketua Jurusan Statistika Fakultas Sains dan
Matematika Universitas Diponegoro.
2. Ibu Dra. Suparti, M.Si. selaku dosen pembimbing I dan Ibu Rita Rahmawati, S.Si, M.Si.
selaku dosen pembimbing II yang telah memberikan bimbingan, arahan, dan motivasi
hingga terselesaikannya tugas akhir ini.
3. Seluruh Dosen Jurusan Statistika FSM Universitas Diponegoro yang telah memberikan
ilmu yang sangat berguna.
4. Semua pihak yang telah membantu, yang tidak dapat penulis sebutkan satu per satu.
Penulis menyadari masih terdapat kekurangan dalam penulisan laporan ini. Oleh karena
itu, penulis mengharapkan kritik dan saran dari pembaca. Semoga Tugas Akhir ini dapat
bermanfaat bagi semua pihak.
Semarang, September 2014
Penulis
v
t
ïve Bayes dan K -Nearest Neighbor. Naïve Bayes merupakan metode
pengklasifikasian yang didasarkan pada penghitungan probabilitas sederhana,
sedangkan K-Nearest Neighbor merupakan metode pengklasifikasian yang
didasarkan pada perhitungan kedekatan jarak. Variabel yang digunakan dalam
menentukan status kerja seseorang apakah menganggur atau bekerja yaitu jenis
kelamin, status dalam rumah tangga, status perkawinan, pendidikan, dan umur.
Pengklasifikasian status kerja dengan metode Naïve Bayes diperoleh keakurasian
sebesar 94.09% dan dengan metode K-Nearest Neighbor diperoleh keakurasian
sebesar 96.06%. Untuk mengevaluasi hasil klasifikasi digunakan perhitungan
Press s Q dan APER. Berdasarkan hasil analisis, diperoleh nilai
Press s Q
yang
menunjukkan bahwa kedua metode sudah baik dalam pengklasifikasian data
status kerja di Kabupaten Demak. Berdasarkan perhitungan APER,
pengklasifikasian data status kerja di Kabupaten Demak menggunakan metode
K-Nearest Neighbor memiliki tingkat kesalahan yang lebih kecil dibandingkan
dengan metode Naïve Bayes. Dari analisis tersebut dapat disimpulkan bahwa
metode K-Nearest Neighbor bekerja lebih baik dibandingkan dengan Naïve Bayes
untuk kasus data status kerja di Kabupaten Demak tahun 2012.
vi
ABSTRACT
Large population in Indonesia is closely related to the working status of the
population which is unemployed or employed. It can lead to the high
unemployment when the avaliable jobs arent balance with the population. Used
two methods to perform the classification of employment status on the number of
residents in the labor force in Demak for 2012 which is Naïve Bayes and
K-Nearest Neighbor. Naïve Bayes is a classification method based on a simple
probability calculation, while the K-Nearest Neighbor is a classification method
based on the calculation of proximity. Variables used in determining whether a
person's employment status is idle or not are gender, status in the household,
marital status, education, and age. Employment status of the data processing
methods of Naïve Bayes with the accuracy obtained is equal to 94.09% and the
K-Nearest Neighbor method obtained is equal to 96.06% accuracy. To evaluate the
results of the classification used calculations Press's Q and APER. Based on the
analysis, the Press's Q values obtained indicate that both methods are already well
in the classification of employment status data in Demak. Based on the calculation
of APER, the classification of data in the employment status of Demak using the
K-Nearest Neighbor method has an error rate smaller than the Naïve Bayes
method. From this analysis it can be concluded that the K-Nearest Neighbor
method works better compared with the Naïve Bayes for employment status data
in the case of Demak for 2012.
)*+
T
*R
, - ,Halaman
H
*L
*M
*N
./ )UL
00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 (H
*L
*M
*N P
1NG
1S
*H
*N
000000000000000000000000000000000000000000000000000000000000000000000000000 ( (K
*
T
*P
1NG
*NT
*R
00000000000000000000000000000000000000000000000000000000000000000000000000000000000000 (v
*2STR
*K
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000v
*2STR
* 3T
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 '( )*+T
*R
, - , 0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000v
( ( )*+T
*R G
*M
2*R
0000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 (x
)*+T
*R T
*21
L
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
x
)*+T
*R L
*MP
, 4*N
000000000000000000000000000000000000000000000000000000000000000000000000000000000000x
( 2*2,
P
1N
)*HULU
*N
505 67
t
7r
89:7 ;7 < = 000000000000000000000000000000000000000000000000000000000000000000000000 5 50> ?u
@us
7 <A7s
7: 7B00000000000000000000000000000000000000000000000000000000000000000000 C 50C>05 G9H(<(
s
(V
7r
(7I9:0000000000000000000000000000000000000000000000000000000000000000000000 J >0> KL<M 9NK: 7s
( H(;7s
(0000000000000000000000000000000000000000000000000000000000000000000 O >0CPr
LI7I(:(t
7s
P7<P
7rt
(s
(00000000000000000000000000000000000000000000000000000000000 55 >0D K: 7s
( H(;7s
(Q7ïv
987y
9s
000000000000000000000000000000000000000000000000000000000 5C >0J K7r
7 ;R9r
(st
(;Q7ïv
987y
9s
000000000000000000000000000000000000000000000000000000 >5 >0S 67N: 7 T9U MR ( @7t
LV 0000000000000000000000000000000000000000000000000000000000000000000 >5 >0W K: 7s
( H(;7s
(KXQ 97r
9st
Q9(=BILV000000000000000000000000000000000000000000000 >> >0Y K7r
7 ;R9r
(st
(;K:7s
(H(;7s
(KXQ 97r
9st
Q9(=BILr
00000000000000000000000 >S >0OT
9;<(;V
7:(P7s
(ALP9:00000000000000000000000000000000000000000000000000000000000 >W >05Z U'7:u
7s
(K9t
9N 7t
7<[7s
(:K:7s
(H(;7s
(0000000000000000000000000000000000000 >Y 2*2,,,
M
1TO
)
OLOG
,\1
N
1L
,],*N
bcd efgh agifh jklmn mhom
t
m cccccccccccccccccccccccccccccccccccccccccccccccccccccccc bb pq pr s
P
tM
pqH
qS
qN
dcu ofvgwax v aom
t
m cccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc by dcz {u
|}h jmh~hmr
matur
fh jmht
mtus
fr
mccccccccccccccccccccccccc du dcbP
fh jg lms
a agms
amhfhjmhft
kfmïv
fmy
fs
cccccccccccccccccccc dd dcdP
fh jg lms
a agms
amhfhjmhft
kf fmr
fst
fa jn|kwcccccccc d dc `m lu
ms
aft
fx mt
mh{ms
a llms
a agms
accccccccccccccccccccccccccccccccccccc d dcyP
fr
|mhahjmhfmg}w mt
m hcccccccccccccccccccccccccccccccccccccccccccccccccccccc d pq pV
tS
r K
PUL
qN
cccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc qT
qR PUST
qK
q cccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc uL
x
T
R G
M
R
x
È É ÊT
ÉR T
ÉËÌL
x
T
R L
MP
N
Halaman
Lampiran
t
t
!Lampiran
"Syntax
#t
$ % &u
#t
'(ïv
)y
s
Lampiran
*Syntax
#t
$ % &u
# ++ $Pr
'+r
,
r
st
+'r
-Lampiran
.Syntax
#t
$ % &u
#t
'(,r
st
+'r
/Lampiran
0 1ut
&u
&u
ïv
)y
s
2Lampiran 6
1ut
&u
&u
,r
st
+'r
( + 3 ! %Lampiran
4 1ut
&u
&u
,r
st
+'r
( + 3-Lampiran
5 1ut
&u
&u
,r
st
+'r
( + 3 /-1
:8;8< 7= :8>8
N
?@A@ BCDCEFG
l
CHCI JKLMNL OPQ R S O
r
TURV RL LOWRr
Ry
RLW X TRs
MOLWRL YOr
Q Y T UTX Ru
MQ MRX RSLRy
SOLy
OY RY VRL LOW Rr
R QLQ S OSQ XQVQ Z TSXR[p
OLMTMTVy
RLW Y OP Rr
MOLW RL VRr
RV\ Or
Qst
Q VS Rsy
Rr
RV Rt y
R LWY Or
S R]RS ^SR ]RS_ `TSX R[UOLMTMTVy
RLWYOP Rr
QLQ Or
Rt
VRQt
RLLRy
MOL W RLst
Rtus
VOr
Z R UOLMTMTVLy
R RURVR[ SOLWRLWWur
Rt
Ru
t
QMRV SOLW RLWWur
aY OV ObZ Rc MQ S RLRVO\QVR \Q MRVMQQ SY RLWQ MOLW RLXRURLW RLVObZ Ry
R LW \Ob P OMQR MRU R\ SOLy
OY RY VRL \QLWVR\ UOLW RL WWTb RLy
RLW \QLWWQ _ d OLW R LWWTb RL P ObQLWV RX Q S OLZ RMQ SRPRXR[y
R LW VbTPQRX MRXRS UOb OVNLNSQRL _ e OLWRL RMRLy
R UOLW RLWWTb RLfUb NMTV\Q g Q \ RPMRLUOLM RUR\RLSRPy
RbRVR\RVRLY ObVTb RLWP O[QLWW R MRUR\ S OLy
OY RY VRL \QSY TXLy
R VOSQP VQ LRL MRL SRP RX R[ ^SRP RXR[ PNPQRX X RQLLy
R_ e RbQMR\ RhdiMQ VO\ R[ TQY R[j RURMR\R[ TLklmn\ Ob MRUR\o_npZ T\RUOLMTMTVy
RLW \QMRVS OSQX Q VQS R\RUOL ]R[ RbQRLM RbQ\N\ RXRL WVR \ RLY OVObZ RP OY RLy
RVmmq _mpZ T\R ZQ j R_iOXRQLQ \ T rQLWV R\ d OLWRLWWTb RLr ObY TVR a rd rc MQ KLMNLOPQR U RMR sWTP \TP klmn SOL]RURQ6
_kt UOb P OL_ sLWVR \Ob POY T\ S OLWRXRSQ UOLQ LWVR\ RL MQY RLMQ LW rd r u OYbTRbQ klmny
RQ\ T POY OP Rb t_ pk UOb P OL POb \R rd r s WTP \TP klmk P OY OP Rb6
_mvUObP OL_2
yz{ z| z} ~ zy} | z
y
z y} || { z} z| z} ot
z { zr
z}y
zH
z | }| ~ } z{|z{ z} z}y
z{ z} z{ y { z z} ~~ z{ z ~ {z } { ~} z| z} z{ z z} z} zzy} { z | z z ~ ~| ~ ~ } | { z} | y z~yz{ |z{}~|y
z}{ zzzz { y|{ | or
z}y
z} t
| z{ ~ z~pu
~~} |{ z}~ } z|t
{ z}rt
z}str
z| }|zyzt
~ } zy z y|{|
r
or
z}} { ~ z{ { z}t
|} z{ z} {| ~| } z|t
zs
zt
zy}pr
~z}| ~ | } z
t
|}{ zt
{ z~ z} z} | }} | z ~ } z| r
{ z} z~yz{s
| z {}~|y
z}t
r
z{|r y
z|tu
{ } z}z} | z ~ zsy
zr
z{zt
~ z{|}t
| } | { z}z}
y
z{yr
~ z z}{ ~z}y
r
z z | {|t
zr
} y} z{ zr
z}|t
zt
zy} { z{ z ~tr
y |t
{ zr
} z yr
z| }z} | yy
z } z}zt
{ t
zt
{ zr
} z |tu
zz~ { zsus
|} | y} |} | z{ { z}p
}{ zs
|| { z| z}st
ztus
{ r
z zyz{ z ~ } z}ur
zt
zu t
| z{ {zr
} zp
}z}ur
z}~ r
yz{ z}z zs
ztu
z{ or
| }|{ z| zp
z{ z ztu
} zr
zt
rs
| { zt
z{ z} zs
z r
zzt
zu
~z
ï
zy
z} z | ~ yz{ z} ~ y }{ z|| { z|y
z} { } z }z} |} { z { z{ zz}y
z} z|{ z}y
z{ y}||z} z3
¥¦
r
§¨©ª©« ¥¦t
¬ ¦ ¨ ¦«®ª ¯©° ±²±ª©° ±©«y
© «® ³o
³ ¬ª ±®§«©ª ©« ¨© © ©t
© ¦« ®©« ª ¦¯©s
Y bertipe kategorik dimana untuk data status kerja kelas yang digunakan
yaitu pengangguran dan bukan pengangguran. Selain itu berbeda dengan metode
pengklasifikasian dengan regresi logistik ordinal maupun nominal, pada metode
Naïve Bayes dan K- Nearest Neighbor pengklasifikasian tidak diperlukan adanya
permodelan maupun uji statistik seperti uji signifikansi.
Naïve Bayes merupakan metode pengklasifikasian peluang sederhana
dengan asumsi antar variabel penjelas saling bebas (independen). Naïve Bayes
dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi
dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya.
K-Nearest Neighbor atau dapat disingkat dengan K-NN adalah salah satu metode
non parametrik yang digunakan dalam pengklasifikasian. Metode K-NN pertama
kali diterapkan pada awal 1950. K-NN merupakan jajaran metode sederhana yang
sering disebut dengan
Lazy Learning
. Pada penulisan tugas akhir kali ini akan
diaplikasikan kedua metode tersebut pada bidang statistika dengan permasalahan
yang diangkat adalah kependudukan serta membandingkan keoptimalan dua
metode tersebut dalam mengklasifikasi data status kerja di Kabupaten Demak
pada tahun 2012.
´µ¶ ·
umu
¸ ¹ºM
¹¸¹» ¹¼4
½¾¿ ÀÁÂÁà ÁÄÅÁÃÁÆÁÇ
È É
r
Ê ËÌ ËÍ ËÎ ËÏÐ ËÑËÐ ÉÏÉÍ ÒÒ ËÏt
ÒÏÒÑÒ Ó ËËt
s
ÒÔ ÏÕÔ ÖÑËÉr
ËÎ× ËÓÔÐËt
ÉÏ ØÉÊËÖÙ ÌÉÌ Ô ËÒ ÑÉÏÚËÏ Ð ÉÏÑ Ët
ËËÏy
ËÏÚ ÑÒ Í ËÖÔ ÖËÏ Û ÍÉÎ ÜÈÝ Ð ËÑËt
ËÎÔ Ï ÞßàÞá È ÉÏÚÛ Í ËÎ ËÏt
É
r
Ì ÉÓÔÕ ÊÉÏÚÚÔ ÏËÖ ËÏ ÑÔ Ë Ê Ét
Û ÑÉÙy
ËÒtu
Ê Éto
ÑÉ âËï
ã É Ü Ëy
ÉÌ Ñ ËÏ ×ä âÉËå ÉÌ Õ âÉÒ ÚÎÓÛåá½¾æ çè éè ÁÄ
êÉÍ ËÖÔ ÖËÏ ÖÍËÌÒ ëÒÖËÌÒ Ù ÊÉÏ ÚÉ