• Tidak ada hasil yang ditemukan

Penerapan Pohon Klasifikasi Dan Bootstrap Aggregating Dalam Klasifikasi Usia Menarche (Studi Kasus: Smpn Ragunan Dan Smpn 1 Dramaga).

N/A
N/A
Protected

Academic year: 2017

Membagikan "Penerapan Pohon Klasifikasi Dan Bootstrap Aggregating Dalam Klasifikasi Usia Menarche (Studi Kasus: Smpn Ragunan Dan Smpn 1 Dramaga)."

Copied!
26
0
0

Teks penuh

(1)

PENERAPAN POHON KLASIFIKASI DAN

BOOTSTRAP

AGGREGATING

DALAM KLASIFIKASI USIA

MENARCHE

(Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga)

IIS ISTIQOMAH

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

(2)
(3)

PERNYATAAN MENGENAI SKRIPSI DAN

SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Pohon Klasifikasi dan Bootstrap Aggregating dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga) benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.

Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor.

Bogor, Juni 2015

Iis Istiqomah

(4)

ABSTRAK

IIS ISTIQOMAH. Penerapan Pohon Klasifikasi dan Bootstrap Aggregating dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga). Dibimbing oleh ANIK DJURAIDAH dan AGUS MOHAMAD SOLEH.

Menarche adalah menstruasi pertama bagi remaja putri. Menarche cepat merupakan salah satu penyebab wanita terkena kanker payudara sedangkan

menarche terlambat merupakan salah satu penyebab osteoporosis. Penelitian ini bertujuan menentukan faktor-faktor yang memengaruhi usia menarche remaja putri di SMPN Ragunan dan SMPN 1 Dramaga. Peubah respons yang digunakan yaitu kategori usia menarche (cepat, ideal, dan lambat). Metode analisis yang digunakan adalah Classification and Regression Trees (CART) dan bootsrap aggregating (bagging). CART menghasilkan pohon klasifikasi tunggal sedangkan

bagging menghasilkan pohon agregat untuk meningkatkan akurasi pendugaan pohon klasifikasi tunggal. Peubah-peubah penting yang memengaruhi usia

menarche pada pohon klasifikasi tunggal secara berurutan adalah jenis sekolah, asupan protein, asupan kalsium, dan asupan lemak. Sementara itu, pada pohon agregat urutannya adalah jenis sekolah, asupan kalsium, asupan protein, dan asupan lemak. Pohon agregat dengan berbagai versi replikasi memberikan ketepatan klasifikasi yang lebih baik dibandingkan pohon klasifikasi tunggal. Selain itu, hasil validasi silang lipat 5 menunjukkan bahwa ketepatan klasifikasi pohon agregat dengan 100 replikasi lebih baik dibandingkan dengan pohon klasifikasi tunggal. Pada penelitian ini, bagging mampu meningkatkan ketepatan klasifikasi pohon tunggal dari 60.00% menjadi 62.50%.

Kata kunci:bootstrap aggregating (bagging), Classification and Regression Trees

(5)

ABSTRACT

IIS ISTIQOMAH. Application of Classification Trees and Bootstrap Aggregating in Menarche Age Classification (Case Study: Ragunan Junior High School and Dramaga 1 Junior High School). Supervised by ANIK DJURAIDAH and AGUS MOHAMAD SOLEH.

Menarche is the first menstruation for girls. Early menarche is one of the causes of breast cancer. Meanwhile, late menarche is one of the causes of osteoporosis. This research aims to determine the factors that affect menarche age at Ragunan Junior High School and Dramaga 1 Junior High School. The response variable is the category of menarche age (early, ideal, and late). The analytical methods are Classification and Regression Trees (CART) and bootstrap aggregating (bagging). CART generates a single classification tree while bagging generates an aggregat classification tree to improve prediction accuracy of a single tree. The important variables affecting menarche age on single classification tree consecutively are type of school, protein consumption, calcium consumption, and fat consumption. While on the aggregat tree, consecutively, the important variables are type of school, calcium consumption, protein consumption, and fat consumption. The aggregat tree with different versions of replication give better classification accuracy than single classification tree. In addition, cross validation 5 fold of bagging with 100 replication shows the classification accuracy of bagging is better than single classification tree. In this research, bagging can improve classification accuracy of the single tree from 60.00% to 62.50%.

(6)
(7)

Skripsi

sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada

Departemen Statistika

PENERAPAN POHON KLASIFIKASI DAN

BOOTSTRAP

AGGREGATING

DALAM KLASIFIKASI USIA

MENARCHE

(Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga)

DEPARTEMEN STATISTIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

BOGOR 2015

(8)
(9)

Judul Skripsi: Penerapan Pohon Klasiikasi dn Bootstrap Aggregating dalam Klasiikasi Usia Menarche (Studi Kasus: SPN Ragunan dan

Nama NM

SPN 1 Dramaga)

: lis Istiqomah : G14110032

Dr Ir Anik MS

Pembimbing I

Disetujui oleh

Tanggal Lulus:

0 3 JUN 2015

(10)

PRAKATA

Puji syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala limpahan rahmat dan karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul karya ilmiah yang dipilih ialah “Penerapan Pohon Klasifikasi dan Bootstrap Aggregating (Bagging) dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga).

Penulis mengucapkan terima kasih kepada semua pihak yang berperan dalam membantu penyusunan karya ilmiah ini, antara lain:

1. Ibu Dr Ir Anik Djuraidah, MS dan Bapak Agus Mohamad Soleh, SSi MT selaku dosen pembimbing,

2. Ibu Dian Kusumaningrum, MSi selaku penguji luar,

3. Ayah, ibu, serta seluruh keluarga atas segala doa dan kasih sayangnya, 4. Sry Novi Yanti Sofya yang telah mengizinkan saya menggunakan data

penelitiannya, dan

5. Rekan-rekan Statistika Institut Pertanian Bogor angkatan 48 atas kebersamaan dan dukungannya selama ini.

Penulis menyadari masih terdapat kekurangan dalam penyusunan karya ilmiah ini sehingga penulis mengharapkan saran dan kritik yang bersifat membangun dari pembaca untuk kesempurnaan karya ilmiah. Semoga karya ilmiah ini bisa bermanfaat bagi kita semua.

Bogor, Juni 2015

(11)

DAFTAR ISI

DAFTAR TABEL vi

DAFTAR GAMBAR vi

DAFTAR LAMPIRAN vi

PENDAHULUAN vi

Latar Belakang 1

Tujuan Penelitian 2

METODOLOGI 2

Sumber Data 2

Prosedur Analisis Data 3

HASIL DAN PEMBAHASAN 5

Deskripsi Data 5

Pohon Klasifikasi 6

Pembentukan Pohon Klasifikasi Optimum 6

Faktor-faktor yang Memengaruhi Usia Menarche 8

Pengaruh Batas Kategori Usia Menarche terhadap Ketepatan Klasifikasi 9

Bootstrap Aggregating (Bagging) 10

SIMPULAN 11

DAFTAR PUSTAKA 11

DAFTAR LAMPIRAN 12

(12)

DAFTAR TABEL

1 Peubah penjelas dalam penelitian 2

2 Hubungan antara banyaknya simpul terminal dan nilai relatif 7

3 Persentase ketepatan klasifikasi data 7

4 Persentase ketepatan klasifikasi pengkategorian baru 9 5 Nilai relatif dan ketepatan klasifikasi pada setiap replikasi bagging 10

DAFTAR GAMBAR

1 Sebaran frekuensi usia menarche 5

2 Sebaran frekuensi peubah penjelas pada setiap kategori 6

3 Pohon klasifikasi optimum 8

4 Diagram kotak-garis skor kepentingan peubah penjelas pada pohon

agregat 100 replikasi 10

DAFTAR LAMPIRAN

1 Pohon klasifikasi maksimal CART 12

2 Skor kepentingan peubah penjelas pada pohon klasifikasi tunggal CART 12 3 Aturan pengklasifikasian (rules) pohon agregat bagging dengan 100

(13)

PENDAHULUAN

Latar Belakang

Masa remaja merupakan masa transisi menuju dewasa yang terjadi pada usia 9 sampai 18 tahun. Sebelum memasuki masa remaja, seseorang akan mengalami periode pubertas terlebih dahulu. Tarwoto et al. (2010) dalam Safitri et al. (2014) menyatakan bahwa pada periode pubertas ini, seseorang mengalami percepatan pertumbuhan dan perkembangan fisik serta kematangan organ reproduksi seksual. Pada wanita, masa pubertas ditandai oleh pertumbuhan fisik yang cepat, menarche, perubahan psikologis, dan timbulnya ciri-ciri kelamin sekunder. Menarche adalah suatu periode menstruasi pertama bagi remaja putri. Menarche dianggap sebagai peristiwa yang penting karena menjadi puncak dari serangkaian perubahan remaja putri pada masa pubertas.

Tingkat usia menarche di Indonesia sangat bervariasi antara 10-16 tahun dengan rata-rata 12 tahun. Saat ini usia rata-rata menarche di Indonesia lebih cepat 0.145 tahun tiap dekade dan menempati urutan ke-15 dari 67 negara dengan usia menarche cepat (Hendrawati & Glinka 2003). Bagga dan Kulkarni (2000) membagi usia menarche menjadi tiga kategori yaitu kategori cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (≥ 14 tahun). Rosenthal (2009) dalam Safitri et al.

(2014) mengemukakan bahwa menarche yang terlalu cepat merupakan faktor risiko wanita terkena kanker payudara, obesitas abdominal, resistensi insulin, risiko penyakit kardiovaskular, dan hipertensi sedangkan menarche yang terlambat merupakan salah satu penyebab osteoporosis. Oleh karena itu, menarche

ideal merupakan hal yang penting untuk diperhatikan.

Cepat dan lambatnya usia menarche dipengaruhi oleh berbagai faktor. Aktivitas fisik yang berat dan teratur seperti renang, sepeda, dan lari maraton oleh remaja putri akan menunda usia menarche. Rosenthal (2009) dalam Safitri et al.

(2014) menyatakan bahwa para atlet putri dengan olahraga yang terlalu berat dapat mengalami amennorhea yaitu kondisi ketika wanita tidak akan mengalami menstruasi sama sekali. Selain itu, konsumsi makanan beragam dan bergizi seimbang juga memengaruhi terjadinya menarche. Asupan lemak, protein (hewani dan nabati), serat, dan kalsium berperan penting sebagai penentu usia menarche

remaja putri (Susanti 2012).

(14)

2

Tujuan Penelitian

Tujuan dari penelitian ini adalah:

1. Menentukan faktor-faktor yang memengaruhi usia menarche menggunakan pohon klasifikasi dengan algoritme Classification and Regression Trees

(CART).

2. Menerapkan prosedur bootstrap aggregating (bagging) untuk membangun pohon agregat.

METODOLOGI

Sumber Data

Data yang digunakan dalam penelitian ini adalah data primer hasil penelitian Sofya (2015) tentang pengaruh aktivitas fisik terhadap usia menarche. Jenis penelitian yang dilakukan yaitu penelitian survei analitik dengan rancangan cross sectional, yaitu mengukur peubah respons dan peubah penjelas dalam satu titik secara bersamaan pada bulan Desember 2014 di dua Sekolah Menengah Pertama Negeri (SMPN), yaitu SMPN Ragunan dan SMPN 1 Dramaga. Metode penarikan contoh yang digunakan yaitu purposive sampling dengan kriteria responden yaitu siswi yang telah mengalami menstruasi, berusia 9-14 tahun, dan memiliki status gizi normal.

Informasi usia menarche yang didapatkan adalah usia (tahun) pertama responden mengalami menstruasi. Akan tetapi, pada penelitian ini dilakukan pengkategorian usia menarche menjadi kategori cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (≥14 tahun) karena hasil pengkategorian akan lebih informatif daripada sebelum pengkategorian. Sementara itu, peubah penjelas yang digunakan ada empat yaitu jenis sekolah � , asupan lemak � , asupan protein � , dan asupan kalsium � . Informasi asupan lemak, protein, dan kalsium didapatkan melalui pengisian kuesioner Food Recall 24-hours, yaitu pencatatan jenis dan jumlah bahan makanan yang dikonsumsi pada periode 24 jam. Pencatatan tersebut dilakukan selama dua hari, yaitu satu hari kerja dan satu hari libur. Kebiasaan responden dalam mengkonsumsi makanan saat penelitian diasumsikan tidak berbeda dengan sebelum menarche karena waktu pelaksanaan penelitian tidak terlalu lama dengan saat responden mengalami menarche. Kategori setiap peubah penjelas yang digunakan dapat dilihat pada Tabel 1.

Tabel 1 Peubah penjelas dalam penelitian

No. Peubah penjelas Kategori

1 Jenis sekolah 1. Umum 2. Atlet

(15)

3 Prosedur Analisis Data

Tahapan-tahapan analisis yang dilakukan pada penelitian ini adalah:

1. Melakukan analisis statistika deskriptif terhadap data yang ada untuk mengetahui gambaran umum responden.

i. Membuat diagram sebaran frekuensi usia menarche untuk mengetahui gambaran umum usia menarche di SMPN Ragunan dan SMPN 1 Dramaga. ii. Membuat diagram sebaran frekuensi peubah penjelas untuk mengetahui

gambaran umum karakteristik responden berdasarkan peubah penjelas yang digunakan dalam penelitian.

2. Membangun pohon klasifikasi optimum dengan algoritme CART.

i. Membentuk pohon klasifikasi melalui tiga tahapan utama, yaitu pemilihan penyekat (classifier), penentuan simpul terminal, dan penandaan label kelas. Ketiga tahapan utama tersebut sebagai berikut (Breiman et al. 1993):

a. Aturan Penyekatan

Penyekatan yang dilakukan pada setiap simpul yaitu menentukan semua kemungkinan penyekat pada tiap peubah penjelas. Tiap penyekat bergantung pada nilai yang berasal dari satu peubah penjelas �. Jika peubah penjelas � bersifat kontinu, penyekatan yang mungkin yaitu � < �, dengan

� adalah nilai tengah antara dua nilai amatan peubah � secara berurutan. Sehingga apabila � memiliki nilai amatan yang berbeda, akan ada penyekatan sebanyak − . Jika peubah penjelas bersifat kategorik dengan �kategori, akan ada sebanyak �− − kemungkinan penyekatan untuk peubah penjelas kategorik nominal dan sebanyak � − kemungkinan penyekatan untuk peubah kategorik ordinal.

Penyekatan simpul ditentukan dengan memilih penyekat yang menghasilkan penurunan keheterogenan paling tinggi. Ukuran keheterogenan ini diukur menggunakan nilai impuritas indeks Gini. Nilai indeks Gini pada simpul , , dapat dituliskan sebagai berikut:

= − ∑ � |

dengan � | adalah peluang unit pengamatan dalam kelas ke- dari simpul . Kebaikan penyekat ( ) pada simpul didefinisikan sebagai penurunan impuritas ∆ , yaitu:

∆ , = − �� � − �

dengan � adalah peluang pengamatan pada simpul kiri, adalah nilai impuritas simpul ke- kiri, � adalah peluang pengamatan pada simpul kanan, dan adalah nilai impuritas simpul ke- kanan. Penyekat terbaik adalah penyekat yang memiliki nilai kebaikan penyekat terbesar, yaitu:

∆ ∗, = ��

�∈ ∆ ,

(16)

4

b. Pemilihan Simpul Akhir atau Simpul Terminal

Simpul terminal adalah simpul yang sudah tidak disekat lagi oleh suatu peubah penjelas. Suatu simpul t akan menjadi simpul terminal apabila simpul tersebut memenuhi salah satu kriteria berikut: tidak terdapat penurunan keheterogenan yang berarti pada penyekatan simpul, hanya ada satu pengamatan ( = dalam tiap simpul anak atau adanya batasan minimum pengamatan tertentu, dan adanya batasan jumlah level atau tingkat kedalaman pohon maksimal. Batas minimum pengamatan pada penelitian ini yaitu 1 amatan karena data yang digunakan kecil.

c. Penandaan Label Kelas banyaknya amatan kelas j.

ii. Melakukan pemangkasan terhadap pohon klasifikasi untuk membuang sub pohon yang dianggap tidak berarti. Ukuran pemangkasan yang digunakan adalah cost complexity minimum dengan fungsi sebagai berikut:

�� � = � � + �|�̃|

�� � adalah nilai relatif resubstitution suatu sub pohon �, � � adalah

nilai kesalahan klasifikasi resubstitution pada sub pohon � , �|�̃|

menunjukkan ukuran kompleksitas oleh penambahan suatu simpul terminal pada sub pohon�, dan|�̃|adalah himpunan simpul terminal pada sub pohon

�. Nilai relatif adalah nilai yang dikorbankan dari proses pemangkasan suatu

pohon menjadi sub pohon yang berukuran lebih kecil. Sub pohon � yang memiliki nilai relatif paling kecil, yaitu � � = min � � dipilih

menjadi pohon optimum.

iii.Memilih pohon klasifikasi optimum, yaitu sub pohon hasil pemangkasan yang memiliki nilai relatif validasi silang paling kecil. Nilai relatif ini didapatkan dari penerapan prosedur validasi silang lipat V (cross validation V-fold). Nilai V standar yang digunakan adalah 10 (cross validation 10-fold) namun untuk data yang berukuran kecil bisa digunakan fold yang lebih rendah (Timofeev 2004), sehingga pada penelitian ini digunakan validasi silang lipat 5.

iv.Melakukan validasi model untuk mengetahui ketepatan pohon klasifikasi dalam memprediksi data baru. Prosedur validasi model yang digunakan yaitu validasi silang lipat 5. Validasi silang lipat 5 dibentuk dengan membagi n amatan data learning secara acak menjadi 5 subset data berukuran relatif sama. Sebanyak 4 subset data digunakan sebagai data

(17)

5 3. Membangun pohon agregat menggunakan prosedur bootstrap aggregating

(bagging). Proses bagging dapat digunakan untuk mengurangi kesalahan klasifikasi yang dihasilkan oleh pohon tunggal (Hastie et al. 2008). Selain itu, Breiman (1996) menyatakan bahwa pada banyak gugus data yang dicoba,

bagging mampu mengurangi tingkat kesalahan klasifikasi. Tahapan-tahapan dalam pembentukan pohon agregat prosedur bagging yaitu:

i. Menarik sampel berukuran dari gugus data learning tanpa pengembalian (resampling bootstrap) kemudian dibangun pohon klasifikasi terbaik berdasarkan data yang didapatkan.

ii. Lakukan langkah i sebanyak kali untuk mendapat buah pohon.

iii.Melakukan pendugaan gabungan berdasarkan buah pohon tersebut menggunakan majority vote.

iv.Mendapatkan ketepatan klasifikasi rata-rata dari buah pohon yang didapatkan pada langkah iv.

v. Nilai yang digunakan yaitu 10, 25, 50, 100, dan 125. Hal ini berdasarkan pernyataan Sutton (2005) bahwa bagging umumnya menunjukkan hasil yang baik dengan 100 pohon, namun disarankan untuk melakukan bagging

dari replikasi yang rendah. Jika saat replikasi rendah bagging kurang bekerja dengan baik, bagging dilakukan dengan replikasi hingga 100 atau bahkan lebih.

vi.Melakukan validasi model menggunakan prosedur validasi silang lipat 5 terhadap model pengklasifikasian bagging dengan replikasi yang memberikan hasil paling baik. Prosedur validasi silang yang dilakukan sama dengan validasi pohon tunggal CART pada poin 2. Hasil akhir yang didapatkan adalah ketepatan klasifikasi pohon agregat dalam memprediksi data baru.

HASIL DAN PEMBAHASAN

Deskripsi Data

Remaja putri yang menjadi responden dalam penelitian ini adalah 40 orang, terdiri dari 16 siswi SMPN Ragunan dan 24 siswi SMPN 1 Dramaga. Gambar 1 menunjukkan sebaran usia menarche setiap remaja putri yang menjadi responden. Berdasarkan pengkategorian yang digunakan, yaitu cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (≥ 14 tahun), terdapat 7 orang siswi yang mengalami

menarche cepat, 29 siswi menarche ideal, dan sisanya 4 siswi menarche lambat.

(18)

6

Sebaran setiap peubah penjelas pada penelitian ini dapat dilihat di Gambar 2. Remaja putri yang mengalami menarche cepat didominasi oleh siswi SMPN 1 Dramaga dengan asupan lemak berlebih, asupan kalsium dan protein kurang sedangkan remaja putri yang mengalami menarche lambat didominasi oleh siswi SMPN Ragunan dengan asupan kalsium kurang, asupan lemak dan protein berlebih. Remaja putri yang mengalami menarche ideal didominasi oleh siswi yang berasal baik dari SMPN Ragunan maupun SMPN 1 Dramaga dengan asupan lemak, kalsium, dan proteinnya kurang dan berlebih.

Pohon Klasifikasi

Pembentukan Pohon Klasifikasi Optimum

Metode CART dengan peubah respons kategorik akan menghasilkan pohon keputusan berupa pohon klasifikasi. Pohon klasifikasi yang optimum adalah sub pohon yang memiliki nilai relatif paling kecil diantara sub pohon lainnya. Adapun yang dimaksud dengan nilai relatif adalah nilai yang dikorbankan dari proses pemangkasan suatu pohon menjadi sub pohon yang berukuran lebih kecil. Nilai relatif resubstitution didapatkan dari pengklasifikasian seluruh set data awal sedangkan nilai relatif validasi silang didapatkan dari pengklasifikasian data validasi menggunakan teknik validasi silang lipat 5.

Kriteria nilai relatif validasi silang mampu memberikan hasil yang lebih optimal dibandingkan dengan kriteria nilai relatif resubstitution. Hal ini dikarenakan nilai relatif resubstitution selalu berkurang seiring dengan meningkatnya ukuran pohon, sehingga pohon optimum yang akan dipilih adalah pohon yang berukuran paling maksimal yaitu pohon yang memberikan nilai relatif paling kecil. Namun, di sisi lain pohon maksimal (Lampiran 1) akan menyebabkan nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung kompleks. Oleh karena itu, diperlukan teknik pemangkasan untuk mendapatkan pohon yang berukuran sederhana namun memberikan hasil pengujian yang akurat, salah satunya yaitu menggunakan kriteria nilai relatif validasi silang.

Gambar 2 Sebaran frekuensi peubah penjelas pada setiap kategori 0

5 10 15 20

Kurang Cukup Lebih Kurang Cukup Lebih Kurang Cukup Lebih Umum Atlet

Lemak kalsium Protein Sekolah

(19)

7 Tabel 2 menunjukkan bahwa pohon klasifikasi dengan enam simpul terminal memiliki nilai relatif validasi silang paling kecil sehingga pohon tersebut dipilih sebagai pohon klasifikasi optimum. Struktur pohon klasifikasi optimum ini dapat dilihat pada Gambar 3.

Penurunan nilai impuritas atau nilai kebaikan penyekat yang digunakan dalam penelitian ini adalah indeks Gini, yaitu menentukan kemungkinan penyekatan dari semua kombinasi peubah penjelas. Penurunan impuritas juga diistilahkan sebagai improvement. Peubah penjelas yang memiliki nilai

improvement paling tinggi pada suatu simpul akan dipilih sebagai penyekat simpul tersebut. Pemilihan penyekatan ini dilakukan secara terus menerus hingga mencapai simpul terminal. Peubah jenis sekolah merupakan simpul induk yang menjadi penyekat pertama, hal ini menunjukkan bahwa jenis sekolah yaitu sekolah atlet dan sekolah umum merupakan peubah penjelas yang paling dominan dalam pembentukan pohon klasifikasi.

Ketepatan klasifikasi pohon optimum dapat dilihat pada Tabel 3. Pohon klasifikasi optimum yang diperoleh memiliki nilai ketepatan klasifikasi

resubstitution sebesar 60%. Artinya bahwa pohon klasifikasi optimum mampu mengklasifikasikan remaja putri ke dalam kategori usia menarche (cepat, ideal, dan lambat) dengan tepat sebesar 60%.

Keakurasian pohon tunggal CART dalam memprediksi data baru ditunjukkan melalui ketepatan klasifikasi validasi silang lipat 5. Ketepatan klasifikasi validasi ini adalah rata-rata ketepatan klasifikasi dari lima kali pengulangan prosedur validasi yaitu 75.00%, 37.50%, 50.00%, 75.00%, dan 62.50%. Oleh karena itu, ketepatan klasifikasi validasi yang didapatkan adalah 60%. Ini berarti bahwa keakurasian pohon tunggal CART dalam memprediksi data baru adalah 60%. Lima nilai ketepatan klasifikasi pada prosedur validasi tersebut berbeda-beda untuk setiap data learning yang digunakan. Hal ini menunjukkan bahwa hasil pohon tunggal CART masih belum stabil.

Tabel 2 Hubungan antara banyaknya simpul terminal dan nilai relatif Banyaknya

Tabel 3 Persentase ketepatan klasifikasi data

(20)

8

Faktor-faktor yang Memengaruhi Usia Menarche

Peubah penjelas yang muncul pada pohon klasifikasi optimum (Gambar 3) merupakan peubah-peubah yang berpengaruh terhadap nilai peubah respons. Pada penelitian ini, keempat peubah penjelas yang digunakan muncul pada pohon optimum. Oleh karena itu, peubah-peubah yang memengaruhi usia menarche

remaja putri di SMPN Ragunan dan SMPN 1 Dramaga berdasarkan urutan kepentingannya adalah jenis sekolah, asupan protein, asupan kalsium, dan asupan lemak (Lampiran 2).

Jenis sekolah merupakan peubah yang menjadi penyekat pertama, artinya bahwa jenis sekolah yaitu sekolah atlet dan sekolah umum merupakan faktor yang paling dominan dalam pembentukan pohon klasifikasi. Kemudian untuk mengetahui karakteristik atau peubah penciri dari setiap kategori usia menarche, dapat dilihat melalui interpretasi simpul terminal yang didapatkan. Remaja putri yang mengalami menarche cepat yaitu remaja putri yang sekolah di sekolah umum dan asupan proteinnya cukup dan kurang. Remaja putri yang mengalami

menarche lambat yaitu remaja putri yang sekolah di sekolah atlet, asupan kalsiumnya kurang, dan asupan lemaknya berlebih. Sementara itu, remaja putri yang mengalami menarche ideal yaitu remaja putri yang berasal dari sekolah atlet dengan asupan lemaknya kurang dan cukup, serta remaja putri yang berasal dari sekolah umum dengan asupan lemaknya kurang dan cukup.

(21)

9 Pengaruh Batas Kategori Usia Menarche terhadap Ketepatan Klasifikasi

Remaja putri yang aktualnya dikategorikan ideal namun diprediksi cepat ada sebanyak 14 orang (Tabel 3). Hal ini menyebabkan ketepatan klasifikasi keseluruhan yang didapatkan hanya 60%. Besarnya nilai ketepatan klasifikasi ini mungkin saja dipengaruhi oleh aturan pengkategorian usia menarche yang digunakan. Pengkategorian awal yang digunakan yaitu kategori cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (≥ 14 tahun). Penetapan batas usia ini mungkin saja telah mengalami pergeseran karena usia menarche di Indonesia lebih cepat 0.145 tahun tiap dekade. Oleh karena itu, pada penelitian ini dibentuk pohon klasifikasi optimum menggunakan pengkategorian baru dengan mempertimbangkan fakta tersebut. Berdasarkan pengkategorian baru ini, remaja putri yang mengalami menarche pada usia 11 tahun tidak lagi dikategorikan cepat namun dikategorikan ideal, sehingga pengkategorian baru yang digunakan yaitu cepat* (9-10 tahun), ideal* (11-13 tahun), dan lambat* (≥ 14 tahun).

Pohon klasifikasi optimum menggunakan pengkategorian baru memiliki ketepatan klasifikasi sebesar 77.50% (Tabel 4). Peubah penjelas yang paling dominan berdasarkan pengkategorian baru ini sama dengan pengkategorian awal, yaitu jenis sekolah. Selain itu, ketiga peubah penjelas lainnya yaitu asupan kalsium, lemak, dan protein juga muncul pada pohon optimum, sehingga faktor-faktor yang memengaruhi usia menarche di SMPN Ragunan dan SMPN 1 Dramaga berdasarkan pengkategorian baru sama dengan pengkategorian awal yaitu jenis sekolah, asupan kalsium, asupan lemak, dan asupan protein.

Meskipun pohon klasifikasi optimum menggunakan pengkategorian baru memberikan hasil yang lebih baik, data dengan pengkategorian baru ini tidak dapat digunakan untuk analisis lebih lanjut yaitu validasi silang dan bagging. Hal ini dikarenakan hanya terdapat satu observasi pada kategori usia menarche cepat*. Oleh karena itu, prosedur bagging tetap menggunakan pengkategorian awal. Namun, hasil dari pengkategorian baru ini dapat digunakan untuk menunjukkan adanya kemungkinan pergeseran usia menarche yang terjadi di SMPN Ragunan dan SMPN 1 Dramaga. Hasilnya adalah penetapan pengkategorian awal memiliki ketepatan klasifikasi yang lebih rendah dibandingkan dengan pengkategorian baru, sehingga ada kemungkinan bahwa telah terjadi pergeseran usia menarche

khususnya di SMPN Ragunan dan SMPN 1 Dramaga.

Tabel 4 Persentase ketepatan klasifikasi pengkategorian baru

(22)

10

Bootstrap Aggregating (Bagging)

Prosedur bagging dapat digunakan untuk meningkatkan keakurasian pendugaan pohon tunggal CART. Nilai relatif dan ketepatan klasifikasi pada pohon tunggal optimum masing-masing adalah 0.28 dan 60.00%. Setelah dibentuk pohon agregat bagging dengan berbagai versi replikasi, nilai relatifnya menjadi lebih kecil dan ketepatan klasifikasinya menjadi lebih besar dibandingkan dengan hasil pohon tunggal CART (Tabel 5). Bagging dengan 100 replikasi merupakan

bagging paling optimum karena memiliki ketepatan klasifikasi paling besar dan nilai relatif paling kecil diantara replikasi lainnya yaitu masing-masing sebesar 77.06% dan 0.18.

Gambar 4 menunjukkan skor kepentingan peubah-peubah penjelas pada pembentukan pohon agregat 100 replikasi. Sama halnya dengan pohon klasifikasi tunggal CART, pada pohon agregat 100 replikasi, jenis sekolah merupakan faktor yang paling dominan dalam memengaruhi kategori usia menarche di SMPN Ragunan dan SMPN 1 Dramaga. Beberapa aturan pengklasifikasian (rules) yang dihasilkan prosedur bagging dengan 100 replikasi dapat dilihat pada Lampiran 3.

Keakurasian pohon agregat dalam memprediksi data baru ditunjukkan melalui hasil validasi silang lipat 5. Prosedur validasi dilakukan terhadap pohon agregat paling optimum, yaitu pohon agregat 100 replikasi. Ketepatan klasifikasi dari setiap pengulangan validasi adalah 50.00%, 62.50%, 62.50%, 62.50%, dan 75.00%, sehingga ketepatan klasifikasi akhir validasi adalah 62.50% yang merupakan rata-rata dari kelima nilai ketepatan klasifikasi tersebut. Ketepatan klasifikasi validasi silang lipat 5 pohon agregat ini lebih besar dibandingkan dengan pohon klasifikasi tunggal CART. Oleh karena itu, pada penelitian ini pohon agregat menggunakan prosedur bagging mampu meningkatkan keakurasian pendugaan pohon tunggal CART.

Tabel 5 Nilai relatif dan ketepatan klasifikasi pada setiap replikasi bagging

Replikasi Nilai relatif Ketepatan klasifikasi

10 0.22 75.00%

25 0.19 76.80%

50 0.18 76.95%

100 0.18 77.06%

125 0.19 77.00%

(23)

11

SIMPULAN

Jenis sekolah, asupan lemak, asupan kalsium, dan asupan protein merupakan peubah-peubah yang efektif dalam memprediksi kategori usia

menarche remaja putri di SMPN Ragunan dan SMPN 1 Dramaga. Nilai ketepatan klasifikasi berdasarkan prosedur validasi silang lipat 5 pada pohon tunggal CART adalah 60% sedangkan pada pohon agregat dengan 100 replikasi adalah 62.50%. Hal ini menunjukkan bahwa pada penelitian ini prosedur bootstrap aggregating

(bagging) mampu meningkatkan keakurasian pendugaan pohon klasifikasi tunggal CART dari 60.00% menjadi 62.50%.

DAFTAR PUSTAKA

Bagga A, Kulkarni S. 2000. Age at menarche and secular trend in Maharashtrian (Indian) girls. Submitted to Acta Biologica Szegediensis: India. 44(1): 53-57. Breiman L, Friedman JH, Olshen RA, Stone CJ. 1993. Classification and

Regression Trees. New York (US): Champan and Hall.

Breiman L. 1996. Bagging predictors. Machine Learning. 24(1): 123-140.

Hastie TJ, Tibshirani RJ, Friedman JH. 2008. The Elements of Statistical Learning: Data-mining, Inference and Prediction. Ed ke-2. New York (US): Springer-Verlag.

Hendrawati, Glinka J. 2003. Age at menarche in Indonesia. Submitted to Folia Medica Indonesiana: Journal of Airlangga University. 39(1): 18-21.

Safitri D, Arneliawati, Erwin. 2014. Analisis indikator gaya hidup yang berhubungan dengan usia menarche remaja putri. Jurnal Universitas Riau.

1(2): 1-8.

Sofya, SNY. 2015. Hubungan aktivitas fisik dengan usia menarche pada remaja putri atlet dan non atlet [skripsi]. Bogor (ID): Institut Pertanian Bogor. Susanti AV. 2012. Faktor risiko kejadian menarche dini pada remaja di SMPN 30

Semarang. Journal of Nutrition College. 1(1): 386–407.

Sutton CD. 2005. Classification and Regression Trees, bagging, and boosting.

Handbook of Statistics. 24(1): 303-329.doi: 10.1016/S0169-7161(04)24011-1.

(24)

12

DAFTAR LAMPIRAN

Lampiran 1 Pohon klasifikasi maksimal CART

Lampiran 2 Skor kepentingan peubah penjelas pada pohon klasifikasi tunggal CART

Peubah penjelas Score

(25)

13 Lampiran 3 Aturan pengklasifikasian (rules) pohon agregat bagging dengan 100

replikasi pada pohon ke-1, 2, 3, 98, 99, dan 100 Pohon 1

if((SEKOLAH == ATLET) && KALSIUM <= 1 && LEMAK <= 2){terminalNode = 1; class = IDEAL;}

if((SEKOLAH == ATLET) && KALSIUM <= 1 && LEMAK > 2){terminalNode = 2; class = LAMBAT;}

if((SEKOLAH == ATLET) && KALSIUM > 1){terminalNode = 3;class = IDEAL;}

if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK <= 1){terminalNode = 4; class = CEPAT;}

if((SEKOLAH == UMUM) && KALSIUM <= 2 && LEMAK > 1 && LEMAK <= 2){ terminalNode = 5; class = IDEAL;}

if((SEKOLAH == UMUM) && KALSIUM <= 2 && LEMAK > 2 ){terminalNode = 6; class = CEPAT;}

if((SEKOLAH == UMUM ) && KALSIUM > 2){ terminalNode = 7; class = IDEAL;}

Pohon 2

if((SEKOLAH == ATLET ) && KALSIUM <= 1){terminalNode = 1;class = LAMBAT;} if((SEKOLAH == ATLET) && KALSIUM > 1){terminalNode = 2; class = IDEAL;}

if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK <= 1 && PROTEIN <= 2){terminalNode = 3;class = CEPAT;}

if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK <= 1 && PROTEIN > 2){ terminalNode = 4; class = IDEAL;}

if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK > 1 && LEMAK <= 2){ terminalNode = 5; class = IDEAL;}

if(( SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK > 2){terminalNode = 6; class = CEPAT;}

if(( SEKOLAH == UMUM ) && KALSIUM > 2 ){terminalNode = 7;class = IDEAL;}

Pohon 3

if((SEKOLAH == ATLET ) && KALSIUM <= 1){terminalNode = 1;class = LAMBAT;} if((SEKOLAH == ATLET ) && KALSIUM > 1){terminalNode = 2;class = IDEAL;} if((SEKOLAH == UMUM ) && LEMAK <= 2){terminalNode = 3;class = IDEAL;} if((SEKOLAH == UMUM ) && LEMAK > 2){terminalNode = 4;class = CEPAT;}

... Pohon 98

if((SEKOLAH == ATLET ) && KALSIUM <= 2){terminalNode = 1;class = LAMBAT;} if((SEKOLAH == ATLET ) && KALSIUM > 2){terminalNode = 2;class = IDEAL;}

if((SEKOLAH == UMUM ) && LEMAK <= 1 && PROTEIN <= 2 ){terminalNode = 3; class = CEPAT;}

if((SEKOLAH == UMUM ) && LEMAK <= 1 && PROTEIN > 2){terminalNode = 4;class = IDEAL;} if((SEKOLAH == UMUM ) && LEMAK > 1 && LEMAK <= 2){terminalNode = 5;class = IDEAL;} if((SEKOLAH == UMUM ) && LEMAK > 2){terminalNode = 6;class = CEPAT;}

Pohon 99

if(LEMAK <= 2){terminalNode = 1;class = IDEAL;}

if((SEKOLAH == ATLET ) && LEMAK > 2 && KALSIUM <= 1){terminalNode = 2;class = LAMBAT;}

if((SEKOLAH == ATLET ) && LEMAK > 2 && KALSIUM > 1){terminalNode = 3;class = IDEAL;} if((SEKOLAH == UMUM ) && LEMAK > 2){terminalNode = 4; class = CEPAT;}

Pohon 100

if((SEKOLAH == ATLET ) && KALSIUM <= 2 && LEMAK <= 2){terminalNode = 1; class = IDEAL;}

if((SEKOLAH == ATLET ) && KALSIUM <= 2 && LEMAK > 2){terminalNode = 2; class = LAMBAT;}

(26)

14

RIWAYAT HIDUP

Penulis dilahirkan di Ciamis pada tanggal 13 September 1992 dari pasangan Bapak Somad dan Ibu Sopiah. Penulis merupakan anak kedua dari tiga bersaudara.

Pada tahun 2005 penulis lulus dari SD Negeri 1 Sukahurip, kemudian melanjutkan studi di MTs Negeri Pamarican hingga tahun 2008. Selanjutnya penulis menyelesaikan pendidikannya di SMA Negeri 2 Ciamis dan lulus pada tahun 2011. Pada tahun yang sama penulis diterima IPB melalui jalur SNMPTN Undangan sebagai mahasiswa Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam. Selain itu, penulis mendapatkan beasiswa Bidikmisi dari Kementrian Pendidikan dan Kebudayaan Republik Indonesia tahun 2011-2015.

Gambar

Tabel 2 Hubungan antara banyaknya simpul terminal dan nilai relatif
Gambar 3 Pohon klasifikasi optimum

Referensi

Dokumen terkait

Dari hasil simulasi Band Pass Filter mikrostrip menggunakan metode open stub sesuai dengan spesifikasi yang diinginkan dengan melakukan beberapa kali optimasi pada simulasi

Metode yang digunakan dalam analisis kadar pH darah adalah pengukuran menggunakan pH meter dari serum darah Rattus norvegicus yang diperlakukan dengan dosis asupan teh

Faktor yangg menjadi pendukung humas dalam menyebarkan informasi kepada masyarakat bisa dikategorikan dalam empat hal, yaitu adanya sikap dan sifat rasa saling percaya

Berdasarkan latar belakang masalah diatas, maka perumusan masalah dalam penelitian ini adalah apakah Tingkat Kesadaran Wajib Pajak, Tingkat Pemahaman Wajib Pajak, serta

Wayah Langit Sumirat. ROGERS PADA PENGOBATAN TRADISIONAL SANGKAL PUTUNG DI DESA SROYO KECAMATAN JATEN KABUPATEN KARANGANYAR. Skripsi, Surakarta: Fakultas Keguruan dan

pengarsipan dapat lebih terorganisasi dengan baik dan rapi 250.000 Rp d. 10.000,-) terakomodasinya keperluan barang pembatas file demi mendukung kinerja bagian

Perlakuan kipas berkecepatan tinggi tanpa pembalikan rak mengalami penurunan laju pengeringan yang tajam pada menit ke-150, kemudian meningkat lagi setelah menit ke 180

Berdasarkan hasil refleksi yang mengacu pada pengamatan dalam pelaksanaan tindakan kelas melalui proses pembelajaran pertemuan 1 dan 2 maka hal-hal yang perlu