Karakteristik Hadoop Multi-Node pada Server terhadap Data Besar.

(1)

v

Universitas Kristen Maranatha

ABSTRAK

Big Data dianggap sebagai solusi untuk pertumbuhan data yang sangat pesat, salah satu

aplikasi yang menerapkan hal ini adalah Hadoop. Maka akan dilakukan pengujian terhadap Hadoop untuk membuktikan apakah Hadoop adalah solusi yang tepat, dengan melakukan percobaan pada 1 server master dan 2 server slave dengan jaringan local dan dilakukan pada server Linux Ubuntu yang berjalan pada Virtual Box. Lalu akan dilakukan percobaan stabilitas Hadoop dan waktu transfer data pada saat kondisi stabil maupun diberi gangguan yang berulang dengan menggunakan 3 file dengan ukuran 800MB, 1.2GB dan 2GB. Selanjutnya akan dilakukan pengukuran kecepatan penyebaran data berupa lamanya waktu yang dibutuhkan dan beban pada processor dan ram, sehingga akan didapatkan karakteristik dari Hadoop tersebut. Hasil yang didapat berupa data yang disebar merupakan block data yang memiliki ukuran default 128MB per block dan META data dan saat data gagal dikirim karena gangguan akan dikirim ulang beberapa saat kemudian, beban processor dan ram yang didapat pun beragam. Dengan adanya analisis terhadap Hadoop diharapkan dapat menjadi solusi di masa depan untuk menggantikan teknologi yang ada saat ini.

(2)

vi

ABSTRACT

Big Data has been considered to be a solution for rapid data growth. One of Big Data applications is Hadoop. This final project is to test Hadoop is the right solution, the experiments is attempt on one master server and two slave server with local network and running on Ubuntu Linux server on a Virtual Box. Then the test conducted stability of Hadoop and data transfer time when in a stable condition and were given repeated interference by using 3 files with a size of 800MB, 1.2MB and 2GB. Next will be the measurement of the speed time of the data spread and the load on the processor and ram, so will obtain the characteristics of Hadoop. Results of distributed data is the default data block size of 128MB per block and META data and when the data failed to post because the interference will be reissued a few moments later, the load on processor and ram obtained also varied. With the analysis of Hadoop is expected to be a solution in the future to replace the technology that exists today.

(3)

vii

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALISTAS LAPORAN PENELITIAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENELITIAN ... iii

PRAKATA ... iv

ABSTRAK ... v

ABSTRACT ... vi

DAFTAR ISI ... vii

DAFTAR GAMBAR ... ix

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 1

1.3 Tujuan Pembahasan ... 2

1.4 Ruang Lingkup ... 2

1.5 Metodologi Penelitian ... 2

1.6 Sistematika Laporan ... 3

BAB 2 DASAR TEORI ... 4

2.1 Big Data ... 4

2.2 Hadoop Single-Node ... 6

2.3 Hadoop Multi-Node ... 7

2.4 Map Reduce ... 8

2.5 Hadoop Distributed File System (HDFS) ... 8

2.6 OpenSSH ... 10

2.7 Cacti ... 11

(4)

viii

2.9 Algoritama FIFO (First In First Out) ... 11

2.10 Penelitian Terkait ... 12

BAB 3 ANALISA DAN PEMODELAN ... 15

3.1 Perancangan ... 15

3.2 Skenario Percobaan ... 15

BAB 4 IMPLEMENTASI ... 18

4.1 Add Lookup Library ... 18

4.2 Konfigurasi SSH ... 18

4.3 Konfigurasi Hadoop ... 19

BAB 5 PENGUJIAN ... 26

5.1 Pengujian Skenario Pertama ... 26

5.2 Pengujian Skenario Kedua ... 27

5.3 Pengujian Skenario Ketiga ... 29

BAB 6 SIMPULAN DAN SARAN ... 32

6.1 Simpulan ... 32

6.2 Saran ... 32

DAFTAR PUSTAKA ... 33

LAMPIRAN A DATA PERCOBAAN ... A-1

(5)

ix

DAFTAR GAMBAR

Gambar 2.1 Definisi Big Data menurut IBM... 4

Gambar 2.2 Gambaran 3V Big Data ... 5

Gambar 2.3 Gambaran 4 Dimensi Big Data ... 6

Gambar 2.4 Arsitektur Hadoop Single-Node [3] ... 7

Gambar 2.5 Arsitektur Hadoop Multi-Node [3] ... 7

Gambar 2.6 Proses Penyerahan Job dari Client ke MapReduce ... 8

Gambar 2.7 Komponen HDFS ... 9

Gambar 2.8 NameNode pada HDFS ... 9

Gambar 2.9 Interaksi antara Datanode dan NameNode ... 10

Gambar 2.10 Ilustrasi FIFO ... 12

Gambar 2.11 Data dan Hasil Rata-Rata Penelitian UI ... 13

Gambar 2.12 Hasil Penelitian Universitas Kristen Petra ... 14

Gambar 3.1 Rancangan Percobaan ... 15

Gambar 3.2 Ilustrasi Timing ... 16

Gambar 4.1 Konfigurasi nsswitch.conf ... 18

Gambar 4.2 Konfigurasi .bashrc ... 19

Gambar 4.3 Konfigurasi Hadoop-env.sh ... 20

Gambar 4.4 Konfigurasi core-site.xml ... 21

Gambar 4.5 Konfigurasi mapred-site.xml ... 22

Gambar 4.6 Konfigurasi hdfs-site.xml ... 23

Gambar 4.7 Konfigurasi yarn-site.xml... 24

Gambar 4.8 Service Pada Master ... 25

Gambar 5.1 Log pada Server Master ... 26

Gambar 5.2 Data dan Hasil Rata-Rata Pemrosesan Data Dengan Block Size 128 MB ... 27

Gambar 5.3 Data dan Hasil Rata-Rata Saat Diberi Gangguan... 28

Gambar 5.4 Perintah Mengubah Ukuran Block Size ... 30

(6)

1

BAB 1

PENDAHULUAN

1.1Latar Belakang

Pada awalnya Big Data adalah sebuah teknologi yang diperkenalkan untuk menanggulangi perkembangan data dan informasi yang semakin pesat, makin bertambahnya pengguna perangkat mobile dan internet di seluruh dunia sangat mempengaruhi perkembangan volume dan jenis data yang terus bertambah.

Kemunculan Big Data tersebut dipandang sebagai solusi dari pertmbuhan data yang sangat signifikan dari waktu ke waktu yang terus melampaui batas kemampuan media penyimpanan maupun sistem database yang ada saat ini. Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang menawarkan ruang tak terbatas, serta kemampuan untuk mengakodasi dan memproses berbagai jenis data dengan sangat cepat.

Salah satu aplikasi yang menerapkan Big Data tersebut adalah Hadoop, eksistensi Hadoop sudah diakui oleh perusahaan-perusahaan besar di dunia bahkan menggunakan Hadoop sebagai fondasi dasar aplikasi mereka, seperti Microsoft Azure, Google, Facebook, Twitter dan lainnya.

Sumber referensi yang masih sangat minim dan didukung dengan fakta perusahaan besar sudah mulai menggunakan Big Data tersebut, maka akan dilakukan pengujian terhadap pernyataan pembuat aplikasi Hadoop untuk membuktikan kehandalan aplikasi tersebut dalam menangani data. Diperlukan percobaan untuk mengetahui apakah data dapat dikirim melalui perangkat jaringan lalu mengukur kecepatan dalam pengiriman dan penerimaan data, kemudian ketika hal-hal buruk terjadi beberapa kemungkinan dapat terjadi seperti data tiba-tiba corrupt ataupun hilang.

1.2Rumusan Masalah

Rumusan masalah yang didapatkan adalah sebagai berikut :

1. Bagaimana pengaruh ukuran besar file terhadap waktu saat perpindahan data?

2. Bagaimana karakteristik penyebaran data dari master menuju slave?

(7)

2

1.3Tujuan Pembahasan

Tujuan pembahasan yang didapat dari rumusan masalah adalah sebagai berikut :

1. Mengamati pengaruh ukuran besar file terhadap waktu pengiriman ke slave. 2. Mengamati karakteristik pengaturan penyebaran file saat diberi gangguan. 3. Mengamati dan mengukur besar block data yang dikirim ke slave berdasar

konfigurasi pada server.

1.4Ruang Lingkup

Agar tidak menyimpang dari tujuan yang semula direncanakan, maka ditetapkan batasan-batasan sebagai berikut :

1. Perancangan Hadoop dari instalasi, setting hingga percobaan data hanya dilakukan pada server dengan metode multi-node.

2. Percobaan kepada slave akan dilakukan saat slave sudah siap untuk

5. Aplikasi Hadoop akan digunakan pada infrastruktur Ubuntu versi 14.04 LTS(Trusty Tahr) dan berjalan pada Virtual Box Versi 5.0.0 dengan spesifikasi processor one core, ram 768MB.

6. Data yang digunakan untuk percobaan terbatas pada data yang berukuran antara 800MB(MegaByte) hingga 2GB(GigaByte) dan dapat berbentuk text, foto maupun video.

7. Konfigurasi block size dilakukan pada tiga size berbeda 64MB, 128MB, dan 256MB.

1.5Metodologi Penelitian

(8)

3

Universitas Kristen Maranatha dengan minimal 3 PC(Personal Computer) dengan spesifikasi yang sama, sehingga pada akhirnya dapat ditarik kesimpulan seberapa cepat dan beban terhadap processor maupun ram.

1.6Sistematika Laporan

Dalam proses penyusunan laporan, sistematika penulisan yang akan digunakan adalah sebagai berikut:

BAB I PENDAHULUAN

Bab ini dijelaskan latar belakang, rumusan masalah, tujuan pembahasan, batasan masalah, metodologi penelitian dan sistematika laporan pada penelitian ini.

BAB II DASAR TEORI

Bab ini akan dijelaskan teori-teori yang menunjang percobaan yang dilakukan.

BAB III ANALISA DAN PEMODELAN

Bab ini akan dijelaskan mengenai rancangan topologi dari sistem Hadoop yang dibuat beserta detail skenario yang hendak dilakukan.

BAB IV HASIL IMPLEMENTASI

Bab ini menjelaskan konfigurasi yang dibutuhkan sistem Hadoop. BAB V PENGUJIAN

Bab ini menjelaskan hasil pengujian dan analisis untuk seluruh skenario yang terdapat pada bab 3.

BAB VI SIMPULAN DAN SARAN

(9)

32

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

Dari percobaan yang dilakukan, maka dapat ditarik simpulan sebagai berikut:

1. Penambahan ukuran file berpengaruh terhadap kecepatan pembagian data, penambahan ukuran file sebanyak 400MB memberikan waktu kurang lebih 1 menit 2 detik dan penambahan ukuran file sebanyak 800MB memberikan waktu kurang lebih 2 menit 2 detik.

2. Timing terjadi gangguan berpengaruh terhadap proses Hadoop dalam mengolah dan pembagian data, jadi meskipun terjadi gangguan saat proses data tidak akan terjadi error, apabila terjadi error sistem Hadoop akan memindahkan file error tersebut dan mengganti dengan yang baru, sehingga file yang diterima oleh slave tidak akan terjadi error.

3. Perubahan block size dapat mempengaruhi kecepatan proses pembagian data, semakin kecil block size semakin mempercepat proses pembagian data, hal ini hanya berlaku pada pembagian block size 64MB dan 128MB, sedangkan pada block size 256MB hasilnya cukup stabil untuk file berukuran 800MB, 1.2GB

dan 2GB yang menghasilkan selisih waktu kurang lebih 2 detik dengan ukuran file 1.2GB paling cepat tersebar, hal ini dipengaruhi dari sistem indexing yang terdapat pada Hadoop.

6.2Saran

Berikut beberapa hal yang dapat berguna untuk penelitian lebih lanjut: 1. Lakukan eksplorasi lebih lanjut terhadap sistem Hadoop yang lainnya selain

hdfs dan yarn.

2. Menambahkan tampilan pada sistem hadoop agar lebih mudah digunakan. 3. _{Tidak dilakukan pada Virtual Box karena banyak muncul gangguan yang tidak}

(10)

33

[2] N. Michael G, “Running Hadoop on Ubuntu Linux (Single-Node Cluster),” [Online]. Available: http://www.michael-noll.com.

[3] K. D. Priharyani, “Analisis Penggunaan Algoritma Delay Scheduling terhadap Karakteristik Job,” 2013.

[4] N. Michael G, “Running Hadoop on Ubuntu Linux (Multi-Node Cluster),” [Online]. Available: http://www.michael-noll.com/.

[5] A. B. Patel, M. Birla dan U. Nair, Addressing Big Data, Nirma University International Conference on Engineering (NUiCONE), 2012.

[6] J. Spolsky, “Can Your Programming Language Do This?,” [Online]. Available: http://www.joelonsoftware.com.

[7] Apache, “HDFS Architecture Guide,” [Online]. Available: https://hadoop.apache.org.

[8] C. Lam, Hadoop In Action, Stamford: Mainning Publications Co., 2011. [9] Shv, Hairong, SRadia dan Chansler, “The Hadoop Distributed File System,”

Jurnal IEEE, 2010.

[10] J. Ellingwood, “Understanding the SSH Encryption and Connection Process,” [Online]. Available: https://www.digitalocean.com. based on System Heterogeneity,” Hamilton, 2014.

(11)

34

Universitas Kristen Maranatha [15] Telkom University, “Analisis Penggunaan Algoritma Delay Scheduling

terhadap Karakteristik Job Scheduling pada Hadoop,” 2015.

[16] P. Khusumanegara, “Analisis Performa Kecepatan MapReduce Pada Hadoop Menggunakan TCP Packet Flow Analysis,” UNIVERSITAS INDONESIA, Depok, 2014.