• Tidak ada hasil yang ditemukan

Karakteristik Hadoop Multi-Node pada Master Server terhadap Data Kecil.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Karakteristik Hadoop Multi-Node pada Master Server terhadap Data Kecil."

Copied!
12
0
0

Teks penuh

(1)

v

Universitas Kristen Maranatha

ABSTRAK

Seiring dengan perkembangan data yang sangat pesat, cara – cara penyimpanan data dalam server telah banyak dikembangkan dan disediakan dalam media yang berbeda. Diantaranya ada Hadoop yang merupakan software framework untuk server. Demi menggali pengetahuan lebih dari server maka saya melakukan penelitian yang berjudul karakteristik Hadoop Multi node pada master server terhadap data Kecil. Hadoop sendiri merupakan project opensource dari apache yang sudah berjalan kurang lebih 9 tahun, yang dimana 2 tahun setelah Hadoop lahir dipakai google untuk prosesing data. Hasil yang didapat memuat karakteristik dari Hadoop, apakah HDFS menjadi tempat penyimpanan yang baik untuk data. Metode yang akan dipakai akan banyak mengambil dan menaruh data dalam 5 mesin yang sudah menggunakan Hadoop. Mesin yang terbagi dalam 1 master server dan 4 slave server akan diberikan data dan diukur dengan melihat waktu dari log masing – masing server. Data yang didapat diolah menjadi grafik agar bisa terlihat apakah terjadi anomali yang bisa dibilang unik untuk Hadoop?. Akhir dari pengukuran data diharapkan mendapat kesimpulan apa yang menjadi keunikan dari Hadoop dan bagaimana data diproses dalam HDFS?.

(2)

vi

Universitas Kristen Maranatha

ABSTRACT

The growth of data over years increase very rapidly. Because of this growth, the data volume that stored in the server has been increase and in different media type. Hadoop is one of framework to handle big data on server. Hadoop itself is an open source project which developed by Apache and has been going for approximately nine years. This experiments have an objective to look at how Hadoop work to handle data less than 500MB. This experiment used five servers with Hadoop installed on each server (one as a master and the other as slave servers). Three experiment has been conducted, each experiment gave its own conclusion. Experiment one showed if a node on web UI gave 500 ms from last contact then the node declared to be dead. The second experiment showed the transfer rate 61.39 ms per MB. The last experiment showed if a new node is added as a slave,

the Hadoop server’s capacity increased size, but the new slave didn’t get any data from other slave.

(3)

vii

Universitas Kristen Maranatha

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALISTAS LAPORAN PENELITIAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENELITIAN ... iii

PRAKATA ... iv

ABSTRAK ... v

ABSTRACT ... vi

DAFTAR ISI ... vii

DAFTAR GAMBAR ... ix

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan ... 2

1.4 Ruang Lingkup Penelitian ... 2

1.5 Sumber Data ... 2

1.6 Sistematika Penyajian ... 3

BAB 2 KAJIAN TEORI ... 4

2.1 Hadoop ... 4

2.2 Hadoop Single–Node ... 7

2.3 Hadoop Multi–Node ... 8

BAB 3 ANALISIS DAN RANCANGAN SISTEM ... 9

3.1 Pemodelan ... 9

3.2 Skenario ... 10

3.2.1 Skenario Pertama ... 10

3.2.2 Skenario Kedua ... 10

(4)

viii

Universitas Kristen Maranatha

BAB 4 KONFIGURASI PENGUJIAN ... 13

4.1 SSH ... 13

4.2 Host dan hostname ... 13

4.3 Hadoop ... 16

4.4 Hue ... 18

BAB 5 PENGUJIAN ... 19

5.1 Skenario Pertama ... 19

5.2 Skenario Kedua ... 20

5.3 Skenario Ketiga ... 26

BAB 6 SIMPULAN DAN SARAN ... 27

6.1 Simpulan ... 27

6.2 Saran ... 27

DAFTAR PUSTAKA ... 28

(5)

ix

Universitas Kristen Maranatha

DAFTAR GAMBAR

Gambar 2.1 : Hadoop Core / Hadoop Common ... 4

Gambar 2.2 : Cara Kerja HDFS ... 5

Gambar 2.3 : Data Penelitian Terkait ... 7

Gambar 2.4 : Contoh HDFS Architectue Single Node ... 8

Gambar 2.5 : Contoh HDFS Architectue Multi Node... 8

Gambar 3.1 : Analysis Modeling Example ... 9

Gambar 3.2 : Skenario 1... 10

Gambar 3.3 : Skenario 2... 11

Gambar 3.4 : Skenario 3... 12

Gambar 4.1 : Hostname... 13

Gambar 4.2 : Hosts ... 14

Gambar 4.3 : Hadoop config folder ... 14

Gambar 4.4 : core-site.xml ... 14

Gambar 4.5 : yarn-site.xml ... 15

Gambar 4.6 : HDFS-site.xml ... 15

Gambar 4.7 : masters... 16

Gambar 4.8 : slaves ... 16

Gambar 4.9 : Masuk Ke File bashrc ... 16

Gambar 4.10 : File .bashrc ... 17

Gambar 4.11 : File hadoop-env.sh ... 17

Gambar 4.12 : File hue.ini ... 18

Gambar 5.1 : Hadoopslave2 Last Contact ... 19

Gambar 5.2 : Hadoopslave2 Setelah Last Contact melebihi 500 ... 19

Gambar 5.3 : Hasil Summry Menyatakan Jumlah Live dan Dead Node ... 19

Gambar 5.4 : Keadaan Node Setelah Mesin Kembali Di Nyalakan ... 20

Gambar 5.5 : Summary Node ... 20

Gambar 5.6 : File Information Dari Port 50070 ... 21

Gambar 5.7 : Namenode Log ... 21

Gambar 5.8 : Penyimpanan Data Di Master Server ... 22

Gambar 5.9 : File Information Dan Folder Tempat File Disimpan ... 22

(6)

x

Universitas Kristen Maranatha

Gambar 5.11 : Hasil Traffic Percobaan 1 [127.00 MB] ... 23

Gambar 5.12 : Grafik Durasi Percobaan 2 ... 24

Gambar 5.13 : Hasil Traffic Percobaan 2 [235.16 MB] ... 24

Gambar 5.14 : Grafik Durasi Percobaan 3 ... 25

Gambar 5.15 : Hasil Traffic Percobaan 3 [314.00 MB] ... 25

Gambar 5.16 : Edit File Hosts ... 26

(7)

1

Universitas Kristen Maranatha

BAB 1

PENDAHULUAN

1.1Latar Belakang

Jumlah data di dunia kita telah meledak, dan menganalisis data berukuran besar tersebut big data [1] menjadi kunci dasar persaingan, mendasari gelombang baru pertumbuhan produktivitas, inovasi, dan surplus konsumen. Belum banyak yang mendefinisikan istilah big data secara pasti. Meskipun demikian, istilah “Big Data” sering digunakan oleh perusahaan untuk menguraikan jumlah data yang besar. Hal ini tidak mengacu pada jumlah khusus data, tetapi menguraikan suatu set data yang tidak dapat disimpan atau diproses menggunakan perangkat lunak database tradisional. Contoh big data mencakup Google Search Index, database Facebook (user profile) [2].

Big data sering kali di distribusikan melalui banyak storage device, dapat

dalam beberapa lokasi yang berbeda. Terdapat beberapa jenis berbeda dari solusi perangkat lunak big data yang berbeda, mencakup platform penyimpan data dan program analisa data. Produk yang paling umum dari perangkat lunak big data mencakup apache Hadoop, IBM’s Big Data Platform, Oracle NoSql database, Microsoft HDInsight dan EMC Pivotal One [3].

Hadoop banyak dipakai untuk mengolah data yang sangat besar (Petabyte) secara terdistribusi dan berjalan di atas cluster yang terdiri dari beberapa komputer yang saling terhubung. Hadoop menggunakan HDFS yang tidak sama dengan jenis file system dari sistem operasi misalnya NTFS atau FAT32.

Penyimpanan HDFS adalah metadata, merupakan struktur direktori HDFS dan file dalam bentuk tree. Hal ini juga mencakup berbagai atribut direktori dan file, seperti kepemilikan, perizinan, kuota, dan faktor replikasi [4].

(8)

2

Universitas Kristen Maranatha

1.2Rumusan Masalah

Berikut masalah–masalah yang mungkin akan terjadi dan perlu dijawab. Masalah–masalah yang ada sebagai berikut:

1. Apakah pengaruh ukuran file dibawah 500MB terhadap waktu saat perpindahan data ?

2. Bagaimana karakteristik penyebaran data dari master slave menuju client server ?

3. Bagaimana keterkaitan konfigurasi terhadap block data yang dikirim ke slave?

1.3Tujuan

Tujuan yang dapat dari rumusan masalah adalah sebagai berikut : 1. Mengamati karakteristik penyebaran file.

2. Mengamati pengaruh ukuran file dibawah 500MB terhadap waktu pengiriman ke client server.

3. Mengamati dan mengukur besar block data yang dikirim ke client server berdasar konfigurasi pada master.

1.4Ruang Lingkup Penelitian

Ruang lingkup penelitian memiliki batasan – batasan sebagai berikut : 1. Physical machine yang digunakan memiliki spesifikasi Intel i5-2320 3.00ghz

dengan RAM 4 GB.

2. Mesin Virtual yang digunakan untuk server akan memiliki spesifikasi, OS Linux Ubuntu 14.03.3 server, 15GB HDD dan RAM 1GB.

3. Koneksi antara mesin tidak menggunakan password, maka SSH key akan dihapus atau diubah menjadi non pass SSH.

4. Program Virtual yang digunakan adalah Oracle VM Virtual Box v5.0.2, dan 5. Data percobaan yang digunakan berukuran 314MB, 235MB, dan 127MB

dengan file format .mov, dengan block allocation 128MB.

1.5Sumber Data

(9)

3

Universitas Kristen Maranatha Hadoop. menginstal dan mengkonfigurasikan Hadoop dengan beberapa server, menginstal traffic monitoring agar bisa memonitor jaringan antara server atau node yang ada dan dilakukan beberapa percobaan juga dibuat laporan.

1.6Sistematika Penyajian

Laporan yang berisi hasil dari Tugas Akhir yang telah selesai dikerjakan selama Tugas Akhir berlangsung, bersistematik seperti berikut :

BAB I – Pendahuluan

Berisi mengapa Hadoop dipakai dan sejarah singkat, rumusan masalah yang berisi pertanyaan – pertanyaan yang akan terjawab dan diberi kesimpulan, tujuan yang berisi singkatan dari hasil, batasan – batasan pada ruang lingkup penelitian dan sumber data yang berisi darimana isi laporan didapat.

BAB II – Kajian Teori

Berisi penjelasan dari teori–teori yang didapat dalam sumber–sumber yang berisikan mengenai Hadoop dan ekosistem yang ada dalam Hadoop.

BAB III – Analisis dan Rancangan

Berisi permodelan rancangan dari penelitian, rancangan skenario yang akan dilakukan untuk mendapat hasil atau kesimpulan.

BAB IV – Implementasi

Berisi konfigurasi dan lingkup dari rancangan penelitian, yang digunakan sebagai tempat pengerjaan skenario – skenario pada bab III.

BAB V – Pengujian

Berisi hasil dari skenario rancangan penelitian, hasil dari skenario dan hasil dari tujuan yang dapat ditarik kesimpulan.

BAB VI – Simpulan dan Saran

(10)

27

Universitas Kristen Maranatha

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

1. Jika client server mati akan hal yang tidak diinginkan, maka master server tidak menunjukkan secara langsung node dari client server yang mati melainkan akan menunjukkan dead node pada web UI setelah last contact melebihi 500 Ping.

2. Nilai rata-rata waktu yang didapat pada penelitian mendapat waktu 61.39587214ms/MB dan pada penelitian terkait mendapat waktu 415.3710 ms/MB. Perbedaan waktu yang didapat adalah 353.97512786ms/MB. Kecepatan penelitian yang dilakukan lebih cepat dibandingkan dengan penelitian terkait, perbedaan yang besar ini bisa disebabkan perbedaan ekosistem, konfigurasi, dan jumlah client server yang dipakai.

3. Menambahkan server tidak membuat perpindahan data secara langsung dari client yang memiliki data. Client server yang baru dibuat tetap kosong hingga

ada data yang masuk, data yang masuk tetap dimasukan secara acak oleh HDFS. Client server yang dibuat akan dilihat sebagai penambahan harddisk.

6.2Saran

1. Menggunakan program lain untuk memonitor traffic dari koneksi yang ada. 2. Menggunakan program pembuatan mesin yang berbeda selain Virtual Box,

seperti VM-ware atau server terpasang dalam satu mesin asli, tidak memakai program mesin virtual.

(11)

28

Universitas Kristen Maranatha

DAFTAR PUSTAKA

[1] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh dan A.

H. Byers, “Big data: The next frontier for innovation, competition, and productivity,” May 2011. [Online]. Available:

http://www.mckinsey.com/insights/business_technology/big_data_the_next_ frontier_for_innovation.

[2] S. M. Sulistyo Heripracoyo, “Big Data,” 28 may 2014. [Online]. Available: http://sis.binus.ac.id/2014/04/29/big-data/.

[3] “Techterms.com,” 27 Agustus 2013. [Online]. Available: http://techterms.com/definition/big_data.

[4] C. Nauroth, “HDFS Metadata Directories Explained,” Hortonworks Inc, 22 October 2014. [Online]. Available: http://hortonworks.com/blog/hdfs-metadata-directories-explained/. [Diakses 30 july 2016].

[5] “Hadoop Wiki,” September 2015. [Online]. Available: http://wiki.apache.org/hadoop/PoweredBy.

[6] D. deRoos, P. C. Zikopoulos, B. Brown, R. Coss and R. B.Melnyk, Hadoop for dummies, Hoboken, New Jersey: John Wiley & Sons, Inc., 2014. [7] H. wiki, “Apache Pig,” 02 september 2011. [Online]. Available:

https://cwiki.apache.org/confluence/display/PIG/Index. [Diakses 23 june 2016].

[8] H. wiki, “Apache Hive,” 04 May 2016. [Online]. Available:

https://cwiki.apache.org/confluence/display/Hive/Home. [Diakses 23 june 2016].

[9] The Apache Software Foundation, “Apache Hbase,” 22 june 2016. [Online]. Available: https://hbase.apache.org/. [Diakses 23 june 2016].

[10] H. wiki, “Apache SQOOP,” 30 april 2015. [Online]. Available:

https://cwiki.apache.org/confluence/display/SQOOP/Home. [Diakses 23 june 2016].

(12)

29

Universitas Kristen Maranatha https://wiki.apache.org/hadoop/ZooKeeper. [Diakses 23 june 2016].

[12] wiki dan Hadoop, “Apache Ambari,” 17 febuary 2015. [Online]. Available: https://cwiki.apache.org/confluence/display/AMBARI/Ambari. [Diakses 23 june 2016].

[13] H. Team, “gethue,” hue, 11 September 2014. [Online]. Available:

http://gethue.com/how-to-build-hue-on-ubuntu-14-04-trusty/. [Diakses maret 2016].

[14] P. Khusumanegara, “Analisis Performa Kecepatan Mapreduce Pada Hadoop

Menggunakan TCP Packet Flow Analysis,” Universitas Indonesia, Depok,

Gambar

Gambar 5.11 : Hasil Traffic Percobaan 1 [127.00 MB] .......................................

Referensi

Dokumen terkait

Dari hasil uji regresi, menunjukan bahwa besarnya pengaruh variabel komitmen afekif, komitmen berkelanjutan, dan komitmen normatif terhadap keinginan untuk pindah adalah sebanyak

Pembuatan deodoran dari daun jambu biji tidak menggunakan alkohol sehingga tidak menimbulkan iritasi pada kulit ketiakB. Perlu uji coba lebih lanjut tentang kekuatan daya tahan

Berdasarkan latar belakang tersebut, maka penulis mencoba menggali lebih dalam mengenai karakteristik permukiman yang terjadi pada masyarakat petani garam di Desa Pinggir

perkembangan para pedagang usaha tekstil bermotif batik dengan adanya. penambahan modal itu sendiri, yang mana termasuk dalam

Maka dari itu untuk mengurangi kecemasan saat menghadapi ulangan siswa dapat diterapkan konseling behavioral dengan teknik desensitisasi sistematis yang memliki

Dari uraian diatas dapat disimpulkan bahwa pada penelitian ini menunjukan penyinaran infra merah pada jarak 35 cm lebih efektif daripada penyinaran infra merah dengan

Hasil ini menunjukkan bahwa variabel independen berupa strategi diversifikasi dan leverage yang diproksikan debt to asset ratio (DAR) sebesar 14,1% dapat

Beban maksimum aktual komposisi 8% yang dihasilkan lebih kecil dari beban rencana yaitu 90,02 Kn dengan perbedaan sebesar 41,41 kN Pola retak dan keruntuhan yang terjadi pada