• Tidak ada hasil yang ditemukan

Karakteristik Hadoop Multi-Node pada Client terhadap Data Besar.

N/A
N/A
Protected

Academic year: 2017

Membagikan "Karakteristik Hadoop Multi-Node pada Client terhadap Data Besar."

Copied!
12
0
0

Teks penuh

(1)

vi

Universitas Kristen Maranatha

ABSTRAK

Pertumbuhan data ternyata sangat mempengaruhi perkembangan volume dan jenis data yang terus meningkat di dunia maya. Jenis data, mulai dari data yang berupa teks, gambar atau foto, video hingga bentuk data-data lainnya membanjiri sistem komputasi. Dengan meningkatnya volume data, pengolahan data perlu diubah dengan metode yang lebih efektif. Salah satu metode yang dapat mengolah data lebih baik adalah komputasi terdistribusi. Salah satu perangkat lunak yang telah menggunakan metode komputasi terdistribusi adalah Hadoop. Penelitian ini dilakukan untuk menguji karakteristik dari Hadoop dengan melakukan pengujian. Tiga macam skenario diimplementasikan untuk mengamati bagaimana karakteristik Hadoop dan menganalisa waktu penerimaan data. Pengujian dilakukan dengan menggunakan file berukuran 800MB, 1.2GB, dan 2GB. Berdasarkan penelitian, diketahui bahwa penambahan ukuran data, dari 800 MB hingga menjadi 2 GB dapat memperlambat rata-rata waktu penerimaan data pada penambahan ukuran data selama 14,147 detik pada slave 1 dan 9,516 detik pada slave 2. Penambahan block size juga memperlambat rata-rata waktu penerimaan data pada ukuran data 800 MB selama 19,340 detik.

(2)

vii

Universitas Kristen Maranatha

ABSTRACT

Data growth can affect the development of volume and data type. All data type such as text, picture, video and other data types is overwhelming the computing system. With the increasing of data volume, data processing methode neet to be changed into more effective methode. One of the effective methode is the distributed computing. Hadoop is one of softwares that used distributed computing methode. The purpose of This study is to observe the characteristic of Hadoop. Three scenarios are implemented to observe the characteristic of Hadoop and to analyze the data receiving time. Each scenarios using three different data sizes: 800 MB, 1.2 GB and 2 GB. Based on the study, known that the additional of size with suitable specifications can decelerate the avereage of receiving time on each data size for 14,147 seconds on slave 1 and 9,516 seconds on slave 2. The additional of block size also can decelerate the average of receiving time on data with 800 MB size for 19,340 seconds. Based on the study also known that Hadoop is still replicate the data blocks with the designed interferences.

(3)

viii

Universitas Kristen Maranatha

DAFTAR ISI

LEMBAR PENGESAHAN ... i

PERNYATAAN ORISINALISTAS LAPORAN PENELITIAN ... ii

PERNYATAAN PUBLIKASI LAPORAN PENELITIAN ... iii

PRAKATA ... iv

ABSTRAK ... vi

ABSTRACT ... vii

DAFTAR ISI ... viii

DAFTAR GAMBAR ... x

DAFTAR TABEL ... xi

BAB 1 PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Tujuan Pembahasan ... 2

1.4 Ruang Lingkup ... 2

1.5 Sumber Data ... 3

1.6 Sistematika Penyajian ... 3

BAB 2 KAJIAN TEORI ... 5

2.1 Big Data ... 5

2.2 Hadoop ... 5

2.2.1 Hadoop Single-node ... 6

2.2.2 Hadoop Multi-node ... 6

2.2.3 Hadoop Distributed File System ... 7

2.3 MapReduce ... 9

(4)

ix

Universitas Kristen Maranatha

2.5 OpenSSH ... 10

2.6 Yet Another Resource Negotiator (YARN) ... 12

2.7 Penelitian Terkait ... 13

2.7.1 Analisis Pengaruh Ukuran Data terhadap Waktu Penerimaan Data .... 13

2.7.2 Analisis Pengaruh Block size Terhadap Waktu Penerimaan Data ... 14

BAB 3 ANALISIS DAN RANCANGAN SISTEM ... 16

3.1 Perancangan ... 16

3.2 Skenario Pertama ... 16

3.3 Skenario Kedua ... 17

3.4 Skenario Ketiga ... 17

BAB 4 IMPLEMENTASI ... 19

4.1 Lookup Library ... 19

4.2 Instalasi java ... 19

4.3 Konfigurasi SSH ... 19

4.4 Konfigurasi Hadoop ... 20

4.5 Mengubah ukuran block ... 21

BAB 5 PENGUJIAN ... 22

5.1 Pengujian Skenario Pertama ... 22

5.2 Pengujian Skenario Kedua ... 24

5.2.1 Hasil Pengujian ... 24

5.3 Pengujian Skenario Ketiga ... 26

BAB 6 SIMPULAN DAN SARAN ... 28

6.1 Simpulan ... 28

6.2 Saran ... 28

DAFTAR PUSTAKA ... 29

(5)

x

Universitas Kristen Maranatha

DAFTAR GAMBAR

Gambar 2.1 Hadoop single-node... 6

Gambar 2.2 Multi-node cluster ... 7

Gambar 2.3 Penulisan data pada HDFS ... 7

Gambar 2.4 MapReduce logical data flow ... 10

Gambar 2.5 Sequence diagram untuk pemisahan privilege OpenSSH ... 11

Gambar 2.6 Bagaimana YARN menjalankan aplikasi ... 12

Gambar 2.7 Grafik pengaruh physical machine terhadap kecepatan MapReduce 14 Gambar 2.8 Grafik efek dari HDFS block size pada ukuran file 512 MB ... 15

Gambar 3.1 Topologi pengujian ... 16

Gambar 3.2 Ilustrasi Skenario Kedua ... 17

Gambar 4.1 Konfigurasi lookup ... 19

Gambar 5.1 Pembagian block pada Web Service HDFS ... 22

Gambar 5.2 (a)Block ID pada slave 1 (b)block ID pada slave 2... 23

Gambar 5.3 Grafik rata-rata waktu penerimaan data skenario pertama... 23

Gambar 5.4 Log Slave 1 ... 24

Gambar 5.5 Menerima block setelah start semua daemons ... 25

Gambar 5.6 Block ID yang disimpan di direktori rbw pada slave 2 ... 26

Gambar 5.7 Grafik rata-rata waktu peneriamaan data pada slave 1 dan slave 2 .. 26

(6)

xi

Universitas Kristen Maranatha

DAFTAR TABEL

Tabel 2.1 Hasil kecepatan rata-rata MapReduce menggunakan physical machine

... 13

Tabel 2.2 Hasil percobaan dengan ukuran file 512 MB ... 14

Tabel 3.1 Spesifikasi mesin yang digunakan ... 16

Tabel 4.1 Konfigurasi core-site ... 20

Tabel 4.2 Konfigurasi hdfs-site ... 20

Tabel 4.3 Konfigurasi yarn-site... 20

Tabel 4.4 Konfigurasi ukuran block ... 21

Tabel 5.1 Rata-rata waktu penerimaan data skenario pertama ... 23

(7)

1

Universitas Kristen Maranatha

BAB 1

PENDAHULUAN

1.1Latar Belakang

Pertumbuhan data ternyata sangat mempengaruhi perkembangan volume dan jenis data yang terus meningkat di dunia maya. Jenis data, mulai dari data yang berupa teks, gambar atau foto, video hingga bentuk data-data lainnya membanjiri sistem komputasi. Tidak hanya jumlah data yang di-generate yang bertambah, tetapi tingkat kenaikan juga bertambah cepat [1].

Pertumbuhan data ini oleh banyak perusahaan diistilahkan dengan big data. Belum ada definisi pasti mengenai big data. Namun, oleh banyak perusahaan big data diartikan dengan tantangan yang terus tumbuh yang harus dihadapi dan diselesaikan oleh organisasi ataupun perusahaan yang berupa sumber data dalam jumlah besar dan pertumbuhan data yang cepat, atau informasi yang berisi analisi dengan lingkup data yang tidak sederhana.

Big data memliki beberapa dimensi atau karakteristik yang dideskripsikan ke dalam volume, variety, dan velocity. Dimensi ini dapat mengklasifikasikan masalah yang ditimbulkan oleh big data. Internet memfasilitasi pertumbuhan data yang besar, karenanya beberapa jejaring sosial seperti twitter dapat menerima kicauan dari penggunanya yang berjumlah lebih dari 400 juta dalam sehari. Permasalahan volume data seperti ini tidak dapat lagi diselesaikan dengan metode penghitungan yang tradisional, oleh karena itu dibutuhkan metode baru yang dapat mengatasi masalah volume data ini. Salah satu contoh aplikasi yang menggunakan metode big data adalah apache Hadoop. Aplikasi ini bersifat free

dan open source. Banyak pengembangan aplikasi big data lain yang pada dasarnya menggunakan aplikasi Hadoop, contohnya IBM.

Hadoop bisa dijalankan disatu computer saja (single-node) ataupun dalam cluster yang berisi lebih dari satu computer (multi-node) dengan menggunakan

(8)

2

Universitas Kristen Maranatha Mengetahui perkembangan data yang telah terjadi dan kebutuhan untuk aplikasi yang dapat mengelola data tersebut, tentu membutuhkan pemahaman mengenai Hadoop yang merupakan salah satu perangkat lunak yang dapat menangani permasalahan tersebut. Tetapi, faktanya masih sangat sulit untuk menemukan infromasi mengenai Hadoop. Maka dari itu akan diadakan pembuktian terutama pada client bagaimana data akan dikelola oleh Hadoop.

1.2Rumusan Masalah

Berikut masalah – masalah yang mungkin akan terjadi dan perlu dijawan. Masalah – masalah yang ada sebagai berikut:

1. Bagaimana karakteristik penerimaan data dari server ke client? 2. Apakah ukuran data mempengaruhi waktu penerimaan data? 3. Apakah ukuran block data mempengaruhi waktu penerimaan data?

1.3Tujuan Pembahasan

Tujuan dari penelitian ini adalah sebagai berikut:

1. Mengamati bagaimana karakteristik penerimaan data dari server ke client. 2. Mengamati dan menganalisis pengaruh ukuran data terhadap waktu

penerimaan data.

3. Mengamati dan menganalisi pengaruh ukuran block data terhadap waktu penerimaan data.

1.4Ruang Lingkup

1. Penelitian dibatasi pada sisi client, dengan cara mengamati karakteristik pada

client pada saat distribusi data.

2. Data dibatasi dengan data yang berukuran 800MB, 1.2GB, dan 2 GB. 3. Percobaan dilakukan dengan menggunakan metode multi-node.

(9)

3

Universitas Kristen Maranatha 5. Komputer yang digunakan untuk menjalankan mesin virtual memiliki

spesifikasi, prosesor Intel Core i5-2320 3.00GHz, RAM 4 GB, dan sistem operasi Windows 7.

6. Ukuran block data yang digunakan dibatasi dengan ukuran 64 MB, 128 MB, dan 256 MB.

1.5Sumber Data

Penelitian ini dilakukan dengan menggunakan data sekunder. Metode yang digunakan dalam membantu penulisan tugas akhir ini adalah:

1. Penelitian dalam bentuk pengujian platform perangkat lunak Hadoop melalui tahapan penginstalan, konfigurasi dan pengujian. Dalam pengembangan pengujian Hadoop ini, menggunakan studi literatur yang berkaitan dengan Hadoop dan big data.

2. Melakukan percobaan dari skenario yang telah dibuat.

3. Melakuakn pengamatan, pengambilan data, analisis dan pengambilan kesimpulan dari hasil pengujian skenario yang telah dilakukan.

1.6Sistematika Penyajian

Dalam proses penyusunan laporan, sistematika penulisan yang akan digunakan adalah sebagai berikut:

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang, rumusan masalah, tujuan pembahasan, ruang lingkup penelitian, sumber data, dan sistematika penyajian dari proyek tugas akhir.

BAB II DASAR TEORI

Bab ini berisi penjelasan teori tentang big data, HDFS, dan MapReduce. BAB III ANALISA DAN RANCANGAN SISTEM

Topologi menggunakan satu buah komputer server dan dua buah komputer client. Setiap skenario menggunakan file berukuran 800 MB, 1.2 GB, dan 2 GB.

BAB IV IMPLEMENTASI

(10)

4

Universitas Kristen Maranatha BAB V PENGUJIAN

Bab ini berisi hasil percobaan dari setiap skenario yang telah dibuat. BAB VI SIMPULAN DAN SARAN

(11)

28

Universitas Kristen Maranatha

BAB 6

SIMPULAN DAN SARAN

6.1Simpulan

Simpulan yang telah didapat dari pengujian yang telah dilakukan adalah sebagai berikut:

1. Hadoop mendistribusikan satu buah file menjadi block data dengan jumlah ukuran data / ukuran block size.

2. Block data akan dibagikan kesemua datanode dengan ukuran yang dapat diubah sesuai dengan konfigurasi yang digunakan.

3. Jika slave dalam keadaan tidak tersambung ke master, maka block data akan direplikasi setelah slave tersambung kembali ke master secara otomatis. 4. Penambahan ukuran file menambah waktu penerimaan data sebesar 14,147

detik pada slave 1 dan slave 2 mengalami penambahan waktu rata-rata 9,516 detik.

5. Penambahan ukuran block dapat memperlambat rata-rata waktu penerimaan data pada file dengan ukuran 800 MB sebesar 19,340 detik, sedangkan block size 256 MB dapat mengurangi waktu penerimaan data pada file berukuran 1.2 GB sebesar 4,697 detik dan 3,521 detik untuk file dengan ukuran 2 GB.

6. Slave yang tidak tersambung ke server pada saat distribusi file, akan menyalin replikasi block setelah tersambung ke server kembali.

6.2Saran

1. Saran untuk penelitian selanjutnya tidak menggunakan Oracle VirtualBox, karena kurang stabilnya pengaturan pada mesin virtual.

(12)

29 North, Sebastopol: O'Reilly Media, Inc., 2011.

[3] C. Ballard, C. Compert, T. Esionowski, I. Milman dan B. Plants, “Information Governance Principles and Practices for Big Data Landscapes,” 2014.

[4] W. M. Wijaya, Teknologi Big Data : Sistem Canggih dibalik Google Facebook Yahoo! IBM, Vijjam Wjaya, 2015.

[5] S. Achari, dalam Hadoop Essentials, Birmingham, 2015. [6] T. White, dalam Hadoop : The Definitive Guide, 2015.

[7] K. Sitto dan M. Presser, Field Guide to Hadoop: An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies, O'Reilly Media, Inc., 2015. [8] “Cacti - The Complete RRDTool-based Graphing Solution,” The Cacti

Group, Inc., [Online]. Available: http://www.cacti.net. [Diakses 27 May 2016].

[9] B. J. Hong, “Building A Server With FREEBSD 7,” San Fransisco, CA, William Pollock, 2008, p. 121.

[10] E. Siregar, Langsung Praktik Mengelola Jaringan Lebih Efektif dan Efisien pada Linux Fedora dan Windows XP, 2014: Penerbit Andi.

[11] P. Khusumanegara, “Analisis Performa Kecepatan MapReduce pada Hadoop Menggunakan TCP Analysis,” 2014.

[12] P. Khusumanegara, “Analisa Pengaruh Block Size pada HDFS Terhadap Kecepatan Proses MapReduce,” Seminar, pp. 20-29, 2013.

[13] Y. Zhang, “Cloudera Engineering Blog,” Cloudera, [Online]. Available:

Gambar

Tabel 2.2 Hasil percobaan dengan ukuran file 512 MB .......................................

Referensi

Dokumen terkait

Mohammad Muslikh, M.Si Konferensi Nasional Matematika XVI, UNPAD, Bandung 2012 √ 51 Estimasi energi untuk persamaan gelombang nonlinear Ratno Bagus Edy Wibowo,

• Badan  Standardisasi Nasional • SNI (Standar Nasional Indonesia) • Dibentuk berdasarkan UU  No. 20 Tahun 2014  tentang Standardisasi dan Penilaian Kesesuaian •

Hasil: DidapatkanT6 pasien rinosinusitis tronis yang dilakukan pemeriksaan tomografi komputer sinus paranasal untuk persiapan- opirasi bedah sinus endoskopi , terdiri

Adanya strategi pemecahan masalah diperlukan untuk mempermudah mengatasi masalah yang muncul berkaitan dengan perancangan fesyen eksklusif lewat eksplorasi motif

Aston Rasuna Hotel & Residence, Jakarta PT Bakrie Swasakti Utama memiliki 2 menara yang memiliki lokasi yang sama dengan lokasi Apartemen Taman Rasuna yaitu di Jalan H.R.. Rasuna

Penilaian atas risiko kecurangan dianggap sebagai alat yang efektif untuk pencegahan fraud dan karena dengan sarana ini dapat meningkatkan kompetensi auditor dalam

Koherensi elemen kurikulum pendidikan guru juga mengandung makna adanya keterkaitan di antara kelompok mata kuliah umum (general science ) dan Ke-Indonesiaan,

Walaupun memiliki susunan dan prinsip perubahan ruang yang sama pada tipe 3, namun adanya perbedaan akses ruang yang dipengaruhi oleh kecenderungan aktivitas penghuni, yaitu