Konfigurasi Single Node Cluster - Perancangan Sistem Big Data

BAB 4 IMPLEMENTASI

4.1 Perancangan Sistem Big Data

4.1.1 Konfigurasi Single Node Cluster

Konfigurasi single node cluster diterapkan pada seluruh komputer cluster. Oleh karena itu, konfigurasi ini akan diimplementasikan pada 4 komputer cluster yaitu 1 master node dan 3 slave node. Secara teknis, proses konfigurasi menerapkan metode yang sama. Adapun beberapa paket aplikasi yang diinstall berada pada direktori /home/mnode/big\ data\ applikasi.

4.1.1.1 Install Java

Paket Java dibutuhkan karena framework Hadoop dan library Mahout berjalan diatas lingkungan Java. Screenshot proses install Java dapat dilihat pada bagian Lampiran 1. Adapun berikut merupakan proses menginstall Java :

1. Melakukan proses extract file pada file arsip Java

Perintah yang digunakan untuk melakukan proses extract file Java ialah tar -xzf file-paket-Java.tar.gz. tar merupakan command atau perintah yang digunakan untuk melakukan extract file pada arsip file yang berekstensi .tar.gz. Parameter -x atau --exclude-from merupakan perintah mengecualikan susunan pola pada file. Parameter f atau –file menunjukkan ekstrak data dilakukan pada file arsip atau archive file. Sedangkan parameter -z atau --uncompress digunakan untuk perintah uncompress atau ekstrak file.

2. Membuat direktori java pada direktori /usr/local

Tujuan dari langkah ini ialah untuk membuat direktori khusus untuk menyimpan paket Java pada sistem Linux Ubuntu. Perintah yang digunakan ialah $sudo mkdir /usr/local/java. Mkdir merupakan perintah untuk membuat sebuah atau beberap direktori. Perintah sudo menunjukkan bahwa perintah harus dilakukan pada sisi administrator pada sistem Linux Ubuntu.

3. Memindahkan hasil exctract file arsip java ke direktori /usr/local/java Perintah yang digunakan untuk memindahkan sebuah sebuah file atau direktori ialah mv. Sehingga format perintah yang digunakan ialah $sudo mv nama_file_arsip direktori_tujuan. Untuk mengecek keberhasilan memindahkan file ke dalam direktori maka dapat menggunakan perintah “ls”. Perintah ls digunakan untuk melihat daftar file dari sebuah direktori. 4. Konfigurasi environmentvariable Java pada file /etc/profile

Proses ini harus dilakukan karena proses install java menggunakan source code java. Variabel JAVA_HOME merupakan variable yang menunjukkan direktori tempat menyimpan source code java. Perintah export digunakan untuk mengenali Java pada sistem Ubuntu.

5. Uji coba environment Java

echo merupakan perintah yang digunakan untuk menampilkan sebuah data suatu variable. Sehingga echo dapat digunakan untuk menampilkan data variabel JAVA_HOME yang merupakan lokasi Java pada sistem Linux. 4.1.1.2 Konfigurasi Group Dan User Sistem Hadoop

User merupakan pengguna sistem Ubuntu yang telah terdaftar. Sedangkan group merupakan sebuh wadah untuk mengelompokkan user atau pengguna pada sistem Ubuntu. Implementasi ini menggunakan group dan user khusus untuk memudahkan dalam membangun sistem Hadoop. Screenshot langkah-langkah konfigurasi group dan user sistem Hadoop dapat dilihat pada Lampiran 2. Berikut penjelasan langkah-langkah konfigurasi group dan user atau pengguna dari sistem Hadoop:

1. Menambah group Hadoop

Addgroup merupakan perintah unntuk menambahkan group pada sistem Ubuntu. Untuk menjalankan perintahkan addgroup membutuhkan ijin eksekusi dari administrator sistem Ubuntu. Oleh karena itu, perintah addgroup membutuhkan awalan perintah sudo. Sedangkan Hadoop merupakan nama group yang ditambahkan pada sistem Ubuntu.

2. Menambah user hduser pada group hadoop

Adduser merupakan perintah untuk menambahkan pengguna pada sistem Ubuntu. Perintah --ingroup merupakan perintah untuk menambahkan pengguna secara langsung pada sebuah group. Sehingga perintah $sudo adduser –ingroup hadoop hduser merupakan perintah untuk menambahkan pengguna hduser pada group hadoop. Pengguna hduser sendiri akan secara khusus bertugas untuk menjalankan aktivitas pada sistem hadoop.

3. Menginstall openssh-server

Protokol SSH digunakan untuk melakukan manajemen komputer cluster. Dengan menggunakan protokol SSH, maka administrator dapat mudah dalam memanajemen komputer atau node lain dengan melakukan monitoring. Paket yang digunakan dalam mengintal SSH ialah open-ssh server.

4. Login sebagai pengguna hduser

Langkah ini dimaksudkan bahwa proses konfigurasi selanjutnya dilakukan pada host hduser.

5. Membuat kunci RSA atau RSA Key untuk pengguna hduser

RSA Key berfungsi untuk dapat melakukan akses pada sebuah node dengan menggunakan protokol SSH. Penelitian ini membuat kunci RSA dengan password yang kosong. Hal ini dilakukan dengan maksud agar ketika mengakses suatu node, sistem tidak meminta password. Cara ini sebenarnya tidak direkomendasikan karena dapat membahayakan

keseluruhan sistem Hadoop. Namun karena implementasi sistem dilakukan di jaringan local, maka menggunakan password kosong.

6. Membuat authorized_keys

authorized_keys dibutuhkan untuk mengijinkan akses SSH dari node ke sistem lokal.

7. Mengetes SSH pada sistem lokal

Proses ini tidak hanya mengetes SSH pada sistem lokal. Namun, proses dilakukan untuk menyimpan host key fingerprint pada sistem local yang terletak pada file known_hosts yang terletak pada direktori /home/.ssh.

4.1.1.3 Melakukan Disable IPv6

Screenshot langkah ini dapat dilihat pada Lampiran 3. Berikut penjelasan langkah-langkah dalam melakukan disable IPv6:

1. Konfigurasi pada file /etc/sysctl.conf

Konfigurasi disable IPv6 dilakuakn pada file /etc/sysctl.conf. Adapun Pengembangan sistem Hadoop tidak membutuhkan konfigurasi IPv6 2. Mengecek status disable IPv6

Sebelum melakukan langkah ini, sistem Ubuntu harus di-reboot untuk terlebih dahulu untuk memastikan konfigurasi sudah berjalan. Perintah yang digunakan ialah cat /proc/sys/net/ipv6/conf/all/disable_ipv6. Cat berfungsi untuk melihat konten dari file.

4.1.1.1 Install Hadoop

Screenshot langkah ini dapat diliaht pada Lampiran 4. Berikut penjelasan langkah-langkah proses install Hadoop:

1. Melakukan extract file pada file arsip Hadoop

Langkah ini sama seperti langkah dalam mengekstrak file Java, karena paket sourcecode Hadoop dikemas dalam file tar.gz.

2. Menyalin source code Hadoop ke folder /usr/local 3. Mengubah privilege atau hak akses pada folder hadoop

Perintah chown digunakan untuk mengubah hak akses sebuah file atau folder berdasarkan pengguna dan group. Direktori hadoop secara khusus diperuntukkan untuk pengguna hduser dan digunakan pada group Hadoop. 4. Melakukan konfigurasi variable Hadoop pada file .bashrc

Proses sama seperti langkah sebelumnya, yakni agar Hadoop mudah dikenali oleh sistem Linux.

5. Mengetes implementasi Hadoop

Mengetes Hadoop dilakukan pada sisi pengguna hduser dengan cara mengecek versi dari Hadoop. Hasil dari perintah $hadoop version ialah berupa versi Hadoop dan metadata Hadoop lainnya.

4.1.1.2 Konfigurasi Environment Hadoop Single Node Cluster

Konfigurasi ini dilakukan pada node klaster tunggal atau single node cluster. Konfigurasi dilakukan pada direktori sistem Hadoop yang terletak pada direktori /usr/local/hadoop/etc/hadoop. Screenshot langkah-langkah ini dapat

dilihat pada bagian Lampiran 5. Berikut langkah-langkah konfigurasi lingkungan atau environment Hadoop Single Node Cluster:

1. Melakukan konfigurasi JAVA_HOME pada file hadoop-env.sh

Konfigurasi dlakuakn pada file hadoop-env.sh dengan mengubah alamat direktori atau path JAVA_HOME dengan lokasi tempat menginstall Java pada sistem Ubuntu. Java sangat dibutuhkan agar sistem Hadoop dapat berjalan. Hal ini dikarena framework Hadoop dikembangkan menggunakan Java dan hanya dapat berjalan diatas Java environment atau lingkungan Java.

2. Konfigurasi core-site.xml

Konfigurasi pada file core-site.xml merupakan konfigurasi lokasi temporary direktory dari Hadoop Distributed File System (HDFS). Dengan kata lain langkah ini menjelaskan lokasi data Hadoop dan semua metadata Hadoop disimpan. Adapun dalam penelitian ini, lokasi HDFS ditempatkan pada direktori /app/hadoop/tmp. Konfigurasi ditempatkan pada tag <value></value>.

3. Membuat direktori /app/hadoop/tmp

Proses membuat direktori /app/hadoop/tmp dilakukan pada sisi pengguna mnode yang berperan sebagai administrator pada sistem Ubuntu. Hal ini dikarena direktori /app/hadoop/tmp ditempatan pada direktori root yang hanya dapat diakses oleh administrator.

Direktori /app/hadoop/tmp temporary directory digunakan untuk menempatkan HDFS pada local disk. Sehingga direktori ini secara khusus diperuntukkan untuk pengguna hduser.

5. Mengatur permission pada direktori /app/hadoop/tmp

Proses ini bertujuan untuk menjaga keamanan pada direktori /app/hadoop/tmp. Dengan kata lain, tidak semua jenis dapat dieksekusi pada direktori ini.

6. Konfigurasi mapred-site.xml

Secara default, file mapred-site.xml belum terdapat pada sistem direktori konfigurasi Hadoop. Sehingga langkah yang dilakukan ialah menyalin template mapred-site.xml ke dalam sebuah file mapred-site.xml. Selanjutnya konfigurasi file mapred-site ialah mengisi parameter <value></value> dengan localhost. Langkah ini menunjukkan proses mapreduce hanya berjalan pada localhost atau sistem lokal.

7. Konfigurasi hdfs-site.xml

konfigurasi file hdfs-site.xml memperlihatkan jumlah replikasi pada sistem. Dengan kata lain, langkah ini menunjukkan berapa jumlah slave node yang akan digunakan. Konfigurasi ini menggunakan parameter 1 karena konfigurasi masih dilakukan pada single node.

8. Konfigurasi yarn-site.xml

9. Melakukan format HDFS

Langkah ini akan menghapus semua data pada HDFS. Namun langkah ini tidak direkomendasikan dilakukan pada saat yang bersamaan dengan manajemen data karena dapat mengakibatkan kerusakan atau kegagalan data.

10. Menjalankan perintah start-dfs.sh

Perintah start-dfs.sh yang digunakan untuk menjalankan service dari NameNode dan SecondaryNamenode pada master node dan DataNode pada slave node. Karena sistem ini bersifat single node cluster maka semua service berjalan pada localhost atau lokal sistem Ubuntu.

11. Menjalankan perintah start-yarn.sh

Perintah start-yarn.sh yang digunakan untuk menjalankan service ResourceManager dan NodeManager yang dimiliki oleh fitur Yarn. Adapun konfigurasi ini dilakukan pada single node cluster sehingga ResourceManager dan NodeManager berjalan pada localhost.

12. Menjalankan jps

Perintah jps yang digunakan untuk mengecek seluruh service Java yang sedang berjalan pada sistem. Proses ini dilakukan untuk mengecek keberhasilan semua service yang berjalan. Sehingga luaran dari perintah ini ialah service NameNode, SecondaruNamenode, ResourceManager, DataNode, dan NodeManager.

Dalam dokumen Implementasi K-Means Clustering pada lingkungan big data menggunakan model pemrograman MapReduce. (Halaman 53-62)