BAB 7 KOMPUTASI BIG DATA
7.1 Big Data
Banjir data ini, bersama dengan teknik dan teknologi baru yang digunakan untuk menanganinya, saat ini biasa disebut sebagai Big Data. Big Data seperti itu berharga dan menantang, karena volumenya yang sangat besar, sehingga volume data dibuat dalam 5 tahun saat ini dari 2010 hingga 2015 akan jauh melebihi semua data yang dihasilkan dalam sejarah manusia. Web, tempat semua data ini diproduksi dan disimpan, terdiri dari jutaan server, dengan penyimpanan data segera diukur dalam zettabytes.
Komputasi awan memberikan peluang bagi organisasi dengan sumber daya internal terbatas untuk mengimplementasikan aplikasi komputasi Big Data skala besar dengan biaya yang efektif Tantangan mendasar komputasi Big Data adalah mengelola dan memproses volume data yang tumbuh secara eksponensial; secara signifikan mengurangi siklus analisis data terkait menjadi mendukung aplikasi yang praktis dan tepat waktu; dan mengembangkan algoritme baru yang dapat diskalakan untuk mencari dan memproses data dalam jumlah besar. Jawaban atas tantangan ini adalah arsitektur perangkat keras dan perangkat lunak
sistem komputer terintegrasi yang skalabel yang dirancang untuk pemrosesan paralel aplikasi komputasi Big Data. Bab ini mengeksplorasi tantangan komputasi Big Data.
7.1.1 Apa itu Big Data?
Big Data dapat didefinisikan sebagai volume data yang tersedia dalam berbagai tingkat kompleksitas, dihasilkan pada kecepatan yang berbeda dan berbagai tingkat ambiguitas yang tidak dapat diproses menggunakan teknologi tradisional, metode pemrosesan, algoritma, atau solusi komersial apa pun. Data yang didefinisikan sebagai Big Data mencakup data cuaca, geospasial, dan sistem informasi geografis (GIS); data berbasis konsumen dari media sosial;
data yang dihasilkan perusahaan dari departemen hukum, penjualan, pemasaran, pengadaan, keuangan, dan sumber daya manusia; dan data yang dihasilkan perangkat dari jaringan sensor, pembangkit nuklir, sinar-X dan perangkat pemindaian, dan mesin pesawat (Gambar 7.1 dan 7.2).
7.1.1.1 Volume Data
Data yang paling menarik untuk dimanfaatkan oleh organisasi mana pun saat ini adalah data media sosial. Jumlah data yang dihasilkan oleh konsumen setiap menit memberikan wawasan yang sangat penting tentang pilihan, opini, pengaruh, koneksi, loyalitas merek, manajemen merek, dan banyak lagi. Media sosial Organisasi saat ini memanfaatkan halaman media sosial untuk mempersonalisasi pemasaran produk dan layanan kepada setiap pelanggan. Situs tidak hanya memberikan perspektif konsumen tetapi juga posisi kompetitif, tren, dan akses ke komunitas yang dibentuk oleh kepentingan bersama.
Gambar 7.1 Karakteristik 4V Big Data.
Banyak aplikasi tambahan sedang dikembangkan dan perlahan menjadi kenyataan.Aplikasi ini termasuk menggunakan penginderaan jauh untuk mendeteksi sumber energi bawah tanah, pemantauan lingkungan, pemantauan dan pengaturan lalu lintas oleh sensor otomatis yang dipasang pada kendaraan dan jalan, pemantauan jarak jauh pasien menggunakan pemindai khusus dan peralatan, dan kontrol yang lebih ketat dan pengisian kembali inventaris menggunakan identifikasi frekuensi radio (RFID) dan teknologi lainnya.
Semua perkembangan ini akan menghubungkannya dengan sejumlah besar data. Jejaring sosial seperti Twitter dan Facebook memiliki ratusan juta pelanggan di
seluruh dunia yang Setiap perusahaan memiliki sejumlah besar e-mail yang dihasilkan oleh karyawan, pelanggan, dan eksekutif setiap hari. Email ini semua dianggap sebagai aset After Enron dan runtuhnya banyak audit di perusahaan. Pemerintah AS mengamanatkan bahwa semua perusahaan harus memiliki manajemen siklus hidup email yang jelas, dan bahwa email harus tersedia dan dapat diaudit berdasarkan kasus per kasus.perdagangan orang dalam, kekayaan intelektual, analisis kompetitif, dan banyak lagi, untuk membenarkan pemerintah dan pengelolaan email.
Jika perusahaan dapat menganalisis petabyte data (setara dengan 20 juta lemari arsip empat laci yang diisi dengan file teks atau konten HDTV 13,3 tahun) dengan kinerja yang dapat diterima untuk membedakan pola dan anomali, bisnis dapat mulai memahami data dengan cara baru. 7.1 menunjukkan skala data yang meningkat.
Gambar 7.2 Kasus penggunaan untuk komputasi Big Data.
Tabel 7.1 Skala Data Ukuran Data Skala Data 1.000 megabita 1 gigabyte (GB) 1.000 gigabyte 1 terabyte (TBJ) 1.000 terabyte 1 petabyte (PB) 1.000 petabyte 1 exabyte (EB) 1.000 exabyte 1 zettabyte (ZBJ) 1.000 zettabytes 1 yottabyte (YB) Daftar fitur untuk menangani volume data meliputi:
Teknik pengolahan data yang non-tradisional dan tidak ortodoks perlu diinovasi untuk mengolah tipe data ini.
Metadata sangat penting untuk memproses data ini dengan sukses.
Metrik dan indikator kinerja utama (KPI) adalah kunci untuk memberikan visualisasi.
Data mentah tidak perlu disimpan secara online untuk diakses.
Output yang diproses diperlukan untuk diintegrasikan ke dalam ekosistem analitik tingkat perusahaan untuk memberikan wawasan dan visibilitas yang lebih baik ke dalam tren dan hasil latihan bisnis, termasuk manajemen hubungan pelanggan (CRM), optimalisasi inventaris, dan analisis clickstream.
Enterprise data warehouse (EDW) diperlukan untuk analitik dan pelaporan.
7.1.1.2 Kecepatan Data
Model bisnis yang diadopsi oleh Amazon, Facebook, Yahoo !, dan Google, yang menjadi model bisnis de facto untuk sebagian besar perusahaan berbasis Web, beroperasi pada fakta bahwa dengan melacak klik dan navigasi pelanggan di situs web, Anda dapat memberikan penjelajahan dan navigasi yang dipersonalisasi. Dalam proses aliran klik ini, ada jutaan klik yang dikumpulkan dari pengguna setiap detik, dengan volume data yang besar. Data ini dapat diproses, disegmentasikan, dan dimodelkan untuk mempelajari perilaku populasi berdasarkan waktu, geografi, efektivitas iklan, perilaku klik, dan respons navigasi terpandu.
Kumpulan hasil dari model ini dapat disimpan untuk menciptakan pengalaman yang lebih baik untuk rangkaian klik berikutnya yang menunjukkan perilaku serupa.
Kecepatan data yang dihasilkan oleh klik pengguna di situs web mana pun saat ini adalah yang utama Contoh untuk kecepatan Big Data. Data waktu nyata dan data streaming dikumpulkan oleh orang-orang seperti Twitter dan Facebook dengan kecepatan yang sangat tinggi. Kecepatan sangat membantu dalam mendeteksi tren di antara orang-orang yang men-tweet satu juta tweet setiap 3 menit. Pemrosesan data streaming untuk analisis juga melibatkan dimensi kecepatan. Demikian pula, kecepatan tinggi dikaitkan dengan data yang terkait dengan kecepatan khas transaksi di bursa saham; kecepatan ini mencapai miliaran transaksi per hari pada hari-hari tertentu Jika transaksi ini harus diproses untuk mendeteksi potensi penipuan, atau miliaran catatan panggilan di ponsel setiap hari harus diproses untuk mendeteksi aktivitas jahat, kita berhadapan dengan dimensi kecepatan.
Cara paling populer untuk berbagi gambar, musik, dan data saat ini adalah melalui perangkat seluler. Banyaknya volume data yang ditransmisikan oleh jaringan seluler memberikan wawasan kepada penyedia tentang kinerja jaringan mereka, jumlah data yang diproses di setiap menara; Waktu; geografi terkait; demografi pengguna, lokasi, dan latensi; dan banyak lagi. Kecepatan pergerakan data tidak dapat diprediksi dan terkadang dapat menyebabkan jaringan macet. Pergerakan data dan studinya telah memungkinkan penyedia layanan seluler untuk meningkatkan QoS (kualitas layanan), dan mengaitkan data ini dengan input media sosial telah memungkinkan wawasan tentang kecerdasan kompetitif.
Daftar fitur untuk menangani kecepatan data meliputi:
Sistem harus elastis untuk menangani kecepatan data bersama dengan volume.
Sistem harus ditingkatkan dan diturunkan sesuai kebutuhan tanpa meningkatkan biaya.
Sistem harus dapat memproses data di seluruh infrastruktur dalam waktu pemrosesan yang paling singkat.
Throughput sistem harus tetap stabil terlepas dari kecepatan data.
Sistem harus dapat memproses data pada platform terdistribusi.
7.1.1.3 Variasi Data
Data datang dalam berbagai format, mulai dari email, tweet, media sosial, dan data sensor. Tidak ada kontrol atas format data input atau struktur data. Kompleksitas pemrosesan yang terkait dengan berbagai format adalah ketersediaan Ini sangat penting ketika kami memproses gambar, audio, video, dan teks dalam jumlah besar.
Tidak adanya metadata atau metadata parsial berarti penundaan pemrosesan dari penyerapan data hingga menghasilkan metrik akhir Sumber data dalam aplikasi tradisional sebagian besar adalah transaksi yang melibatkan keuangan, asuransi, perjalanan, mobilitas, industri ritel, dan pemrosesan pemerintah dan peradilan.
Dan yang lebih penting, dalam mengintegrasikan hasil dengan gudang data (Tabel 7.2 dan 7.3) jenis sumber telah berkembang secara dramatis dan mencakup data Internet (misalnya, clickstream dan media sosial), data penelitian (misalnya, survei dan laporan industri), lokasi da ta (misalnya, data perangkat seluler dan data geospasial), gambar (misalnya, pengawasan, satelit, dan pemindaian medis), email, data rantai pasokan (misalnya, EDI—pertukaran data elektronik, katalog vendor), data sinyal (misalnya, sensor dan perangkat RFID), dan video (YouTube memasukkan ratusan menit video setiap menit). Big Data mencakup data terstruktur, semi-terstruktur, dan tidak terstruktur dalam proporsi berbeda berdasarkan konteks. Daftar fitur untuk menangani variasi data meliputi:
Skalabilitas
Kemampuan pemrosesan terdistribusi
Kemampuan pemrosesan gambar
Kemampuan pemrosesan grafik
Kemampuan pemrosesan video dan audio 7.1.1.4 Kebenaran Data
Dimensi kebenaran Big Data adalah tambahan yang lebih baru daripada munculnya Internet. Veracity memiliki dua fitur bawaan: kredibilitas sumber dan kesesuaian data untuk audiens targetnya. Ini terkait erat dengan kepercayaan;
mencantumkan kejujuran sebagai salah satu dimensi Big Data sama dengan mengatakan bahwa data yang masuk ke apa yang disebut aplikasi Big Data memiliki berbagai kepercayaan, dan oleh karena itu sebelum kami menerima data untuk analisis atau aplikasi lain, itu harus melalui beberapa tingkat pengujian kualitas dan analisis kredibilitas. Banyak sumber data menghasilkan data yang tidak pasti, tidak lengkap, dan tidak akurat, sehingga meragukan kebenarannya.
Tabel 7.2 Nilai Big Data Lintas Industri
Volume Data
Kecepatan Data
Berbagai Data
Data yang Kurang Dimanfaatkan
(Data Gelap)
Potensi Nilai Data Besar Perbankan dan
sekuritas Tinggi Tinggi Rendah Medium Tinggi
Layanan
komunikasi dan media
Tinggi Tinggi Tinggi Medium Tinggi
Pendidikan Sangat rendah
Sangat rendah
Sangat
rendah Tinggi Medium
Pemerintah Tinggi Medium Tinggi Tinggi Tinggi
Penyedia layanan kesehatan
Medium Tinggi Medium Medium Tinggi
Pertanggungan Medium Medium Medium Medium Medium
Manufaktur Tinggi Tinggi Tinggi Tinggi Tinggi
Bahan kimia dan sumber daya alam
Tinggi Tinggi Tinggi Tinggi Medium
Pengecer Tinggi Tinggi Tinggi Rendah Tinggi
Angkutan Medium Medium Medium Tinggi Medium
Keperluan Medium Medium Medium Medium Medium
7.1.2 Karakteristik Umum Sistem Komputasi Big Data
Ada beberapa karakteristik umum yang penting dari sistem komputasi Big Data yang membedakannya dari bentuk komputasi lainnya.
1. Prinsip co-location data dan program atau algoritma untuk melakukan komputasi:
untuk mencapai kinerja tinggi dalam komputasi Big Data, penting untuk meminimalkan pergerakan data Prinsip ini— “pindahkan kode ke data” — yang dirancang ke dalam arsitektur pemrosesan paralel data yang diterapkan oleh Seisint pada tahun 2003, sangat efektif karena ukuran program biasanya kecil dibandingkan dengan kumpulan data besar yang diproses oleh sistem Big Data dan menghasilkan lalu lintas jaringan yang jauh lebih sedikit karena data dapat dibaca Berbeda langsung dengan jenis komputasi dan superkomputer lain yang memanfaatkan data yang disimpan dalam repositori atau server terpisah dan mentransfer data ke sistem pemrosesan untuk komputasi, komputasi Big Data menggunakan data terdistribusi dan sistem file terdistribusi di mana data berada di seluruh sekelompok node pemrosesan, dan alih-alih memindahkan data, program atau algoritma ditransfer ke node dengan data yang n eed untuk diproses Karakteristik ini memungkinkan algoritma pemrosesan untuk dieksekusi pada node tempat data berada, mengurangi overhead sistem dan meningkatkan kinerja.
Tabel 7.3 Kasus Penggunaan Industri untuk Big Data
Manufaktur Pengecer
Riset produk Pengelolaan hubungan pelanggan Analisis teknik Lokasi dan tata letak toko
Pemeliharaan prediktif Deteksi dan pencegahan penipuan Metrik proses dan kualitas Optimalisasi rantai pasokan Optimasi distribusi Harga dinamis
Media dan telekomunikasi Layanan keuangan Optimalisasi jaringan Perdagangan algoritma Skor pelanggan Analisis resiko
pencegahan churn Deteksi penipuan Pencegahan penipuan Analisis portofolio
Energi Periklanan dan hubungan masyarakat Jaringan pintar Sinyal permintaan
Eksplorasi Iklan bertarget Pemodelan operasional Analisis sentimen Sensor saluran listrik akuisisi pelanggan Ilmu kesehatan dan
kehidupan
Pemerintah Farmakogenomik Tata kelola pasar
Bioinformatika Sistem senjata dan kontra terorisme Riset farmasi ekonometrika
Penelitian hasil klinis Informatika kesehatan
2. Model pemrograman yang digunakan: Sistem komputasi Big Data menggunakan pendekatan mesin-independen di mana aplikasi dinyatakan dalam operasi tingkat tinggi pada data, dan sistem runtime secara transparan mengontrol penjadwalan, eksekusi, penyeimbangan beban, komunikasi, dan pergerakan Abstraksi pemrograman dan alat bahasa memungkinkan pemrosesan diekspresikan dalam hal aliran data dan transformasi yang menggabungkan bahasa pemrograman aliran data baru dan pustaka bersama dari algoritma manipulasi data umum seperti penyortiran. Superkomputer konvensional dan sistem komputasi terdistribusi. Dep mesin biasanya menggunakan model pemrograman yang bergantung pada mesin yang dapat memerlukan kontrol pemrogram tingkat rendah atas pemrosesan dan komunikasi simpul menggunakan bahasa pemrograman imperatif konvensional dan paket perangkat lunak khusus yang menambah kompleksitas pada tugas pemrograman paralel dan mengurangi produktivitas pemrogram. Model pemrograman endent juga membutuhkan penyetelan yang signifikan dan lebih rentan terhadap titik kegagalan tunggal.
3. Fokus pada keandalan dan ketersediaan: Sistem skala besar dengan ratusan atau ribuan node pemrosesan secara inheren lebih rentan terhadap kegagalan perangkat keras, kesalahan komunikasi, dan bug perangkat lunak. Sistem komputasi Big Data dirancang untuk tahan terhadap kesalahan. Ini termasuk redundan salinan semua file
data pada disk, penyimpanan hasil pemrosesan antara pada disk, deteksi otomatis node atau kegagalan pemrosesan, dan penghitungan ulang hasil selektif. Cluster pemrosesan yang dikonfigurasi untuk komputasi Big Data biasanya dapat melanjutkan operasi dengan pengurangan jumlah node setelah kegagalan node dengan pemulihan otomatis dan transparan dari pemrosesan yang tidak lengkap.
4. Skalabilitas: Karakteristik penting terakhir dari sistem komputasi Big Data adalah skalabilitas yang melekat pada arsitektur perangkat keras dan perangkat lunak yang mendasari Sistem komputasi Big Data biasanya dapat diskalakan secara linier untuk mengakomodasi hampir semua jumlah data atau untuk memenuhi waktu -persyaratan kinerja kritis- hanya dengan menambahkan node pemrosesan tambahan ke konfigurasi sistem untuk mencapai miliaran record per second processing rates (BORPS).Jumlah node dan tugas pemrosesan yang ditetapkan untuk aplikasi tertentu dapat bervariasi atau tetap tergantung pada Skalabilitas ini memungkinkan masalah komputasi yang pernah dianggap sulit karena jumlah data yang dibutuhkan atau jumlah waktu pemrosesan yang dibutuhkan sekarang menjadi layak, dan memberikan peluang untuk terobosan baru dalam analisis data dan pemrosesan informasi.
Salah satu karakteristik utama cloud adalah skalabilitas elastis: Pengguna dapat menambah atau mengurangi sumber daya hampir secara real time berdasarkan perubahan persyaratan. Cloud memainkan peran penting dalam dunia Big Data.
Perubahan dramatis terjadi ketika komponen infrastruktur ini digabungkan dengan hasilnya, organisasi memiliki kinerja dan optimalisasi untuk kemajuan dalam manajemen data.
Infrastruktur yang dapat diperluas dan dioptimalkan secara horizontal mendukung implementasi praktis Big Data. Teknologi cloudware seperti virtualisasi meningkatkan efisiensi cloud, membuat banyak sistem kompleks lebih mudah untuk dioptimalkan. Platform Big Data secara bertahap digunakan sebagai sumber data dalam jumlah besar tentang preferensi, sentimen, dan perilaku pelanggan. Perusahaan dapat mengintegrasikan informasi ini dengan data penjualan dan produk internal untuk mendapatkan wawasan tentang preferensi pelanggan agar lebih bertarget dan penawaran yang dipersonalisasi.
7.1.3 Peralatan Data Besar
Aplikasi analitik Big Data menggabungkan sarana untuk mengembangkan dan mengimplementasikan algoritme yang harus mengakses, menggunakan, dan mengelola data.
Pada dasarnya, kerangka kerja bergantung pada ekosistem komponen teknologi yang harus digabungkan dalam berbagai cara untuk mengatasi masing-masing Misalnya, beberapa algoritme mengharapkan bahwa sejumlah besar data segera tersedia dengan cepat, memerlukan sejumlah besar memori inti Aplikasi lain mungkin memerlukan banyak pertukaran data berulang antara node komputasi yang berbeda, yang akan membutuhkan jaringan berkecepatan tinggi.
Tumpukan ekosistem teknologi Big Data dapat mencakup hal berikut:
1. Sistem penyimpanan skalabel yang digunakan untuk menangkap, memanipulasi, dan menganalisis kumpulan data besar
2. Platform komputasi, terkadang dikonfigurasi secara khusus untuk analitik skala besar, sering kali terdiri dari beberapa node pemrosesan (biasanya multicore) yang
terhubung melalui jaringan berkecepatan tinggi ke subsistem penyimpanan memori dan disk. Ini sering disebut sebagai peralatan.
3. Lingkungan manajemen data, yang konfigurasinya dapat berkisar dari sistem manajemen basis data tradisional yang diskalakan hingga paralelisme masif hingga basis data yang dikonfigurasi dengan distribusi dan tata letak alternatif hingga skema manajemen data berbasis grafik atau lainnya Tidak hanya SQL (NoSQL)
4. Kerangka kerja pengembangan aplikasi untuk menyederhanakan proses pengembangan, eksekusi, pengujian, dan debugging kode aplikasi baru Kerangka kerja ini harus mencakup model pemrograman, alat pengembangan, eksekusi dan penjadwalan program, serta konfigurasi sistem dan kemampuan manajemen.
5. Metode analitik terukur (termasuk model statistik dan penambangan data) yang dapat dikonfigurasi oleh analis dan konsumen bisnis lainnya untuk membantu meningkatkan kemampuan merancang dan membangun model analitik dan prediktif
6. Proses dan alat manajemen yang diperlukan untuk memastikan keselarasan dengan infrastruktur analitik perusahaan dan kolaborasi antara pengembang, analis, dan pengguna bisnis lainnya
7.2 Alat dan Teknik Big Data