Apa Itu Teknologi `Big Data`?


‘Big Data', pastinya banyak di antara kita yang masih asing dengan istilah tersebut. Namun belakangan ini istilah 'Big Data' menjadi topik pembahasan dominan di bidang industri teknologi dan informasi (TI) dunia. Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya ekosistem pengguna perangkat mobile dan data internet. Berbagai jenis data, mulai data yang berupa teks, gambar atau foto, video hingga bentuk data-data lainnya membanjiri sistem komputasi.

Pertumbuhan perangkat mobile dan data internet ternyata sangat mempengaruhi perkembangan volume dan jenis data yang terus meningkat. Tentunya hal ini perlu jalan keluar. Dan Big Data adalah solusi yang kerap digunakan beberapa waktu belakangan ini. Sejatinya hingga saat ini belum ada definisi resmi dari istilah Big Data. Akan tetapi kemunculnya memang dianggap solusi dari fakta yang menunjukkan bahwa pertumbuhan data dari waktu ke waktu telah melampaui batas kemampuan media penyimpanan maupun sistem database yang ada saat ini.

IBM di situs resminya mendefinisikan Big Data ke dalam tiga istilah yaitu volume , variety , dan velocity. Volume di sini berkaitan dengan ukuran media penyimpanan data yang sangat besar atau mungkin tak terbatas. Sementara variety berarti tipe atau jenis data yang dapat diakomodasi. Sedangkan velocity dapat diartikan sebagai kecepatan proses. Dengan begitu, Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang menawarkan ruang tak terbatas, serta kemampuan untuk mengakomodasi dan memproses berbagai jenis data dengan sangat cepat. Yang melibatkan data yang begitu beragam, cepat berubah, atau berukuran super besar.

Sehingga terlalu sulit bagi teknologi, keahlian, maupun infrastruktur konvensional untuk dapat menanganinya secara efektif. Big Data melibatkan proses pembuatan data, penyimpanan, penggalian informasi, dan analisis yang menonjol dalam hal:

1. Volume (Ukuran).   
Pada tahun 2000 lalu, PC biasa pada umumnya memiliki kapasitas penyimpanan sekitar 10 gigabytes. Saat ini, Facebook menyedot sekitar 500 terabytes data baru setiap harinya; sebuah pesawat Boeing 737 menghasilkan sekitar 240 terabytes data penerbangan dalam satu penerbangan melintasi Amerika; makin menjamurnya penggunaan ponsel pintar (smartphone), bertambahnya sensor-sensor yang disertakan pada perangkat harian, akan terus mengalirkan jutaan data-data baru, yang terus ter-update, yang mencakup data-data yang berhubungan dengan lingkungan, lokasi, cuaca, video bahkan data tentang suasana hati si pengguna ponsel pintar.

2. Velocity (kecepatan).   
Clickstreams maupun ad impressions mencatat perilaku pengguna Internet dalam jutaan event per detik; algoritma jual-beli saham dalam frekwensi tinggi dapat mencerminkan perubahan pasar dalam hitungan microseconds; proses-proses yang melibatkan hubungan antara suatu mesin dengan mesin lainnya telah melibatkan pertukaran data antar jutaan perangkat; peralatan sensor dan perangkat-perangkat pada infrastruktur menghasilkan log data secara real time; sistem game online dapat melayani jutaan pengguna secara bersamaan, yang masing-masing memberikan sejumlah input per detiknya.

3. Variety (ragam).
Big Data tidak hanya menyangkut data yang berupa angka-angka, data tanggal, dan rangkaian teks. Big Data juga meliputi data-data ruang / geospatial, data 3D, audio dan video, dan data-data teks tak berstruktur termasuk file-file log dan media sosial. Sistem database tradisional didesain untuk menangani data-data berstruktur, yang tak terlalu sering mengalami update atau updatenya dapat diprediksi, serta memiliki struktur data yang konsisten yang volumenya tak pernah sebesar Big Data. Selain itu, sistem database tradisional juga didesain untuk digunakan dalam satu server yang berdiri sendiri, yang berakibat pada keterbatasan dan mahalnya biaya untuk peningkatan kapasitas, sedangkan aplikasi sudah dituntut untuk mampu melayani pengguna dalam jumlah yang jauh lebih besar dari yang pernah ada sebelumnya. Dalam hal ini, database Big Data seperti halnya MongoDB maupun HBase, dapat memberikan solusi yang feasible yang memungkinkan peningkatan profit perusahaan secara signifikan.

Jenis Teknologi Big Data : Big Data Operasional dan Big Data Analitis

Dalam hal Teknologi, bentangan Big Data didominasi oleh dua jenis teknologi Big Data yaitu:

(1) Big Data operasional: sistem yang memiliki kapabilitas operasional untuk pekerjaan-pekerjaan bersifat interaktif dan real time dimana data pada umumnya diserap dan disimpan.

Teknologi Big Data Operasional.
Untuk menangani pekerjaan-pekerjaan Big Data Operasional, telah dibangun sistem Big Data dengan database NoSQL seperti halnya database berbasis dokumen (document based database) yang dapat ditujukan untuk berbagai tipe aplikasi, database key-value stores, column family stores, dan database graph yang dioptimalkan untuk aplikasi yang lebih spesifik. Teknologi NoSQL, yang telah dikembangkan untuk mengatasi kekurangan dari database relasional (relational database) pada lingkungan komputasi modern, dikenal lebih cepat serta lebih mudah dan murah dalam hal peningkatan skala (more scalable) dibanding relational databases.

Sistem Big Data dengan database NoSQL telah didesain untuk memanfaatkan keunggulan dari arsitektur cloud computing (komputasi awan) yang telah muncul dalam dekade terakhir ini. Hal ini memungkinkan dijalankannya komputasi berskala besar secara efisien dan dengan biaya yang relatif lebih murah. Sebagai hasilnya, sistem NoSQL dengan komputasi awan ini telah menjadikan perangkat kerja Big Data operasional lebih mudah dikelola, serta dapat diimplementasikan dengan lebih murah dan cepat.

(2) Big Data analitis: sistem yang menyediakan kapabilitas analitis untuk mengerjakan analisis yang kompleks dan retrospektif yang dapat melibatkan sebagian besar atau bahkan keseluruhan data. Dalam keberadaannya, kedua jenis teknologi Big Data ini bersifat saling melengkapi dan sering digunakan secara bersamaan.

Teknologi Big Data Analitis
Dilain pihak, pekerjaan-pekerjaan Big Data analitis cenderung diproses dengan mengimplementasikan sistem database MPP dan MapReduce. Munculnya teknologi ini juga merupakan reaksi terhadap keterbatasan dan kurangnya kemampuan relational database tradisional untuk mengelola database dalam skala lebih dari satu server (terdistribusi). Disamping itu, MapReduce juga menawarkan metode baru dalam menganalisa data yang dapat berfungsi sebagai pelengkap terhadap kapabilitas SQL.

Dengan semakin populernya penggunaan berbagai jenis aplikasi dan para penggunanya terus menerus memproduksi data dari pemakaian aplikasi tersebut, terdapat sejumlah upaya analisa retrospektif yang benar-benar dapat memberikan nilai berarti terhadap kemajuan bisnis. Ketika upaya-upaya tersebut mesti melibatkan algoritma yang lebih rumit, MapReduce telah menjadi pilihan pertama untuk melakukan analisa retrospektif tersebut. Beberapa sistem NoSQL juga menyediakan fungsi MapReduce bawaan yang memungkinkan proses analisa diterapkan pada data operasional. Sebagai alternatif lain, data juga dapat dikopi dari sistem NoSQL ke dalam sistem analitis seperti halnya Hadoop dengan MapReduce-nya.
 
Manfaat Pemberdayaan Big Data
Serangkaian teknologi baru yang ditujukan untuk memberdayakan Big Data telah memungkinkan direalisasikannya suatu nilai dari Big Data. Sebagai contoh, pebisnis retail online dapat mempelajari perilaku para pengunjungnya berdasarkan data hasil web click tracking. Dengan mengetahui perilaku konsumen maupun calon konsumennya, maka dimungkinkan untuk menerapkan strategi baru guna meningkatkan penjualan, mengatur harga dan stok barang secara efisien.


Institusi pemerintah maupun Google dapat mendeteksi timbulnya suatu wabah penyakit dengan memanfaatkan informasi yang mengalir di media sosial. Perusahaan minyak dan gas dapat menggunakan output dari sensor-sensor pada peralatan pengeboran untuk menemukan teknik pengeboran yang lebih aman dan efisien.

1. Pengertian Hadoop

Hadoop adalah framework open source berbasis Java di bawah lisensi Apache untuk mensupport aplikasi yang jalan pada Big Data. Hadoop berjalan pada lingkungan yang menyediakan storage dan komputasi secara terdistribusi ke kluster-kluster dari komputer/node.

2. Sejarah Singkat Hadoop

Asal mula hadoop muncul karena terinspirasi dari makalah tentang Google MapReduce dan Google File System (GFS) yang ditulis oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat pada tahun 2003.

Proses developmen dimulai pada saat proyek Apache Nutch, yang kemudian baru dipindahkan menjadi sub-proyek hadoop pada tahun 2006. Penamaan menjadi hadoop adalah diberikan oleh Doug Cutting, yaitu berdasarkan nama dari mainan gajah anaknya.

3. Manfaat Hadoop - mengapa hadoop diperlukan?

Untuk menjawab pertanyaan mengapa hadoop diperlukan, saya coba jabarkan dalam bentuk perbandingan antara pendekatan tradisional (RDBMS) dengan solusi yang ditawarkan oleh hadoop.

3.a Pendekatan Tradisional

Dalam pendekatan ini, suatu perusahaan akan memiliki komputer skala enterprise (High-End Hardware) untuk menyimpan dan mengolah data besar. Data besar tersebut akan disimpan dalam RDBMS skala enterprise seperti Oracle Database, MS SQL Server atau DB2.

Dibutuhkan software canggih untuk dapat menulis, mengakses dan mengolah data besar tersebut dalam rangka kebutuhan analisis.

Pendekatan Tradisional
Limitasi Pendekatan Tradisional :
  • Kesulitan menggolah data berukuran sangat besar (Big Data), misal 1 file berukut 500 GB, 1 TB, dst.
  • Keterbatasan Hardware terhadap kemampuan pengolaha data yang besar, sehingga Waktu akses semakin lama ketika memproses data yang semakin sangat besar
  • Hanya bisa data bersifat tabular

3.b. Solusi Hadoop

Dalam pendekatan ini Hadoop mendukung pemprosesan secara terdistribusi ke kluster-kluster dari komputer. Hadoop didukung oleh dua komponen utama.
  • HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian didistribusikan ke kluster-kluster dari komputer.
  • MapReduce merupakan algoritma/komputasi terdistribusi
Solusi Hadoop
Kelebihan Solusi Hadoop dengan didukung oleh dua komponen utama tersebut:
  • Sangat baik untuk mengolah data berukuran besar, bahkan untuk ukuran 1 TB sekalipun
  • Lebih cepat dalam mengakses data berukuran besar
  • Lebih bervariasi data yang bisa disimpan dan diolah dalam bentuk HDFS
Namun dengan kelebihan tersebut bukan berarti tanpa kekurangan, berikut ini limitasi-nya.
  • Tidak cocok untuk OLTP (Online Transaction Processing), di mana data dapat diakses secara randon ke Relational Database
  • Tidak cocok untuk OLAP (Online Analytic Processing)
  • Tidak cocok untuk DSS (Decission Support System)
  • Proses update tidak bisa untuk dilakukan (seperti pada hadoop 2.2), namun untuk Append bisa dilakukan
Berdasarkan beberapa limitasi tersebut dapat disimpulkan bahwa Hadoop adalah sebagai Solusi Big Data untuk pengolahan data besar, menjadi pelengkap OLTP, OLAP, dan DSS, jadi hadoop bukan untuk menggantikan RDBMS. Saya rasa untuk saat ini, namun bisa jadi suatu saat hadoop bisa lepas dari limitasi tersebut

4. Arsitektur Hadoop atau Ekosistem Hadoop

Framework hadoop terdiri atas empat modul/komponen utama.
  1. Hadoop HDFS adalah sebuah sistem file terdistribusi.
  2. Hadoop MapReduce adalah sebuah model programming/Algoritma untuk pengelolaan data skala besar dengan komputasi secara terdistribusi
  3. Hadoop YARN adalah sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan scheduling
  4. Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.

Komentar

Postingan Populer