Apa Itu Teknologi `Big Data`?
‘Big
Data', pastinya banyak di antara kita yang masih asing dengan istilah tersebut.
Namun belakangan ini istilah 'Big Data' menjadi topik pembahasan dominan di
bidang industri teknologi dan informasi (TI) dunia. Big
Data adalah sebuah sistem teknologi yang diperkenalkan untuk menanggulangi
'ledakan informasi' seiring dengan semakin bertumbuhnya ekosistem pengguna perangkat
mobile dan data internet. Berbagai jenis data, mulai data yang berupa teks,
gambar atau foto, video hingga bentuk data-data lainnya membanjiri sistem
komputasi.
Pertumbuhan
perangkat mobile dan data internet ternyata sangat mempengaruhi perkembangan
volume dan jenis data yang terus meningkat. Tentunya hal ini perlu jalan
keluar. Dan Big Data adalah solusi yang kerap digunakan beberapa waktu
belakangan ini. Sejatinya
hingga saat ini belum ada definisi resmi dari istilah Big Data. Akan tetapi
kemunculnya memang dianggap solusi dari fakta yang menunjukkan bahwa
pertumbuhan data dari waktu ke waktu telah melampaui batas kemampuan media
penyimpanan maupun sistem database yang ada saat ini.
IBM
di situs resminya mendefinisikan Big Data ke dalam tiga istilah yaitu volume
, variety , dan velocity.
Volume di sini berkaitan dengan ukuran media
penyimpanan data yang sangat besar atau mungkin tak terbatas. Sementara variety
berarti tipe atau jenis data yang dapat diakomodasi. Sedangkan velocity
dapat diartikan sebagai kecepatan proses. Dengan
begitu, Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang
menawarkan ruang tak terbatas, serta kemampuan untuk mengakomodasi dan
memproses berbagai jenis data dengan sangat cepat. Yang melibatkan data yang
begitu beragam, cepat berubah, atau berukuran super besar.
Sehingga
terlalu sulit bagi teknologi, keahlian, maupun infrastruktur konvensional untuk
dapat menanganinya secara efektif. Big Data melibatkan proses pembuatan data,
penyimpanan, penggalian informasi, dan analisis yang menonjol dalam hal:
1. Volume (Ukuran).
Pada
tahun 2000 lalu, PC biasa pada umumnya memiliki kapasitas penyimpanan sekitar
10 gigabytes. Saat ini, Facebook menyedot sekitar 500 terabytes data baru
setiap harinya; sebuah pesawat Boeing 737 menghasilkan sekitar 240 terabytes
data penerbangan dalam satu penerbangan melintasi Amerika; makin menjamurnya
penggunaan ponsel pintar (smartphone), bertambahnya sensor-sensor yang
disertakan pada perangkat harian, akan terus mengalirkan jutaan data-data baru,
yang terus ter-update, yang mencakup data-data yang berhubungan dengan
lingkungan, lokasi, cuaca, video bahkan data tentang suasana hati si pengguna
ponsel pintar.
2. Velocity
(kecepatan).
Clickstreams
maupun ad impressions mencatat perilaku pengguna Internet dalam jutaan event
per detik; algoritma jual-beli saham dalam frekwensi tinggi dapat mencerminkan
perubahan pasar dalam hitungan microseconds; proses-proses yang melibatkan
hubungan antara suatu mesin dengan mesin lainnya telah melibatkan pertukaran
data antar jutaan perangkat; peralatan sensor dan perangkat-perangkat pada
infrastruktur menghasilkan log data secara real time; sistem game online dapat
melayani jutaan pengguna secara bersamaan, yang masing-masing memberikan
sejumlah input per detiknya.
3. Variety (ragam).
Big
Data tidak hanya menyangkut data yang berupa angka-angka, data tanggal, dan
rangkaian teks. Big Data juga meliputi data-data ruang / geospatial, data 3D,
audio dan video, dan data-data teks tak berstruktur termasuk file-file log dan
media sosial. Sistem database tradisional didesain untuk menangani data-data
berstruktur, yang tak terlalu sering mengalami update atau updatenya dapat
diprediksi, serta memiliki struktur data yang konsisten yang volumenya tak
pernah sebesar Big Data. Selain itu, sistem database tradisional juga didesain
untuk digunakan dalam satu server yang berdiri sendiri, yang berakibat pada
keterbatasan dan mahalnya biaya untuk peningkatan kapasitas, sedangkan aplikasi
sudah dituntut untuk mampu melayani pengguna dalam jumlah yang jauh lebih besar
dari yang pernah ada sebelumnya. Dalam hal ini, database Big Data seperti
halnya MongoDB maupun HBase, dapat memberikan solusi yang feasible yang
memungkinkan peningkatan profit perusahaan secara signifikan.
Jenis
Teknologi Big Data : Big Data Operasional dan Big Data Analitis
Dalam hal Teknologi, bentangan Big Data didominasi oleh dua
jenis teknologi Big Data yaitu:
(1) Big Data
operasional: sistem yang memiliki kapabilitas operasional untuk
pekerjaan-pekerjaan bersifat interaktif dan real time dimana data pada umumnya
diserap dan disimpan.
Teknologi Big Data Operasional.
Untuk menangani pekerjaan-pekerjaan
Big Data Operasional, telah dibangun sistem Big Data dengan database NoSQL
seperti halnya database berbasis dokumen (document based database) yang dapat
ditujukan untuk berbagai tipe aplikasi, database key-value stores, column
family stores, dan database graph yang dioptimalkan untuk aplikasi yang lebih
spesifik. Teknologi
NoSQL, yang telah dikembangkan untuk mengatasi kekurangan dari database
relasional (relational database) pada lingkungan komputasi modern, dikenal
lebih cepat serta lebih mudah dan murah dalam hal peningkatan skala (more
scalable) dibanding relational databases.
Sistem
Big Data dengan database NoSQL telah didesain untuk memanfaatkan keunggulan
dari arsitektur cloud computing (komputasi awan) yang telah muncul dalam dekade
terakhir ini. Hal ini memungkinkan dijalankannya komputasi berskala besar
secara efisien dan dengan biaya yang relatif lebih murah. Sebagai
hasilnya, sistem NoSQL dengan komputasi awan ini telah menjadikan perangkat
kerja Big Data operasional lebih mudah dikelola, serta dapat diimplementasikan
dengan lebih murah dan cepat.
(2) Big Data analitis:
sistem yang menyediakan kapabilitas analitis untuk mengerjakan analisis yang
kompleks dan retrospektif yang dapat melibatkan sebagian besar atau bahkan
keseluruhan data. Dalam keberadaannya, kedua jenis teknologi Big Data ini
bersifat saling melengkapi dan sering digunakan secara bersamaan.
Teknologi Big Data Analitis
Dilain pihak, pekerjaan-pekerjaan
Big Data analitis cenderung diproses dengan mengimplementasikan sistem database
MPP dan MapReduce. Munculnya teknologi ini juga merupakan reaksi terhadap
keterbatasan dan kurangnya kemampuan relational database tradisional untuk
mengelola database dalam skala lebih dari satu server (terdistribusi).
Disamping itu, MapReduce juga menawarkan metode baru dalam menganalisa data
yang dapat berfungsi sebagai pelengkap terhadap kapabilitas SQL.
Dengan semakin populernya penggunaan
berbagai jenis aplikasi dan para penggunanya terus menerus memproduksi data
dari pemakaian aplikasi tersebut, terdapat sejumlah upaya analisa retrospektif
yang benar-benar dapat memberikan nilai berarti terhadap kemajuan bisnis. Ketika upaya-upaya tersebut mesti
melibatkan algoritma yang lebih rumit, MapReduce telah menjadi pilihan pertama
untuk melakukan analisa retrospektif tersebut. Beberapa sistem NoSQL juga
menyediakan fungsi MapReduce bawaan yang memungkinkan proses analisa diterapkan
pada data operasional. Sebagai alternatif lain, data juga dapat dikopi dari
sistem NoSQL ke dalam sistem analitis seperti halnya Hadoop dengan
MapReduce-nya.
Manfaat
Pemberdayaan Big Data
Serangkaian teknologi baru yang
ditujukan untuk memberdayakan Big Data telah memungkinkan direalisasikannya
suatu nilai dari Big Data. Sebagai contoh, pebisnis retail online dapat
mempelajari perilaku para pengunjungnya berdasarkan data hasil web click
tracking. Dengan mengetahui perilaku konsumen maupun calon konsumennya, maka
dimungkinkan untuk menerapkan strategi baru guna meningkatkan penjualan,
mengatur harga dan stok barang secara efisien.
Institusi pemerintah maupun Google
dapat mendeteksi timbulnya suatu wabah penyakit dengan memanfaatkan informasi
yang mengalir di media sosial. Perusahaan minyak dan gas dapat menggunakan
output dari sensor-sensor pada peralatan pengeboran untuk menemukan teknik
pengeboran yang lebih aman dan efisien.
1. Pengertian Hadoop
Hadoop
adalah framework open source berbasis Java di bawah lisensi Apache untuk
mensupport aplikasi yang jalan pada Big
Data.
Hadoop berjalan pada lingkungan yang menyediakan storage dan komputasi secara
terdistribusi ke kluster-kluster dari komputer/node.
2. Sejarah Singkat Hadoop
Asal
mula hadoop muncul karena terinspirasi dari makalah tentang Google MapReduce
dan Google File System (GFS) yang ditulis oleh ilmuwan dari Google, Jeffrey
Dean dan Sanjay Ghemawat pada tahun 2003.
Proses developmen dimulai pada saat proyek Apache Nutch, yang kemudian baru dipindahkan menjadi sub-proyek hadoop pada tahun 2006. Penamaan menjadi hadoop adalah diberikan oleh Doug Cutting, yaitu berdasarkan nama dari mainan gajah anaknya.
Proses developmen dimulai pada saat proyek Apache Nutch, yang kemudian baru dipindahkan menjadi sub-proyek hadoop pada tahun 2006. Penamaan menjadi hadoop adalah diberikan oleh Doug Cutting, yaitu berdasarkan nama dari mainan gajah anaknya.
3. Manfaat Hadoop - mengapa hadoop diperlukan?
Untuk
menjawab pertanyaan mengapa hadoop diperlukan, saya coba jabarkan dalam bentuk
perbandingan antara pendekatan tradisional (RDBMS) dengan solusi yang
ditawarkan oleh hadoop.
3.a Pendekatan Tradisional
Dalam pendekatan ini,
suatu perusahaan akan memiliki komputer skala enterprise (High-End Hardware)
untuk menyimpan dan mengolah data besar. Data besar tersebut akan disimpan
dalam RDBMS skala enterprise seperti Oracle Database, MS SQL Server atau DB2.
Dibutuhkan software canggih untuk dapat menulis, mengakses dan mengolah data besar tersebut dalam rangka kebutuhan analisis.
Dibutuhkan software canggih untuk dapat menulis, mengakses dan mengolah data besar tersebut dalam rangka kebutuhan analisis.
|
Pendekatan
Tradisional
|
Limitasi Pendekatan
Tradisional :
- Kesulitan menggolah data berukuran sangat besar (Big Data), misal 1 file berukut 500 GB, 1 TB, dst.
- Keterbatasan Hardware terhadap kemampuan pengolaha data yang besar, sehingga Waktu akses semakin lama ketika memproses data yang semakin sangat besar
- Hanya bisa data bersifat tabular
3.b. Solusi Hadoop
Dalam pendekatan ini Hadoop
mendukung pemprosesan secara terdistribusi ke kluster-kluster dari komputer.
Hadoop didukung oleh dua komponen utama.
- HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian didistribusikan ke kluster-kluster dari komputer.
- MapReduce merupakan algoritma/komputasi terdistribusi
|
Solusi
Hadoop
|
Kelebihan Solusi Hadoop
dengan didukung oleh dua komponen utama tersebut:
- Sangat baik untuk mengolah data berukuran besar, bahkan untuk ukuran 1 TB sekalipun
- Lebih cepat dalam mengakses data berukuran besar
- Lebih bervariasi data yang bisa disimpan dan diolah dalam bentuk HDFS
Namun
dengan kelebihan tersebut bukan berarti tanpa kekurangan, berikut ini
limitasi-nya.
- Tidak cocok untuk OLTP (Online Transaction Processing), di mana data dapat diakses secara randon ke Relational Database
- Tidak cocok untuk OLAP (Online Analytic Processing)
- Tidak cocok untuk DSS (Decission Support System)
- Proses update tidak bisa untuk dilakukan (seperti pada hadoop 2.2), namun untuk Append bisa dilakukan
Berdasarkan
beberapa limitasi tersebut dapat disimpulkan bahwa Hadoop adalah sebagai Solusi
Big Data untuk pengolahan data besar, menjadi pelengkap OLTP, OLAP, dan DSS,
jadi hadoop bukan untuk menggantikan RDBMS. Saya rasa untuk saat ini, namun
bisa jadi suatu saat hadoop bisa lepas dari limitasi tersebut
4. Arsitektur Hadoop atau Ekosistem Hadoop
Framework hadoop
terdiri atas empat modul/komponen utama.
- Hadoop HDFS adalah sebuah sistem file terdistribusi.
- Hadoop MapReduce adalah sebuah model programming/Algoritma untuk pengelolaan data skala besar dengan komputasi secara terdistribusi
- Hadoop YARN adalah sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan scheduling
- Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.
Komentar
Posting Komentar