Wednesday, March 19, 2014
Apa itu Hadoop?
Salam Bolotekno, Sebelumnya pernah mendengar kata Big Data? dengan datanya yang sangat besar dan banyak, tetapi sangat menguntungkan bagi perusahaan. Kesulitan ini berujung pada lamanya melakukan proses pengolahan dari Big Data dan membutuhkan resource yang cukup besar. Dan untuk itu munculnya Hadoop yang di dampingi oleh Apache. Apache Hadoop adalah sebuah framework yang dibangun menggunakan bahasa Java, digunakan untuk komputasi dan pemprosesan dataset yang besar (bahkan sangat besar) secara terdistribusi. Asal kata Hadoop terinspirasi dari panggilan anaknya ke mainan gajah yang berwarna kuning (Doug Cutting). Kata inovator Hadoop.
Hadoop terdiri dari 4 bagian proyek:
- Hadoop common
- Hadoop Distributed File System HDFS
- Hadoop YARN
- Hadoop MapReduce
Selain itu, proyek dari Apache yang memiliki hubungan dengan Hadoop, seperti Hbase, Hive, Cassandra,Mahout. Hadoop digunakan oleh Perusahaan sebagai pengolah distribusi mereka, seperti Yahoo, Facebook, dan Google. Hal ini karena Hadoop bisa bekerja pada komputer dengan requarement yang cukup minimal, sehingga bisa mengurangi biaya operasi dari Perusahaan.
Hadoop Distributed File System HDFS, digunakan sebagai media penyimpanan file yang telah di bagi-bagi berdasarkan block, dan block - block ini terdapat di lokasi yang berbeda dan dilakukan replikasi dengan urutan block yang mungkin tidak sama per node. HDFS bisa bersifat single node atau multiple node. HDFS berdiri di atas native file system, jadi dia berdiri di atas nativenya seperti EXT3,EXT4,FAT ataupun NTFS.
Map Reduce adalah framework yang digunakan untuk mengakses data yang terpadat pada node dan memanipulasinya sesuai kebutuhan. MapReduce ini dapat digunakan dengan menggunakan bahasa pemograman JAVA.
Banyak proyek yang bermunculan berkaitan dengan Hadoop karena tingkat kesulitan dalam menggunakan framework Hadoop yang sudah ada seperti Hive dan Pig. Dengan menggunakan Hive atau Pig kita menggunakan bahasa tingkat tinggi yang disediakan masing-masing tools. Pig menggunakan data flow programming sedangkan Hive menggunakan Query yang mirip SQL.
Kemudian ada utiliti lain yaitu Scoop yang dikembangkan oleh Cloudera, perusahaan yang berisi personel yang pernah bekerja di google, yahoo, facebook, dan lainnya. Scoop memudahkan kita untuk transformasi data-data dari RDBMS ke dalam HDFS.
Kemudian ada database yang menggunakan framework Hadoop yaitu HBASE yang diinspirasi dari Big Tablenya Google. Dan Hbase inilah yang Google gunakan sebagai pengolah data mereka. Selain kedua tadi Amazon mengeluarkan HDFS keluaran mereka, yang mereka namakan Amazon file S3. Facebook mengklaim dirinya sebagai pengguna Cluster Hadoop terbesar.
Selain Seri free dan Open source, beberapa perusahaan juga mengeluarkan seri komersial mereka seperti IBM, EMC, Cloudera, dan lainnya. IBM mengerluarkan Seri mereka untuk Hadoop, mereka beri nama WebSphere eXtreme Scale. IBM juga mengeluarkan seri Hadoop mereka yang bernama InfoSpehe BigInsight, Hadoop versi memiliki kemampuan Hadoop versi Basic dan enterprise.
Selain IBM ada juga Cloudera, CDH (Cloudera Distribution Including Apache Hadoop), seri ini merka keluarkan dalam beberapa paket. Seperti Cloudera Enterprise dan Cloudera free. Cloudera Free lebih bersifat basic dan simple. Berbeda dengan Cloudera Enterprise, yang lebih kompleks, bisa di tambahkan mencapai 50 node, selain itu Cloudera Enterprise mendapatkan support 24 jam. Dan juga para pengguna Cloudera Enterprise akan mendapatkan Cloudera Manager. Cloudera Manager berfungsi untuk mengatur mesin-mesin yang terhubung.
Saingan mereka berdua datang dari EMC, EMC mengeluarkan seri mereka EMC Greenplum Community Edition and EMC Greenplum HD Enterprise Edition pada medi 2011. perbedaanya EMC Greenplum Community Edition bersifat free, dan fungsi-fungsi lebih ke arah basic, dan tidak mendapatkan support. Berbeda dengan EMC Greenplum HD enterprise Edition, lebih bersifat kompleks, dan medapatkan suport selama 24 jam. Selain itu pengguna versi komersil, mendapatkan MapReduce aplikasion,dan juga beberapa fitur milik EMC.
Apa pun itu Hadoop sangat berharga untuk dipelajari, karena trend Big Data di Masa mendatang sudah di depan mata, karena itu Hadoop menjadi bagian penting menyelesaikan persoalan Big Data.
Asal Berita
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment