Wednesday, March 19, 2014

Hadoop Distributed File System (HDFS)

HDFS adalah filesystem yang berbasis Java, yang meyimpan file dalam jumlah besar dan disimpan secara terdistribusi didalam banyak komputer yang saling berhubungan (file dipecah dalam bentuk block sebesar 64MB - bisa diatur besarnya). Data direplikasi umumnya ke dalam 3 node, dua di rack yang sama dan satu di rack yang berbeda, hal ini bertujuan untuk menjaga realibility dari HDFS. Filesystem ini membutuhkan server induk yang dinamakan namenode, berfungsi untuk menyimpan metadata dari data yang ada didalam HDFS 

Datanya sendiri disimpan didalam server-server yang dinamakan datanode yang dapat diakses dengan menggunakan protokol HTTP. Datanode ini bisa saling berkomunikasi satu sama lain untuk menjaga konsistensi data dan memastikan proses replikasi data berjalan dengan baik.
Kelemahan dari HDFS ini adalah masternode masih bersifat Single Point of Failure sehingga apabila server masternode mati maka data akan hilang. Memang didalam HDFS ada yang dinamakan secondary namenode yang seringkali menimbulkan kesalahpahaman pengertian bahwa apabila primary namenode mati maka akan langsung digantikan oleh secondary namenode. Padahal secondary namenode ini hanya menyimpan informasi terbaru dari struktur direktori pada primary namenode. Salah satu jalan untuk mengantisipasi problem SPOF pada primary namenode adalah dengan membuat cloning dari server namenode ini di server yang berbeda, sehingga apabila server primary namenode mengalami masalah/mati dapat langsung digantikan oleh kloningnya

No comments:

Post a Comment