HDFS adalah filesystem yang berbasis Java, yang meyimpan file dalam jumlah
besar dan disimpan secara terdistribusi didalam banyak komputer yang saling
berhubungan (file dipecah dalam bentuk block sebesar 64MB - bisa diatur
besarnya). Data direplikasi umumnya ke dalam 3 node, dua di rack yang sama dan
satu di rack yang berbeda, hal ini bertujuan untuk menjaga realibility dari
HDFS. Filesystem ini membutuhkan server induk yang dinamakan namenode,
berfungsi untuk menyimpan metadata dari data yang ada didalam HDFS
Datanya
sendiri disimpan didalam server-server yang dinamakan datanode yang dapat
diakses dengan menggunakan protokol HTTP. Datanode ini bisa saling
berkomunikasi satu sama lain untuk menjaga konsistensi data dan memastikan
proses replikasi data berjalan dengan baik.
Kelemahan
dari HDFS ini adalah masternode masih bersifat Single Point of Failure sehingga
apabila server masternode mati maka data akan hilang. Memang didalam HDFS ada
yang dinamakan secondary namenode yang seringkali menimbulkan kesalahpahaman
pengertian bahwa apabila primary namenode mati maka akan langsung digantikan
oleh secondary namenode. Padahal secondary namenode ini hanya menyimpan
informasi terbaru dari struktur direktori pada primary namenode. Salah satu
jalan untuk mengantisipasi problem SPOF pada primary namenode adalah dengan
membuat cloning dari server namenode ini di server yang berbeda, sehingga
apabila server primary namenode mengalami masalah/mati dapat langsung
digantikan oleh kloningnya
No comments:
Post a Comment