Hadoop Untuk Big Data

Adhy Wiranto
3 min readJan 17, 2021

--

Pembahasan

Hadoop adalah software framework yang dikembangkan oleh Apache Foundation yang memungkinkan pemrosesan data berukuran besar secara terdistribusi dengan melibatkan berkluster-kluster komputer. Hadoop memanfaatkan server yang mengendalikan puluhan bahkan ribuan komputer yang digunakan sebagai fasilitas penyimpanan data secara terlokalisasi (Apache Hadoop, 2020). Arsitektur yang dibuat oleh Google menjadi inspirasi bagi terbentuknya Hadoop yang terdiri dari komponen utama yaitu Google File System dan MapReduce (Beakta, R., 2015). Hadoop memiliki banyak teknologi yang ada padanya, adapun teknologi utama antara lain HDFS (Hadoop Distributed File System) dan MapReduce.

A. HDFS (Hadoop Distributed File System)

HDFS merupakan sistem terdistribusi yang sangat cocok digunakan untuk mengolah data dengan volume tinggi karena sistem ini memiliki toleransi tinggi terhadap kegagalan sistem. Arsitektur HDFS terdiri dari node master dan node slave. Namenode merupakan master node yang mengatur lalu lintas data yang dimana data-data tersebut disimpan kedalam node node dibawahnya yang bernama Datanode. Datanode ini berjumlah lebih banyak dari node masternya dan masing-masing memiliki data yang sama antara satu dengan yang lain dimana ini berguna untuk pengolahan data secara paralel sehingga pekerjaan menjadi lebih cepat dan efisien. Dan juga manfaat dari datanode ini adalah ketika salah satu datanode ada yang rusak, maka pengolahan data akan dilemparkan ke datanode yang lain, inilah salah satu alasan mengapa HDFS disebut high-tolerant system. Dokumen pada datanode disimpan kedalam bentuk blok-blok yang memiliki ukuran default sebesar 64MB (Wu, S., 2015).

Arsitektur dari HDFS
Arsitektur dari HDFS

B. MapReduce

MapReduce diperkenalkan oleh Google pada 2004. MapReduce terdiri dari dua kata yang mewakili 2 proses utamanya yaitu Map dan Reduce. Kedua proses ini dibagi-bagi per kluster komputer-komputer lalu kedua proses tersebut dijalankan secara paralel tanpa adanya interupsi pada masing-masing kluster sehingga mempercepat pengolahan data. Hasil pengolahan dari kluster-kluster ini berupa bagian-bagian kecil dari keutuhan hasilnya sehingga diperlukannya penggabungan lalu diolah kembali sehingga menghasilkan data yang utuh, inilah yang dilakukan proses Map dan Reduce.

MapReduce memiliki tiga komponen dasar pada arsitekturnya :

1. Client : pengerjaan suatu data, tersimpan dalam bentuk file JAR dan tersimpan di HDFS. Tugas cilent adalah mendisribusikan file JAR tersebut dalam bentuk path/jalur kepada JobTracker.

2. JobTracker : JobTracker merupakan otak dari seluruh proses yang terjadi, dimana dia berkomunikasi dengan TaskTracker untuk mengumpulkan informasi laporan pengerjaan.

3. TaskTracker : TaskTracker disebut sebagai pengamat, setiap task-task yang berjalan dia mencatat setiap proses dan hasilnya akan dilaporkan kepada JobTracker.

Arsitektur dari MapReduce
Arsitektur dari MapReduce

C. YARN

YARN merupakan hasil pembaruan dari MapReduce dimana memberikan solusi terhadap limitasi yang ada pada versi sebelumnya, MapReduce (Wu, S. 2015).

Arsitektur dari YARN

Dapat dilihat bahwa istilah-istilah pada arsitektur berubah namun fungsinya relatif sama dan perbedaannya ada pada setiap task yang ada pada NodeManager(sebelumnya TaskTracker) dapat saling menggunakan resource-nya, inilah yang paling membedakan YARN dengan MapReduce.

Referensi

Wu, S. (2015). Big Data Processing With Hadoop. Finlandia: Turku University of Applied Sciences.

Murthy, A.C., Vavilapalli, V.K., Eadline, D., Niemiec, J., Marhkam, J. (2014). Apache Hadoop YARN. Diambil dari http://docshare01.docshare.tips/files/23721/237219777.pdf.

Beakta, R. (2015). Big Data And Hadoop: A Review Paper. Baddi, India: Baddi University of Emerging Sciences & Technology.

Apache Hadoop. (2020). Apache Hadoop. https://hadoop.apache.org/. (diakses pada 1 oktober 2020).

--

--