Wednesday, January 8, 2020

Apa Itu Hadoop?

Istilah Hadoop sudah banyak dikenal banyak orang. Beberapa perusahaan terkenal seperti Microsott, Oracle, IBM telah memasukan produk Hadoop dalam portofolio produknya. Apa itu Hadoop dan seperti apa software ini bekerja akan diulas dalam artikel berikut.

Apa Itu Hadoop?

Big data mulai jadi trend teknologi saat ini. Salah satu software platform yang bisa digunakan untuk mengelola Big Data adalah Hadoop. Secara ringkas Hadoop adalah software yang mampu menghubungkan banyak komputer untuk dapat bekerja sama dan saling terhubung untuk menyimpan dan mengelola data dalam satu kesatuan.

Hadoop meyimpan dan mengolah big data menggunakan model pemrograman MapReduce. Map Reduce adalah model pemrograman rilisan google yang bisa digunakan untuk memproses data dalam ukuran besarsecara terdistribusi dan paralel dalam cluster yang terdiri dari komputer berjumlah ribuan.

Sejarah muncul Hadoop

Pembuatan Hadoop adalah sebuah inspirasi setelah terbitnya paper Google File System (GFS) pada Oktober 2003. Isi dari paper tersebut adalah gambaran tentang Big Data yang digunakan untuk menampung data milik Google yang sangat besar. Pada tahun 2005, Doug Cutting dan Mike Cafarella menciptakan Hadoop saat bekerja pada perusahaan Yahoo!. Perbedaan dari Big Data yang dimiliki Google dan Hadoop terlihat dari sifatnya yang closed source dan open source. Siapa sangka, ternyata kata Hadoop adalah inspirasi yang didapatkan dari mainan gajah kecil berwarna kuning milik anak Doug Couting. Hadoop versi 0.1.0 akhirnya rilis pada bulan April 2006, sampai versi terakhir Hadoop yang rilis pada Maret 2017 adalah Apache Hadoop 2.8. Pada versi terbaru ini, layanan yang diberikan Hadoop juga termasuk untuk HDFS (Hadoop Distributed File System), Yarn (Yet Another Resource Negotiator) dan MapReduce (https://hadoop.apache.org/docs/r2.8.0/).

Implementasi Hadoop

Hadoop digadang-gadang mampu menyelesaiakan permasalahan yang berkaitan dengan data dengan jumlah yang sangat besar atau Big Data. Dengan banyaknya aliran data dalam perkembangan internet saat ini, Hadoop dapat menjadi solusi saat diperlukan model penyimpanan dan pengelolaan data dalam jumlah yang sangat besar. Selain itu, dengan adanya variasi data yang sangat banyak serta kebutuhan akses data yang harus cepat pula, Hadoop diharapkan dapat menyelesaikan permasalahan tersebut.
Beberapa perusahaan besar menggunakan Hadoop untuk mengelola data mereka dalam jumlah sangat besar. Perusahaan tersebut diantaranya Yahoo! dan Facebook dengan klaim bahwa Facebook memiliki Cluster Hadoop terbesar di dunia, yakni per 13 Juni 2012 mereka memiliki 100 petabyte dan per tanggal 8 November 2012, penggunaan data di Facebook naik kurang lebih setengah Petabyte per hari. 1 Petabyte setara dengan 1.000.000 Gigabyte. Tidak heran, karena jumlah pengguna Faecbook di seluruh dunia hampir mencapai 2 milyar. Bayangkan jumlah data yang mengalir dan disimpan setiap harinya.

Teknologi Dibalik  Hadoop

Untuk mengetahui bagaimana Hadoop digunakan, berikut adalah software-software yang ada di dalam Hadoop:
1. Core Hadoop
Core Hadoop terdiri dari Hadoop Distributed File System (HDFS) dan MapReduce yang bisa diunduh di website Apache Hadoop. HDFS berfungsi untuk mendukung pengolahan data yang besar karena ketika data diproses melalui HDFS, data tersebut dibagi-bagi ke dalam bagian yang lebih kecil dan akan diproses secara paralel. Sedangkan Map digunakan untuk melanjutkan proses dari HDFS untuk diubah menjadi tuple, yakni pasangan key dan valuenya. Selanjutnya melalui tahap Reduce, data yang berasal dari Map dilakukan tahap Shuffle dan reduce untuk dikembalikan lagi ke HDFS.
2. Data Mining
Contoh data mining yang dapat digunakan dengan Hadoop diantaranya Apache Pig dan Apache Hive. Data mining sebenarnya merupakan API (Application Programming Interface) untuk menjalankan MapReduce.
3. Database NoSQL (Not Only SQL)
Tidak seperti database relasional, database NoSQL merupakan database yang tidak menggunakan relasi antar tabel dan data yang disimpan fleksibel. Database NoSQL dibutuhkan agar akses data dapat dilakukan dengan lebih cepat. Contoh database NoSQL adalah Apache HBase.
4. Software pendukung lainnya
Software lainnya yang digunakan sebagai perangkat pendukung misalnya untuk mengatur distribusi data dan pemrosesan data, mengatur input ke dalam Hadoop dari sumber data yang bersifat streaming. Ada banyak software pendukung lainnya yang memiliki fungsi masing-masing. Anda dapat memilih software apa yang akan diinstal tergantung dari kebutuhan Anda.
Proses instalasi Hadoop tidak terlalu sulit. Setelah Anda mengunduh core Hadoop, akan ada petunjuk untuk menjalankannya. Sebelum Anda menggunakan Hadoop, pastikan komputer Anda memiliki Java terlebih dahulu. Hadoop bisa digunakan untuk satu komputer maupun untuk banyak komputer.
Pelajari Hadoop sekarang dengan mengunduhnya di http://hadoop.apache.org.

Sunday, January 5, 2020

Membuka Port Web Server Pada CENTOS

Web server pada VPS memerlukan pengaturan port untuk dapat memberikan akses ke web. Port yang diperlukan untuk dibuka pada iptables adalah port 80 (http) dan port 443 (https). Terdapat dua cara untuk melakukan setting ini :
1. Dengan melakukan edit pada /etc/sysconfig/iptables/ dengan perintah berikut ini:
vi /etc/sysconfig/iptables
# Firewall configuration written by system-config-firewall
# Manual customization of this file is not recommended.
*filter
:INPUT ACCEPT [0:0]
:FORWARD ACCEPT [0:0]
:OUTPUT ACCEPT [0:0]
-A INPUT -m state –state ESTABLISHED,RELATED -j ACCEPT
-A INPUT -p icmp -j ACCEPT
-A INPUT -i lo -j ACCEPT
-A INPUT -m state –state NEW -m tcp -p tcp –dport 22 -j ACCEPT
-A INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT
-A INPUT -m state –state NEW -m tcp -p tcp –dport 443 -j ACCEPT
-A INPUT -j REJECT –reject-with icmp-host-prohibited
-A FORWARD -j REJECT –reject-with icmp-host-prohibited
Tambahkan teks yang diblok kedalam file iptables
2. Dengan mengetikkan perintah pada command seperti di bwah ini:
iptables -A INPUT -p tcp -m tcp --dport 80 -j ACCEPT
iptables -A INPUT -p tcp -m tcp --dport 443 -j ACCEPT
iptables -I INPUT -m state --state ESTABLISHED,RELATED -j ACCEPT
Simpan iptables tadi dengan perintah
service iptables save
Kemudian lakukan restart iptables untuk menjalankannya
service iptables restart
Lakukan pengecekan setting iptables dengan perintah
 iptables -L
Chain INPUT (policy ACCEPT)
target prot opt source destination
ACCEPT all — anywhere anywhere state RELATED,ESTABLISHED
ACCEPT icmp — anywhere anywhere
ACCEPT all — anywhere anywhere
ACCEPT tcp — anywhere anywhere state NEW tcp dpt:ssh
ACCEPT tcp — anywhere anywhere state NEW tcp dpt:http i
REJECT all — anywhere anywhere reject-with icmp-host-prohibited
 
Jika sudah lakukan pengecekan dengan membuka web yang diletakkan di server via browser.