Makalah Mengenai Big Data (Tidak hadir pada pertemuan -1)



MAKALAH Big Data

Big Data dan pengertiannya


BAB I
Pendahuluan

Makalah ini dibuat dengan tujuan melengkapi tugas dari mata kuliah Pengantar Komputasi Modern dan juga di era yang semakin maju ini penggunaan Big Data juga semakin marak oleh karena itu penulis juga ingin  menjelaskan kepada pembaca mengenai Big Data, dan juga kelebihan serta kekurangan dari Big Data itu sendiri. Adapun makalah ini mengacu pada pengetahuan umum mengenai Big Data dan bukan mengacu pada ilmu mendalam mengenai Big Data tersebut.

BAB II
Pembahasan

Big Data adalah istilah yang menggambarkan volume data yang besar, baik data yang terstruktur maupun data yang tidak terstruktur. Big Data telah digunakan dalam banyak bisnis. Tidak hanya besar data yang menjadi poin utama tetapi apa yang harus dilakukan organisasi dengan data tersebut. Big Data dapat dianalisis untuk wawasan yang mengarah pada pengambilan keputusan dan strategi bisnis yang lebih baik.

Sejarah Big Data


Istilah Big Data masih terbilang baru dan sering disebut sebagai tindakan pengumpulan dan penyimpanan informasi yang besar untuk analisis. Fenomena Big Data, dimulai pada tahun 2000-an ketika seorang analis industri Doug Laney menyampaikan konsep Big Data yang terdiri dari tiga bagian penting, diantaranya:

Volume Organisasi mengumpulkan data dari berbagai sumber, termasuk transaksi bisnis, media sosial dan informasi dari sensor atau mesin. Di masa lalu, aktivitas semacam ini menjadi masalah, namun dengan adanya teknologi baru (seperti Hadoop) bisa meredakan masalah ini.

·         Mengubah 12 terabyte Tweet dibuat setiap hari ke dalam peningkatan sentimen analisis produk.

·         Mengkonvert 350 milliar pembacaan tahunan untuk lebih baik dalam memprediksi kemampuan beli pasar.

Volume data juga terus meningkat sehingga tidak dapat diprediksi jumlah pasti dan juga ukuran dari data sekitar lebih kecil dari petabyte sampai zetabyte. Dataset big data sekitar 1 terabyte sampai 1 petabyte perperusahaan jadi jika big data digabungkan dalam sebuah organisasi / group perusahaan ukurannya mungkin bisa sampai zetabyte dan jika hari ini jumlah data sampai 1000 zetabyte, besok pasti akan lebih tinggi dari 1000 zetabyte.

Kecepatan Aliran data harus ditangani dengan secara cepat dan tepat bisa melalui hardware maupun software. Teknologi hardware seperti tag RFID, sensor pintar lainnya juga dibutuhkan untuk menangani data yang real-time.

·         Meneliti 5 juta transaksi yang dibuat setiap hari untuk mengidentifikasi potensi penipuan

·         Menganalisis 500 juta detail catatan panggilan setiap hari secara real-time untuk memprediksi gejolak pelanggan lebih cepat.

Berbagai jenis data dan sumber data. Variasi adalah tentang mengelolah kompleksitas beberapa jenis data, termasuk structured data, unstructured data dan semi-structured data. Organisasi perlu mengintegrasikan dan menganalisis data dari array yang kompleks dari kedua sumber informasi Traditional dan non traditional informasi, dari dalam dan luar perusahaan. Dengan begitu banyaknya sensor, perangkat pintar (smart device) dan teknologi kolaborasi sosial, data yang dihasilkan dalam bentuk yang tak terhitung jumlahnya,  termasuk text, web data, tweet, sensor data, audio, video, click stream, log file dan banyak lagi.

Variasi Data yang dikumpulkan mempunyai format yang berbeda-beda. Mulai dari yang terstruktur, data numerik dalam database tradisional, data dokumen terstruktur teks, email, video, audio, transaksi keuangan dan lain-lain.

·         Memantau 100 video masukan langsung dari kamera pengintai untuk menargetkan tempat tujuan.

·         Mengeksploitasi 80% perkembangan data dalam gambar, video, dan dokumen untuk meningkatkan kepuasan pelanggan.

Data dalam gerak. Kecepatan di mana data dibuat, diolah dan dianalisis terus menerus. Berkontribusi untuk kecepatan yang lebih tinggi adalah sifat penciptaan data secara real-time, serta kebutuhan untuk memasukkan streaming data ke dalam proses bisnis dan dalam pengambilan keputusan. Dampak Velocity latency, jeda waktu antara saat data dibuat atau data  yang ditangkap, dan ketika itu juga dapat diakses. Hari ini, data terus-menerus dihasilkan pada kecepatan yang mustahil untuk sistem tradisional untuk menangkap, menyimpan dan menganalisis. Jenis tertentu dari data harus dianalisis secara real time untuk menjadi nilai bagi bisnis.

Selain tiga bagian penting tersebut, para peneliti Big Data juga menambah bagian yang termasuk penting lainnya seperti variabilitas dan kompleksitas.

Variabilitas Selain kecepatan pengumpulan data yang meningkat dan variasi data yang semakin beraneka ragam, arus data kadang tidak konsisten dalam periode tertentu. Salah satu contohnya adalah hal yang sedang tren di media sosial. Periodenya bisa harian, musiman, dipicu peristiwa dadakan dan lain-lain. Beban puncak data dapat menantang untuk analis Big Data, bahkan dengan data yang tidak terstruktur.

Kompleksitas Hari ini, data berasal dari berbagai sumber sehingga cukup sulit untuk menghubungkan, mencocokan, membersihkan dan mengubah data di seluruh sistem. Namun, Big Data sangat dibutuhkan untuk memiliki korelasi antar data, hierarki dan beberapa keterkaitan data lainnya atau data yang acak.


BAB III
Keuntungan dan Kerugian

Tiga manfaat penting dalam penerapan Big Data dalam perusahaan : 
  1. Penghematan biaya, teknologi analisis Big Data seperti Hadoop dan analisis berbasis cloud membawa pengurangan biaya yang signifikan dalam hal untuk penyimpanan data dalam jumlah besar.
  2. Lebih cepat dan lebih baik dalam pengambilan keputusan, dengan kecepatan teknologi Big Data seperti hadoop dalam melakukan analisis dengan dikombinasikan kemampuan untuk menganalisis berbagai macam sumber data baru membuat Big Data mampu menganalisis informasi lebih cepat dan membuat keputusan dari hasil analisa tersebut.
  3. Melahirkan produk dan layanan baru, dengan kemampuan mengukur kebutuhan dan kepuasan pelanggan mendatangkan keunggulan dari bisnis untuk menciptakan produk dan layanan baru yang sesuai dengan keinginan dan kebutuhan pelanggan.
Kerugian yang didapat

1.    Struktur Data Tidak Fleksibel
Masalah utama dari partisi adalah struktur data yang tidak fleksibel. Struktur data yang kita operasikan pada teknologi big data pada umumnya sangat merepresentasikan efektifitas dan efisiensi pemrosesan yang nantinya kita lakukan.

2.    Pembengkakan Konsumsi Penyimpanan

3.    Proses Komputasi Tidak Efisien
Hal ini khususnya untuk teknologi big data yang menawarkan distributed computation seperti Hadoop MapReduce dan Apache Spark. Asumsikan kita melakukan suatu proses dengan pendekatan berbeda pada jumlah data yang sama dengan struktur partisi yang dapat ditukar, misal pada contoh diatas yang awalnya “/user/date/” menjadi “/date/user”.

·         Semakin banyak partisi berarti semakin banyak proses yang mengantri, hal ini dapat mengakibatkan bottle neck, apabila jumlah node yang kita assign terlalu sedikit, hal ini akan menjadi advantages kalau kita memang memiliki jumlah node yang banyak.

·         Begitu pula sebaliknya apabila semakin sedikit partisi, yang berarti jumlah data akan semakin banyak dalam satu partisi, maka jumlah antrian job akan semakin sedikit, namun dalam satu proses akan memakan sumber daya yang lebih banyak (lebih lama), hal ini cocok apabila node yang kita assign berjumlah sedikit atau kapasitas komputasi (RAM dan core) dalam satu node tinggi.


BAB IV
Kesimpulan

Kesimpuannya adalah pentingnya Big Data, tidak hanya berputar pada jumlah data yang organisasi miliki, tetapi hal yang penting adalah bagaimana mengolah data internal dan eksternal. Kita dapat mengambil data dari sumber manapun dan menganalisanya untuk menemukan jawaban yang diinginkan dalam bisnis seperti: pengurangan biaya,  pengurangan waktu, pengembangan produk baru dan optimalisasi penawaran produk,  pengambilan keputusan yang cerdas.

Komentar