MAKALAH Big Data
Big Data dan
pengertiannya
BAB I
Pendahuluan
Makalah ini dibuat dengan tujuan melengkapi
tugas dari mata kuliah Pengantar Komputasi Modern dan juga di era yang semakin
maju ini penggunaan Big Data juga semakin marak oleh karena itu penulis juga
ingin menjelaskan kepada pembaca mengenai
Big Data, dan juga kelebihan serta kekurangan dari Big Data itu sendiri. Adapun
makalah ini mengacu pada pengetahuan umum mengenai Big Data dan bukan mengacu
pada ilmu mendalam mengenai Big Data tersebut.
BAB II
Pembahasan
Big Data adalah istilah yang menggambarkan
volume data yang besar, baik data yang terstruktur maupun data yang tidak
terstruktur. Big Data telah digunakan dalam banyak bisnis. Tidak hanya besar
data yang menjadi poin utama tetapi apa yang harus dilakukan organisasi dengan
data tersebut. Big Data dapat dianalisis untuk wawasan yang mengarah pada
pengambilan keputusan dan strategi bisnis yang lebih baik.
Istilah Big Data masih terbilang baru dan
sering disebut sebagai tindakan pengumpulan dan penyimpanan informasi yang
besar untuk analisis. Fenomena Big Data, dimulai pada tahun 2000-an ketika
seorang analis industri Doug Laney menyampaikan konsep Big Data yang terdiri
dari tiga bagian penting, diantaranya:
Volume Organisasi mengumpulkan data dari
berbagai sumber, termasuk transaksi bisnis, media sosial dan informasi dari
sensor atau mesin. Di masa lalu, aktivitas semacam ini menjadi masalah, namun
dengan adanya teknologi baru (seperti Hadoop) bisa meredakan masalah ini.
·
Mengubah
12 terabyte Tweet dibuat setiap hari ke dalam peningkatan sentimen analisis
produk.
·
Mengkonvert
350 milliar pembacaan tahunan untuk lebih baik dalam memprediksi kemampuan beli
pasar.
Volume data juga terus meningkat sehingga tidak
dapat diprediksi jumlah pasti dan juga ukuran dari data sekitar lebih kecil
dari petabyte sampai zetabyte. Dataset big data sekitar 1 terabyte sampai 1
petabyte perperusahaan jadi jika big data digabungkan dalam sebuah organisasi /
group perusahaan ukurannya mungkin bisa sampai zetabyte dan jika hari ini
jumlah data sampai 1000 zetabyte, besok pasti akan lebih tinggi dari 1000
zetabyte.
Kecepatan Aliran data harus ditangani dengan
secara cepat dan tepat bisa melalui hardware maupun software. Teknologi
hardware seperti tag RFID, sensor pintar lainnya juga dibutuhkan untuk menangani
data yang real-time.
·
Meneliti
5 juta transaksi yang dibuat setiap hari untuk mengidentifikasi potensi
penipuan
·
Menganalisis
500 juta detail catatan panggilan setiap hari secara real-time untuk
memprediksi gejolak pelanggan lebih cepat.
Berbagai jenis data dan sumber data. Variasi
adalah tentang mengelolah kompleksitas beberapa jenis data, termasuk structured
data, unstructured data dan semi-structured data. Organisasi perlu
mengintegrasikan dan menganalisis data dari array yang kompleks dari kedua
sumber informasi Traditional dan non traditional informasi, dari dalam dan luar
perusahaan. Dengan begitu banyaknya sensor, perangkat pintar (smart device) dan
teknologi kolaborasi sosial, data yang dihasilkan dalam bentuk yang tak
terhitung jumlahnya, termasuk text, web
data, tweet, sensor data, audio, video, click stream, log file dan banyak lagi.
Variasi Data yang dikumpulkan mempunyai format
yang berbeda-beda. Mulai dari yang terstruktur, data numerik dalam database
tradisional, data dokumen terstruktur teks, email, video, audio, transaksi
keuangan dan lain-lain.
·
Memantau
100 video masukan langsung dari kamera pengintai untuk menargetkan tempat
tujuan.
·
Mengeksploitasi
80% perkembangan data dalam gambar, video, dan dokumen untuk meningkatkan
kepuasan pelanggan.
Data dalam gerak. Kecepatan di mana data
dibuat, diolah dan dianalisis terus menerus. Berkontribusi untuk kecepatan yang
lebih tinggi adalah sifat penciptaan data secara real-time, serta kebutuhan
untuk memasukkan streaming data ke dalam proses bisnis dan dalam pengambilan
keputusan. Dampak Velocity latency, jeda waktu antara saat data dibuat atau
data yang ditangkap, dan ketika itu juga
dapat diakses. Hari ini, data terus-menerus dihasilkan pada kecepatan yang
mustahil untuk sistem tradisional untuk menangkap, menyimpan dan menganalisis.
Jenis tertentu dari data harus dianalisis secara real time untuk menjadi nilai
bagi bisnis.
Selain tiga bagian penting tersebut, para
peneliti Big Data juga menambah bagian yang termasuk penting lainnya seperti
variabilitas dan kompleksitas.
Variabilitas Selain kecepatan pengumpulan data
yang meningkat dan variasi data yang semakin beraneka ragam, arus data kadang
tidak konsisten dalam periode tertentu. Salah satu contohnya adalah hal yang
sedang tren di media sosial. Periodenya bisa harian, musiman, dipicu peristiwa
dadakan dan lain-lain. Beban puncak data dapat menantang untuk analis Big Data,
bahkan dengan data yang tidak terstruktur.
Kompleksitas Hari ini, data berasal dari
berbagai sumber sehingga cukup sulit untuk menghubungkan, mencocokan,
membersihkan dan mengubah data di seluruh sistem. Namun, Big Data sangat
dibutuhkan untuk memiliki korelasi antar data, hierarki dan beberapa
keterkaitan data lainnya atau data yang acak.
BAB III
Keuntungan dan Kerugian
Tiga manfaat penting dalam penerapan Big Data dalam
perusahaan :
- Penghematan biaya, teknologi analisis Big Data seperti Hadoop dan analisis berbasis cloud membawa pengurangan biaya yang signifikan dalam hal untuk penyimpanan data dalam jumlah besar.
- Lebih cepat dan lebih baik dalam pengambilan keputusan, dengan kecepatan teknologi Big Data seperti hadoop dalam melakukan analisis dengan dikombinasikan kemampuan untuk menganalisis berbagai macam sumber data baru membuat Big Data mampu menganalisis informasi lebih cepat dan membuat keputusan dari hasil analisa tersebut.
- Melahirkan produk dan layanan baru, dengan kemampuan mengukur kebutuhan dan kepuasan pelanggan mendatangkan keunggulan dari bisnis untuk menciptakan produk dan layanan baru yang sesuai dengan keinginan dan kebutuhan pelanggan.
Kerugian yang didapat
1.
Struktur
Data Tidak Fleksibel
Masalah utama dari
partisi adalah struktur data yang tidak fleksibel. Struktur data yang kita
operasikan pada teknologi big data pada umumnya sangat merepresentasikan
efektifitas dan efisiensi pemrosesan yang nantinya kita lakukan.
2.
Pembengkakan
Konsumsi Penyimpanan
3.
Proses
Komputasi Tidak Efisien
Hal ini khususnya untuk
teknologi big data yang menawarkan distributed computation seperti Hadoop
MapReduce dan Apache Spark. Asumsikan kita melakukan suatu proses dengan
pendekatan berbeda pada jumlah data yang sama dengan struktur partisi yang
dapat ditukar, misal pada contoh diatas yang awalnya “/user/date/” menjadi
“/date/user”.
·
Semakin
banyak partisi berarti semakin banyak proses yang mengantri, hal ini dapat
mengakibatkan bottle neck, apabila jumlah node yang kita assign terlalu
sedikit, hal ini akan menjadi advantages kalau kita memang memiliki jumlah node
yang banyak.
·
Begitu
pula sebaliknya apabila semakin sedikit partisi, yang berarti jumlah data akan
semakin banyak dalam satu partisi, maka jumlah antrian job akan semakin
sedikit, namun dalam satu proses akan memakan sumber daya yang lebih banyak
(lebih lama), hal ini cocok apabila node yang kita assign berjumlah sedikit
atau kapasitas komputasi (RAM dan core) dalam satu node tinggi.
BAB IV
Kesimpulan
Kesimpuannya adalah pentingnya Big Data, tidak
hanya berputar pada jumlah data yang organisasi miliki, tetapi hal yang penting
adalah bagaimana mengolah data internal dan eksternal. Kita dapat mengambil
data dari sumber manapun dan menganalisanya untuk menemukan jawaban yang
diinginkan dalam bisnis seperti: pengurangan biaya, pengurangan waktu, pengembangan produk baru dan
optimalisasi penawaran produk, pengambilan keputusan yang cerdas.
Komentar
Posting Komentar