Minggu, 25 Desember 2022

Belajar Secara Umum mengenai Big Data beserta Studi Kasusnya


Kenapa jika menggunakan aplikasi seperti itu, sering kali muncul iklan yang bersesuaian dengan apa yang sedang kita cari, atau kita inginkan. hal ini berkaitkan dengan  jejak digital dari akun kita yang telah terintegrasi dengan akun pada online shop. Bukalapak menggunakan kolaboratif filter dari histori pencarian beberapa orang. Berbeda dengan metode searching keyword yang hanya menggunakan padanan kata untuk memprosesnya. Pentingnya data di era sekarang ini.

Gojek meminjam cloud atau penyimpanan milik google untuk menyimpan data mereka. Gojek melalukan ping kepada semua driver mereka setiap 10 detik sekali, yang berarti 6 juta ping per menit dan 8 miliar per harinya (sebuah data yang besar). Bahkan dari hasil ping itu saja mereka menghasilkan 4 sampai 5 TB data setiap harinya. Hal itu dilakukan untuk memberitahu driver dimana letak permintaan dari kostumer paling kuat.Gojek disini juga menerapkan sistem dinamyc pricing, yang berarti harga akan menyesuaikan dari setiap kondisi yang ada. Misal untuk perjalanan yang sama, akan tetapi kondisi cuaca antara terang dan hujan akan menimbulkan perbedaan harga. Ada beberapa faktor yang digunakan seperti, cuaca, jarak, medan yang di tuju, waktu, ketersediaan driver, jumlah permintan kostumer, event tertentu dan lain-lain. Big data = sekumpulan data yang jumlahnya banyak, begerak cepat, dan bervariasi.

sumber :

Big Data

Big data dalam pengertian sederhana diartikan sebagai sekumpulan data yang berukuran sangat besar. Awalnya Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya ekosistem pengguna perangkat mobile dan data internet. Pertumbuhan perangkat mobile dan data internet ternyata sangat mempengaruhi perkembangan volume dan jenis data yang terus meningkat secara signifikan di dunia maya. 

Data = Sekumpulan fakta/deskripsi
Informasi = merekam atau mengambil data dan knowledge pada satu wakatu tertentu. Sedangkan data dan knowledge dapat berubah dan bertambah dari waktu ke waktu
Knowledge = apa yang kita ketahui

Menurut McKinsey Global (2011), big data dapat didefinisikan dengan data yang memiliki skala (volume), distribusi (velocity), keragaman (variety) yang sangat besar, atau abadi. Sehingga membutuhkan penggunaan arsitektur teknikal dan metode analitik yang inovatif untuk mendapatkan wawasan yang dapat memberikan nilai bisnis baru. Pada pengembangannya ada yang menyebut 7 V, 10V maupun lebih dari itu. 


Karakteristik Big Data dengan 3V

  • Volume 
    • Facebook menghasilkan 10TB data baru setiap hari, Twitter 7TB
    • Sebuah boeing 737 menghasilkan 240 terabyte data penerbangan selama penerbangan dari satu wilayah bagian AS ke wilayah yang lain.
    • Microsoft kini memiliki satu juta server, kurang dari google, tetapi lebih dari Amazon, kata Ballmer (2013)
    Teknologi big data dibagi menjadi 2 kelompok: batch processing yang mana digunakan untuk menganalisis data yang sudah settle (data at rest) pada satu waktu tertentu. Dan streaming processing yang mana digunakan untuk menganalisis data yang terus menerus terupdate setiap waktu (data in motion). 
  • Velocity
    Velocity adalah Kecepatan data yang masuk (per jam, per detik, etc). Clickstreams (web log) dan transfer data asynchronous yang dapat menangkap apa saja yang dilakukan oleh jutaan atau lebih pengguna yang lakukan saat ini. Dimana clickstream atau web log merupakan salah satu sumber data yang menarik. Sebuah clickstream meliputi suatu rekaman untuk setiap permintaan halaman dari setiap pengunjung website. Jadi, suatu clickstream merekam setiap gesture yang dibuat oleh pengunjung dan gesture ini memiliki potensi untuk memberikan deskripsi mengenai kebiasaan dari pengunjung yang bersangkutan. Diharapkan bahwa clickstream akan mengidentifikasi sesi yang berhasil dan tidak berhasil, menentukan apakah pengunjung puas atau tidak puas, dan menemukan bagian dari website yang secara efektif menarik perhatian pengunjung.

  • Variety
    Variety merupakan kumpulan dari berbagai macam data, baik data yang terstruktur, semi terstruktur maupun data tidak terstruktur (bisa dipastikan lebih mendominasi). Tampilan data semakin komprehensif (lengkap dan menyeluruh).  


Ekosistem Big Data

Keterangan
  1. Data Devices
  2. Data Collectors
  3. Data Aggregators: kompilasi informasi dari database dengan tujuan untuk mempersiapkan dataset gabungan untuk pengolahan data.
  4. Data Users/Buyers
Contoh Tool untuk Big Data Analytics
  1. Cloudera : didirikan orang-orang yang berkontribusi di project Hadoop di Apache, Memiliki pangsa pasar paling besar, membuat HD versi gratis dan juga versi enterprise yang tidak gratis, menambahkan software khusus milik mereka yang disebut Impala (Query Engine diatas HDFS, seperti Map Reduce yang bisa dijalankan dengan low-latency atau dengan waktu yang lebih pendek dibanding Map Reduce).
  2. HortonWorks : didirikan orang-orang yang berkontribusi di project Hadoop juga, diadopsi di Microsoft Azure dan menjadi Microsoft HD Insight. Partnership ini yang membuat Hortonworks sampai saat ini satu-satunya Hadoop yang compatible dan mudah dijalankan di Microsoft Windows, HD versi enterprise dari Hortonworks adalah gratis. Hortonworks mendapatkan keuntungan dari support dan training.
  3. MapR : seperti Hortonworks, memberikan gratis untuk versi enterprisenya dan mendapat keuntungan dari support dan training, digunakannya oleh dua perusahaan cloud computing yang besar Amazon dan Google, maka MapR banyak digunakan oleh pengguna cloud computing.

Disektor sektor bisnis Big Data, Google bisa dikatakan sebagai pelopor. Perusahaan yang berbasis di Mountain View, California itu di tahun 2006 sempat memperkenalkan Google Bigtable. Bigtable merupakan sistem database berskala besar dan cepat yang digunakan Google untuk mengolah berbagai jenis data dari berbagai layanan, termasuk data dari layanan mesin pencari berbasis internet.

Setelah Google, jejaring sosial milik Mar Zuckerberg, Facebook, pun menerapkan sistem database sejenis untuk menangani melonjaknya pengguna layanan mereka. Dengan teknologi Big Data, Facebook tak pernah kesulitan untuk menangani peredaran data yang melonjak drastis dalam enam tahun terakhir yang berasal dari 1 miliar pengguna jejaring sosial mereka.

Penggunaan big data mampu membuat kita untuk melihat lagi apa saja data yang kita miliki, apakah ada data yang terlantar atau terabaikan, kemudian kita dapat mengoptimalkan sumber data yang kita miliki. Namun demikian, bukan berarti dengan menggunakan big data segalanya akan berjalan dengan baik. Meski telah menganalis data dan mengetahui barang yang akan dijual sekalipun, jika tidak didistribusikan maka akan sama saja menyia-nyiakan modal berharga yang kita punya. Begitu pula apabila biaya menganalisis data jauh diatas keuntungan.

Contoh Penggunaan Big Data pada Industri

  • Penerbangan
    Setiap perusahaan penerbangan mempunyai data masing-masing, namun perusahaan penerbangan saat ini umumnya hanya menggunakan data pembelian tiket penumpang, seperti kota asal dan kota tujuan, serta pembelian tiket melalui situs resmi atau tidak.
     
    Perusahaan penerbangan tidak melihat data di luar itu, misalnya data interaksi ketika calon penumpang berada di depan komputer untuk membeli tiket. Mereka mungkin hanya melihat pelanggan terbang dari Jakarta-Jogja misalnya, tapi sebelum memutuskan itu sebenarnya dia ingin menuju Solo.

    Penting bagi perusahaan penerbangan untuk melihat pola interaksi calon penumpangnya. Sebagai contoh, ketika penumpang mengetik Solo dalam situs penjualan tiket, kemudian menge-klik back dan mengetik Jogja, kota dengan bandara terdekat dari Solo, perusahaan patut mencurigai pola interaksi seperti ini. Bisa jadi penumpang membeli tiket Jogja karena penerbangan Solo lebih terbatas atau lebih mahal. Perusahaan penerbangan dapat memanfaatkan Big Data tersebut untuk kemudian memperbanyak jumlah penerbangan ke Solo atau memberikan harga promo atau bekerja sama dengan travel agent untuk memfasilitasi penumpang dari Jogja ke Solo.

  • Perbankan
    Pada saat nasabah melakukan transaksi melalui mesin atm, Bank mungkin hanya menyimpan data transaksi banking, seperti nominal penarikan uang. Di luar itu, Bank dapat melihat data interaksi para nasabah di depan mesin atm. 

    Bank dapat mengetahui berapa lama waktu yang dibutuhkan nasabah untuk memasukkan pin dan menekan jumlah nominal penarikan uang. Lebih dari itu Bank juga dapat menganalisa kebiasaan seorang nasabah dalam menarik uang di atm.

    Jika kita tahu kebiasaan seorang nasabah mengambil uang 500 ribu, kenapa tidak ketika nasabah memasukkan kartu, kemudaian memencet pin, langsung menawarkan pilihan 500ribu. Hal tersebut dapat menjadi nilai tambah bagi Bank di mata para nasabah agar nasabah tetap setia dan menambah saldo rekeningnya.

  • Otomotif
    Penggunaan Big Data di industri otomotif, dapat digunakan untuk menghindari fraud atau penipuan/kecurangan. Di negara lain misalnya, Big Data dimanfaatkan untuk mendeteksi adanya fraud yang dilakukan dealer mobil untuk mengklaim spare parts mobil baru yang masih bergaransi. Jika sebuah dealer mengklaim suatu spare parts dalam jumlah jauh lebih besar dibanding dealer lain di daerah yang sama, produsen mobil dapat mencurigai hal ini. 

    Cara yang paling sederhana untuk mendeteksi fraud, dapat dilakukan melalui data geografis. Jika memang karena faktor cuaca atau jalan rusak mengeluhkan rem rusak dan aus, seharusnya keluhan tersebut tersebar, tapi ada dealer yang klaim parts yang lebih tinggi di banding dealer-dealer di daerah yang sama.

  • Aplikasi Big Data pada Pandemi Corona
    Dengan banyaknya informasi yang dimiliki, merupakan sebuah modal untuk melakukan suatu aksi atau tindakan. Demikian pula ditengah wabah corona ini. Banyak sekali pro kontra terkait kebijakan-kebijakan pemerintah dalam menyikapi wabah corona. Salah satu contohnya kebijakan untuk berdiam diri di rumah. Melalui gps atau cctv pemerintah dapat mengetahui tingkat kepadatan lalu lintas jalan, sehingga pemerintah dapat mengevaluasi kebijakan mereka. Jika dirasa masih banyak yang berkeliaran maka pemerintah perlu melakukan tindakan lebih lanjut lagi.

    Selain itu dalam memutuskan kebijakan mana yang tepat pastilah dipertimbangkan dari data yang ada lapangan. Seperti perlukah dilakukan lockdown untuk indonesia. Dalam hal ini saya yakin bahwa pemerintah tidak hanya mempertimbangkan aspek kesehatan saja, melainkan aspek ekonomi maupun hubungan dengan negara lain. Mungkin saja dengan data-data dari segala aspek yang berkaitan menyebabkan pemerintah belum mengambil tindakan lockdown. Meskipun ada beberapa daerah di Indonesia yang dengan sendirinya melakukan lockdown lokal. Karena pertimbangan mereka berdasaran data jumlah kasus positif, ODP maupun PDP, yang terjadi didaerah mereka.

    Big data juga dapat digunakan untuk menganalisa siapa saja atau dimana saja yang dapat dicurigai terpapar penyakit ini. Hal ini dapat dilakukan dengan memeriksa history kegiatan masing-masing orang. Misalkan menelusuri riwayat perjalanan dia selama 3 bulan terakhir. Dengan siapa saja dia bertemu, dan apakah dia sempat bertemu atau berinteraksi dengan pasien corona.

Tidak ada komentar:

Posting Komentar