Pengertian Data Science
Data sciene adalah penerapan teknik ilmiah dan matematis untuk membuat keputusan bisnis. Lebih khusus lagi, telah digunakan untuk proses penambangan data, pembelajaran mesin (ML) dan kecerdasan buatan (AI) yang semakin banyak diterapkan pada kumpulan data semi-terstruktur dan tidak terstruktur yang sangat besar ("besar") dan seringkali heterogen.
Istilah ini pertama kali diusulkan pada 1970-an sebagai sinonim untuk "ilmu komputer" dan kemudian pada 1980-an sebagai frasa alternatif untuk "statistik". Akhirnya, pada 1990-an, konsensus mulai terbentuk untuk data science sebagai praktik interdisipliner yang menggabungkan pengumpulan data, pemrosesan komputer, dan analisis. Itu dipandang sebagai "ilmiah" karena menerapkan analisis sistematis untuk observasi data di dunia nyata.
Data Science dalam Arti Luas
Dalam pengertian yang lebih luas, data science dapat dilihat sebagai penerapan teknik ilmiah dan matematis untuk membuat keputusan bisnis. Pekerjaan ini dapat dibagi menjadi tiga bidang utama:
- Mengumpulkan: Cukup mengumpulkan informasi dari sistem komputer yang berbeda dapat menjadi tantangan tersendiri. Data seringkali dalam format yang berbeda dan mungkin berisi catatan palsu atau tidak lengkap. Saat data dibersihkan dan distandarisasi, data tersebut harus disimpan agar algoritme data science dapat digunakan berulang kali di masa mendatang.
- Menganalisis: Mencari pola, dan memahami bagaimana tuntutan pada setiap tahap perusahaan berubah, membutuhkan campuran analisis statistik dan kecerdasan buatan.
- Pelaporan: Laporan dapat meringkas aktivitas, menandai perilaku anomali, dan memprediksi tren dan peluang. Tabel, bagan, visualisasi, dan ringkasan animasi dapat menceritakan kisah dan memandu pembuat keputusan.
Apa fungsi data science di departemen data yang lebih besar?
Tim pengembang, atau insinyur perangkat lunak, bergabung dengan ilmuwan data dan analis data untuk membuat alat dan solusi yang dirancang untuk mengoptimalkan pengumpulan data dari berbagai sumber, mengintegrasikan data ini, menganalisisnya, lalu mengirimkan laporan atau dasbor untuk digunakan semua orang dalam mengambil keputusan.
Banyak dari pendekatan dan alat untuk data science telah diberi nama. Beberapa yang paling umum adalah sebagai berkut:
- Data Warehouse : Di data warehouse, informasi disimpan dalam kumpulan tabel dan struktur yang tertata dengan baik, seringkali dalam basis data relasional. Data biasanya disaring dengan baik dan terkadang sudah dianalisis. Dalam industri dengan pertanyaan tentang kepatuhan hukum, data sudah diperiksa untuk anomali dan masalah untuk penyelidikan.
- Data Lake : Di data lake, idenya adalah untuk mengumpulkan informasi di repositori pusat, mirip dengan data warehouse dan memang, perbedaannya tidak terlalu jelas. Secara umum, data lake memiliki lebih banyak data mentah yang kurang disaring atau diproses. Jika pertanyaan muncul, data sudah tersedia untuk diperiksa, tetapi seringkali pekerjaan ini tidak dilakukan kecuali ada permintaan untuk jawabannya.
- Data Store : Penyimpanan data cenderung merupakan sistem yang lebih sederhana yang menawarkan lebih banyak koleksi sementara dan sementara. Contohnya mungkin semua data yang dikumpulkan oleh pabrik pada satu hari atau seminggu. Data sering diproses dan dikirim ke lake atau warehouse.
- Data Mart : Data mart dapat menawarkan kepada pengguna internal atau eksternal kumpulan data yang sudah diproses dan siap digunakan. Di dalam perusahaan, mereka mungkin menyimpan laporan resmi yang telah diperiksa dan disertifikasi. Beberapa perusahaan juga menawarkan mart eksternal yang menjual koleksi data atau menawarkannya secara gratis.
- Predicitve Analytics : Beberapa menggunakan istilah ini untuk menekankan bagaimana data science dapat membantu merencanakan masa depan dengan prediksi berdasarkan data masa lalu.
- Customers data Platform : Beberapa alat berfokus pada pelacakan pelanggan untuk membantu pemasaran. Ini sering berintegrasi dengan sumber data pihak ketiga untuk membangun model individu yang lebih baik sehingga upaya pemasaran dapat disesuaikan untuk mereka.
- Data as a Service : Beberapa perusahaan berspesialisasi dalam mengemas kumpulan data sehingga dapat diintegrasikan ke dalam ilmu data lokal.
- Integrated Development Environments (IDE) : Paket perangkat lunak ini juga digunakan oleh pengembang. Mereka mengumpulkan banyak alat umum untuk analisis, seperti paket Python atau R, dan menggabungkannya dengan editor dan pengelola file sehingga ilmuwan data dapat bereksperimen dengan menulis dan menjalankan analisis baru di satu tempat.
- Notebook : Notebook sering dianggap sebagai dokumen yang dinamis atau hidup. Mereka menyatukan teks, bagan, tabel, dan data dengan perangkat lunak yang menghasilkannya. Ini memungkinkan ilmuwan data untuk membagikan hasil mereka dan analisis yang menciptakan hasil tersebut. Pembaca tidak hanya dapat membaca teks, mereka dapat membuat perubahan dan mengeksplorasi segera.
- Notebook host : Banyak tim ilmuwan data mendedikasikan server untuk menghosting notebook. Sistem ini menyimpan data dan teks dalam hasil sehingga dapat dibaca dan dengan mudah dicoba. Beberapa perusahaan menawarkan hosting sebagai layanan.
Bagaimana beberapa perusahaan besar menggunakan data science?
Perusahaan cloud besar mencurahkan sumber daya yang besar untuk membantu pelanggan mereka mengelola dan menganalisis kumpulan data besar yang sering kali diukur dalam petabyte atau exabyte.
Dalam semua kasus ini, platform cloud utama ini menawarkan lebih banyak layanan daripada yang dapat diringkas dalam artikel singkat. Mereka menawarkan banyak opsi untuk penyimpanan dan analisis sehingga ilmuwan data dapat memilih alat terbaik untuk pekerjaan mereka.
IBM => mengintegrasikan penyimpanan datanya dengan kumpulan paket analisis statistik dan algoritme kecerdasan buatan. Alat ini, dipasarkan dalam beberapa bentuk seperti Cloud Pak untuk Data, mengelola akses dan menetapkan aturan untuk melindungi privasi sejak awal. Alat, yang tersedia baik sebagai layanan maupun untuk instalasi lokal, dapat mengintegrasikan data di berbagai cloud dan server. IBM juga menawarkan kumpulan alat dan layanan AI di bawah merek Watson-nya yang menyediakan algoritme untuk mengklasifikasikan kumpulan data dan mencari sinyal.
Oracle => menawarkan berbagai macam database yang dapat berfungsi sebagai dasar untuk data lake dan gudang, baik secara lokal, di pusat data cloud Oracle, atau gabungan keduanya. Oracle Cloud Infrastructure mendukung beberapa alat sains data standar, menggunakan R, Python, dan Matlab, sehingga informasi dari database ini dapat diubah menjadi buku catatan, laporan, atau dasbor yang diisi dengan tabel, bagan, dan grafik. Perusahaan juga telah banyak berinvestasi dalam menyediakan jalur untuk melatih model kecerdasan buatan dan menerapkannya ke dalam lingkungan produksi. Oracle membeli perusahaan dan mengabdikan pengembang untuk menghasilkan lebih banyak solusi khusus untuk industri tertentu dengan kebutuhan intensif data, seperti perawatan kesehatan.
Microsoft => Cloud Azure Microsoft menawarkan database dan opsi penyimpanan data seperti database Cosmos, yang dapat diakses pengembang melalui SQL atau NoSQL API. Layanan ilmu data Microsoft berkisar dari paket statistik hingga rutinitas kecerdasan buatan. Satu opsi, Mesin Virtual Ilmu Data, memungkinkan pengguna mem-boot instance cloud dengan semua paket umum yang dioptimalkan untuk analisis data besar dan proyek pembelajaran mesin. Alat lain, Azure Machine Learning Studio, menangani sebagian besar detail penyimpanan dan analisis data sehingga pengguna dapat membuat notebook yang menjelajahi sinyal dalam kumpulan data tanpa mengkhawatirkan konfigurasi perangkat lunak.
Amazon => Amazon menawarkan beragam koleksi opsi penyimpanan data, mulai dari versi terkelola database sumber terbuka seperti PostgreSQL hingga penyimpanan dingin untuk memelihara salinan arsip dengan harga murah. Ilmuwan data juga dapat memilih antara produk Amazon Web Services (AWS) sendiri dan beberapa dari perusahaan lain yang dihosting di cloud AWS. Alat seperti Quicksight, misalnya, dirancang untuk menyederhanakan pembuatan visualisasi data yang baik dan responsif yang juga dapat beradaptasi saat pengguna mengajukan pertanyaan. Produk lain seperti Kinesis berfokus pada tipe data tertentu, seperti video real-time atau aliran klik situs web. SageMaker mendukung tim yang ingin membuat dan menerapkan kecerdasan buatan dan pembelajaran mesin untuk membuat model dengan kekuatan prediktif.
Google => Google Cloud Platform (GCP) dapat mengumpulkan dan memproses data dalam jumlah besar menggunakan berbagai database, seperti BigQuery, yang dioptimalkan untuk kumpulan data yang sangat besar. Opsi analisis data Google mencakup alat mentah untuk membuat struktur data besar serta studio analisis data untuk dijelajahi. Colab, misalnya, menghosting notebook Jupyter untuk pekerjaan sains data yang memiliki akses tanpa batas ke banyak koleksi GPU untuk pekerjaan intensif komputasi. Perusahaan telah banyak berinvestasi dalam AI dan menawarkan berbagai alat yang mengembangkan model untuk mengekstrak wawasan dari data. VertexAI Workbench, misalnya, adalah front end berbasis Jupyter yang terhubung ke semua layanan AI backend yang tersedia di cloud Google.
Bagaimana startup dan penantang dalam menangani Data Science
Berbagai perusahaan ingin membantu orang lain memahami kebijaksanaan yang mungkin tersembunyi di dalam data mereka. Beberapa sedang membangun platform untuk menyimpan dan menganalisis data. Lainnya hanya membuat alat yang dapat dipasang di mesin lokal. Beberapa menawarkan layanan yang dapat diukur dengan byte.
Inti dari banyak produk dan layanan ini adalah paket perangkat lunak sumber terbuka seperti R atau Python, bahasa umum yang digunakan oleh ilmuwan data. Ada juga beberapa paket sumber terbuka bagus yang menawarkan lingkungan analisis data terpadu. Perangkat lunak seperti RStudiio, Eric, dan Eclipse hanyalah beberapa contoh alat yang menghadirkan lingkungan yang nyaman untuk menjelajahi data.
JetBrains menjual PyCharm, lingkungan pengembangan terintegrasi untuk membuat aplikasi Python. Banyak programmer mengerjakan ilmu data berbasis Python di sana. Perusahaan juga mendistribusikan edisi komunitas gratis yang populer di banyak sekolah.
Snowflake membuat platform penyimpanan data berbasis cloud dengan berbagai fitur termasuk keamanan siber, kolaborasi, dan kontrol tata kelola. Ada banyak kegunaan untuk data lake atau layanan gudang data ini; mendukung pembelajaran mesin dan ilmu data adalah salah satu yang paling populer. Cloud Snowflake mendukung banyak aplikasi umum dan dapat menjalankan banyak aplikasi Python pada data yang disimpan di cloud-nya.
Kaggle adalah platform ilmu data yang menawarkan penyimpanan dan analisis, baik untuk kumpulan data pribadi maupun untuk banyak kumpulan data publik dari sumber seperti pemerintah dan universitas. Ilmu data sering dilakukan dengan kode berbasis notebook yang berjalan secara lokal di cloud Kaggle menggunakan perangkat keras standar atau Unit Pemrosesan Grafis khusus atau Unit Pemrosesan Tensor. Perusahaan juga mensponsori kontes ilmu data yang digunakan beberapa perusahaan untuk memanfaatkan kreativitas dan kebijaksanaan komunitas terbuka.
Platform Databricks Lakehouse mendukung penyimpanan dan analisis data baik di cloud-nya, di banyak cloud besar, atau di tempat. Alat ini membantu mengatur alur kerja kompleks yang mengumpulkan data dari berbagai sumber, mengintegrasikannya, lalu menghasilkan bagan, grafik, tabel, dan laporan lainnya. Banyak rutinitas ilmu data yang paling umum mudah diterapkan sebagai langkah-langkah dalam alur kerja ini. Tujuannya adalah untuk menyediakan platform pengumpulan dan penyimpanan data yang kuat yang juga menghasilkan ilmu data yang baik dalam prosesnya.
Adakah yang tidak bisa dilakukan oleh Data Science?
Pertanyaan tentang keterbatasan sains telah menjadi pertanyaan yang mendalam dan seringkali filosofis bagi para ilmuwan selama bertahun-tahun. Pertanyaan yang sama tentang kekuatan dan ketepatan alat matematika penting bagi pengguna yang ingin memahami bagaimana bisnis dan organisasi lain berfungsi. Batasan analisis statistik dan pembelajaran mesin juga berlaku untuk pekerjaan ilmu data.
Dalam banyak kasus, masalahnya bukan pada matematika atau algoritme. Cukup mengumpulkan data berkualitas baik adalah sebuah tantangan. Analisis tidak dapat benar-benar mulai dapat dipercaya sampai ilmuwan data memastikan bahwa data mereka dapat diandalkan dan konsisten.
Tidak ada komentar:
Posting Komentar