MENGENAL LEBIH DEKAT DENGAN METODOLOGI DATA SCIENCE

Metodologi data science adalah langkah-langkah digunakan dalam proyek data science agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan. Metodologi ini tidak bergantung pada teknologi atau tools tertentu.





Metodologi ini terdiri dari enam tahap utama, yaitu:

1. Pemahaman Bisnis

Pemahaman bisnis adalah tahap pertama dari metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM). Pemahaman bisnis merupakan proses memahami konteks bisnis dan tujuan dari proyek data science yang akan dilakukan.

Dalam tahap ini, data scientist harus memahami bagaimana proyek data science akan membantu mencapai tujuan bisnis dan menjawab pertanyaan-pertanyaan seperti:

  1. Apa yang ingin dicapai oleh proyek ini?
  2. Bagaimana proyek ini akan membantu mencapai tujuan bisnis?
  3. Siapa yang akan terlibat dalam proyek ini dan apa kepentingannya?
  4. Apa batasan waktu dan anggaran yang tersedia untuk proyek ini?

Pemahaman bisnis sangat penting karena membantu menentukan arah proyek data science dan memastikan bahwa proyek tersebut relevan dengan tujuan bisnis yang ingin dicapai. Ini juga membantu menentukan apakah proyek data science merupakan prioritas utama bagi organisasi dan apakah sumber daya yang tersedia cukup untuk menyelesaikan proyek dengan sukses.

Kamu dapat mengukur Pencapaian dalam proyek menggunakan Bussiness Metric


2. Pemahaman Data

Tahap kedua dari metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM). Pemahaman data merupakan proses mengumpulkan dan mengidentifikasi data yang tersedia serta menentukan apakah data tersebut cukup dan sesuai untuk tujuan proyek data science.

Dalam tahap ini, data scientist harus memahami apa yang terkandung dalam data yang tersedia, bagaimana data tersebut terkumpul, dan apakah data tersebut cukup dan sesuai untuk tujuan proyek. Ini juga termasuk proses menentukan kebutuhan data yang belum terpenuhi dan cara untuk mengumpulkan data tersebut.

Pemahaman data sangat penting karena data yang tidak sesuai atau tidak cukup akan mempengaruhi keakuratan dan keandalan hasil analisis. Oleh karena itu, data scientist harus memastikan bahwa data yang digunakan adalah data yang tepat dan cukup sebelum melanjutkan ke tahap selanjutnya dalam metodologi CRISP-DM.



UNTUK MEMAHAMI TENTANG DATA KAMU DAPAT MENGGUNAKAN ANALYTIC APPROACH 



. Persiapan Data

Tahap ketiga dalam metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM). Persiapan data merupakan proses menyiapkan data untuk analisis dengan cara mengidentifikasi dan mengatasi masalah yang mungkin terjadi pada data







Dalam tahap ini, data scientist akan melakukan beberapa langkah seperti:Pembersihan data: Mengatasi masalah seperti data yang hilang, tidak valid, atau tidak sesuai dengan format yang diharapkan.

  1. Integrasi data: Menggabungkan data dari sumber yang berbeda menjadi satu set data yang terintegrasi.
  2. Transformasi data: Menyesuaikan data agar sesuai dengan format yang diinginkan atau memodifikasi data agar sesuai dengan kebutuhan analisis yang diinginkan.
  3. Penyiapan data untuk modeling: Menyiapkan data untuk digunakan dalam proses modeling dengan cara membagi data menjadi data “latih” dan data “test” sesuai dengan kebutuhan.

Persiapan data sangat penting karena data yang tidak sesuai atau tidak cukup akan mempengaruhi keakuratan dan keandalan hasil analisis. Oleh karena itu, data scientist harus memastikan bahwa data yang akan digunakan telah diperiksa dengan hati-hati dan dipersiapkan dengan benar sebelum melanjutkan ke tahap selanjutnya dalam metodologi CRISP-DM.


4. Modeling

 

Tahap keempat dalam metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM). Modeling merupakan proses menggunakan algoritme atau teknik statistik untuk menemukan pola dalam data.

Dalam tahap ini, data scientist akan memilih algoritme atau teknik yang sesuai dengan tujuan proyek dan menyesuaikan parameter algoritme tersebut sesuai dengan kebutuhan. Setelah itu, algoritme tersebut akan diterapkan pada data yang telah disiapkan sebelumnya dan hasilnya akan diuji dengan menggunakan data yang terpisah (biasanya disebut sebagai data “test”).



Hasil dari tahap modeling akan menghasilkan model yang dapat digunakan untuk membuat prediksi atau mengambil tindakan yang sesuai. Namun, model tersebut masih perlu diuji kembali dalam tahap selanjutnya yaitu evaluasi untuk memastikan bahwa model tersebut cocok untuk digunakan.


5. Evaluasi

Evaluasi adalah tahap kelima dalam metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM). Evaluasi merupakan proses mengevaluasi keakuratan model yang dihasilkan dari tahap modeling sebelumnya dan menentukan apakah model tersebut cocok untuk digunakan.

Dalam tahap ini, data scientist akan menguji model dengan menggunakan data “test” yang telah disiapkan sebelumnya. Hasil dari evaluasi akan menunjukkan seberapa baik model tersebut dapat memprediksi atau mengambil tindakan yang sesuai.

6. Implementasi

Tahap terakhir dalam metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM). Implementasi merupakan proses menerapkan model yang dihasilkan dari tahap modeling dan evaluasi untuk membuat prediksi atau mengambil tindakan yang sesuai.


Dalam tahap ini, data scientist akan menyiapkan model untuk digunakan dalam sistem atau proses bisnis yang relevan dan memastikan bahwa model tersebut dapat dijalankan dengan mudah oleh pengguna yang terlibat. Data scientist juga harus memantau hasil dari model tersebut secara teratur untuk memastikan bahwa model tersebut masih memberikan hasil yang diinginkan.

Implementasi sangat penting karena memastikan bahwa model yang dihasilkan dapat digunakan secara efektif dalam organisasi dan memberikan manfaat yang nyata bagi bisnis. Ini juga membantu menjaga agar model tersebut tetap relevan dan memberikan hasil yang diinginkan seiring dengan perubahan yang mungkin terjadi dalam data atau lingkungan bisnis.

Komentar

Postingan populer dari blog ini

Apa benar peta di Indonesia sudah dari ribuan tahun yang lalu? Yu simak blog ini

dampak positif dan dampak negatif dari pemakaian AI

sejarah komputer