Clock Magic Wand Quran Compass Menu
Image Edric Boby Tri Raharjo

Mengenal Lebih Tentang Istilah di Sains Data bersama UNAIR

Teknologi | 2023-04-14 16:06:29

Ilmuwan data (atau Data scientist) adalah salah satu pilihan karier yang sedang mengalami tren yang naik selama 10 tahun terakhir.

Seorang ilmuwan data bekerja dengan data dan mencoba menggali dan memahami pola tersembunyi pada data. Kemudian temuan tersebut digunakan untuk mendapatkan keuntungan di masa mendatang. Bisa dikatakan seorang ilmuwan data mirip dengan “detektif” data.

Di dalam tugasnya, terdapat beberapa jargon jargon di dalam sains data yang harus dipahami oleh ilmuwan data.

Berikut adalah jargon jargon yang ada di dalam bidang sains data, dalam bahasa yang lebihn mudah mengerti

 

  1. Modelling

Model adalah suatu produk hasil pekerjaan ilmuwan data yang digunakan untuk tugas mereka. Pembuatan model atau modelling di dalam data sains dapat diibaratkan seperti mengajar seseorang. Misal, kita pasti pernah diajarkan bahwa apabila langit mendung, dan terdengar suara petir, maka kemungkinan yang terjadi adalah sebentar lagi hujan. Model dapat diajarkan menggunakan cara tertentu untuk mengenali fenomena tertentu saat terjadi kejadian-kerjadian tertentu, misal dengan memahami kejadian berupa tekanan darah dan lain-lain, suatu model dapat memperkirakan apakah seseorang akan mengalami serangan jantung.

2. Good fit, Overfit dan Underfit

Gambar diatas mengambar data yang melengkung, model good fit (garis biru tua) mengikuti bentuk data (titik biru muda), model overfit terlihat sangat berbelok-belok, dan model underfit tidak memahami adanya belokan

Istilah-istilah tersebut digunakan untuk mendeskripsikan suatu model.

Overfit dapat diibaratkan sebagai seorang murid yang menghafalkan soal matematika dan jawaban soal tersebut. Sehingga saat angka dari soal diubah sedikit, murid tersebut kebingungan dan akhirnya kurang tepat dalam menjawab.

Disisi lain, underfit dapat diibaratkan sebagai murid yang kurang memahami materi, sehingga saat diberi soal, murid gagal menjawabnya dengan tepat.

Menggunakan contoh sebelumnya, model yang overfit dalam memprediksi serangan jantung, akan "menghafalkan" bahwa jika tekanan darah 210/150 (ini tinggi sekali) maka orang tersebut akan mengalami serangan jantung. Sehingga saat ditanya apakah seseorang dengan tekanan darah 240/170 (ini sangat amat tinggi) akan terkena serangan jantung, model tersebut akan menjawab tidak.

Disisi lain, saat model yang underfit ditanyakan dengan berbagai tekanan darah, model tersebut akan menjawabnya dengan tidak tepat karena ia kurang memahami kaitan tekanan darah dan serangan jantung.

Terakhir, good fit terjadi ketika model memahami pola tersembunyi dalam data secara baik sehingga dapat memperkirakan dengan optimal, tentunya ini adalah yang diinginkan.

3. train dan test set

Konsep dari train dan test set adalah hal yang sering kita temui. Saat kita sekolah, kita diberi pelatihan (training) dalam berupa pelajaran di kelas dengan soal soal yang diberikan oleh guru, lalu saat ada kuis/ujian, itulah bagian tes (testing).

Di dalam sains data, model (murid) diberi data untuk dipelajari dan dilatih (training set), setelah pelatihan selesai, diberikan suatu tes untuk dikerjakan, atau dalam contoh tadi, model diberi data tentang tekanan darah dan apakah seseorang terkena serangan jantung. Lalu setelah data tersebut dipelajari, diberikan suatu tes yang hanya menunjukkan data tekanan darah, dan model diminta untuk memperkirakan apakah akan terjadi serang jantung atau tidak

4. Alat ukur model (metrik)

Tentunya, kemampuan suatu model adalah suatu hal yang penting, bayangkan apabila model memperkirakan dengan salah terlalu banyak. Tentu akan sangat merugikan.

Oleh karena itu, diperlukan suatu alat ukur untuk mengerti apakah model tersebut sudah layak digunakan atau harus dikembangkan lagi, salah satu alat ukur yang dipakai adalah akurasi, atau dalam bahasa yang lebih mudah, nilai dari tes.

Selain itu, tentu kita tidak ingin seseorang yang sangat berpotensi terkena serangan jantung diperkirakan tidak terkena serangan jantung. Untuk kasus seperti ini, juga terdapat suatu alat ukur yaitu recall.

5. Deployment

Salah satu langkah setelah membangun suatu model adalah melakukan deployment. Model dibuat dengan bahasa pemrograman yang tergolong cukup teknis sehingga tidak semua orang dapat menggunakan model tersebut secara langsung. Oleh karena itu dapat dibuat suatu aplikasi atau laman untuk menggunakan model tersebut. Dalam contoh tadi, alih-alih tenaga medis langsung memasukkan tekanan darah langsung ke kode pemrograman, dapat dibuat suatu aplikasi dimana mereka hanya perlu memasukkan data pasien dan kemudian akan mendapat hasilnya setelah menunggu beberapa waktu (waktu disini dipengaruhi banyak hal).

Selamat! Sekarang pembaca sudah memahami beberapa jargon di dalam sains data. Tentunya masih terdapat jargon jargon lain yang ada di dalam sains data, yang pastinya dapat dipelajari.

Sains data sendiri adalah suatu bidang yang masih berkembang dan perlu riset yang mendalam untuk memaksimalkan produk dari sains data ini. Untuk menjawab tantangan dan masalah yang berkaitan dengan sains data, Universitas Airlangga menghadirkan program studi S1 Teknologi Sains Data.

Di dalam program studi teknologi sains data, mahasiswa akan mempelajari dasar dasar sains data, termasuk pemrograman dan juga pengetahuan praktis maupun teoritis dari sains data, (tentunya, akan dibahas lebih dalam tentang jargon jargon di sains data) termasuk istilah istilah seperti machine learning, serta cabang cabang sains data seperti pemrosesan bahasa natural (Natural Language Processing) dan bahkan mengolah data berupa suara.

Disclaimer

Retizen adalah Blog Republika Netizen untuk menyampaikan gagasan, informasi, dan pemikiran terkait berbagai hal. Semua pengisi Blog Retizen atau Retizener bertanggung jawab penuh atas isi, foto, gambar, video, dan grafik yang dibuat dan dipublished di Blog Retizen. Retizener dalam menulis konten harus memenuhi kaidah dan hukum yang berlaku (UU Pers, UU ITE, dan KUHP). Konten yang ditulis juga harus memenuhi prinsip Jurnalistik meliputi faktual, valid, verifikasi, cek dan ricek serta kredibel.

Copyright © 2022 Retizen.id All Right Reserved

× Image