web analytics

Perlombongan Data tu apa?

Saya menerima banyak soalan mengenai ‘data mining’ atau ‘perlombongan data’. Tetapi kadang-kala, soalan itu mencerminkan bahawa mereka terlupa tentang asas dan konsep perlombongan data. Kita selalu tenggelam dalam takrifan panjang lebar dari jurnal atau media seperti bidang ini sangat kompleks. Penggunaan rumus yang mewakili pseudokod algoritma kompleks, atau guru saya Prof. Emeritus Dr Haji Abd Razak Hamdan) lebih gemar memanggilnya alkhwarizmi mungkin menjauhkan kawan kawan ‘non-IT’ dari bidang ni.

Muḥammad ibn Mūsā al-Khwārizmī, Arabized as al-Khwarizmi with al- and formerly Latinized as Algorithmi, was a Persian polymath who produced works in mathematics, astronomy, and geography. Around 820 CE he was appointed as the astronomer and head of the library of the House of Wisdom in Baghdad

https://en.wikipedia.org/wiki/Muhammad_ibn_Musa_al-Khwarizmi

Jadi, hantaran saya kali ini cuba menerangkan perlombongan data, apa kaitannya dengan Artificial Intelligence (AI) dan Machine Learning (ML) ( ‘Pembelajaran Mesin’), semudah yang mungkin. Jika sdr kehendaki penerangan yang lebih ilmiah, boleh saja Google Scholar dan cari penerangan yang lebih formal dan akademik.

Untuk menjawab soalan mereka, lazimnya saya tanya mereka kembali dengan soalan demi soalan. Saya mula dengan, kenapa manusia melombong? Apa yang dilombong?

Jawapan lazim: semestinya untuk mencari sesuatu yang berharga, untuk menambah laba kekayaan, seperti bijih besi, emas, berlian, permata dan sebagainya termasuk petroleum, gas asli dan air. Wikipedia menerangkan bahawa perlombongan ialah aktiviti mengeluarkan galian atau bahan geologi berharga lain dari bumi. Pelombong bermaksud orang yang mengerjakan lombong. Lombong bermaksud lubang atau gelombong iaitu sebuah lubang seperti terowong dari sebuah bukit atau dari sebuah tebing.

Maka samalah, Perlombongan Data ialah aktiviti mengeluarkan ‘galian berharga‘ dari lombong. Lombong kali ini , bukanlah sebidang tanah, sungai, lembah atau bukit tetapi apa jua perkakasan ( ‘hardware’) yang menyimpan data digital seperti ‘pangkalan data’, ‘laman Web’ , twitter, korpus seperti buku digital, quran digital, video, imej, gambar digital dan sebagainya. Apa saja kandungan digital, termasuk bacaan suhu dan rekod jatuh naik saham seperti Kuala Lumpur Stock Exchange, adalah lubuk data dan boleh dijadikan lombong data.

Soalan seterusnya, Kalau melombong di Kelantan dapat emas, apa yang berharga dari lombong data?

Jawapannya ialah maklumat atau pengetahuan yang nilainya, apabila digunakan dengan betul, pada waktu yang betul, akan menyebabkan perolehan keuntungan yang signifikan atau menjimatkan kos operasi.

Kenapa maklumat sangat berharga ?

Bayangkan jika anda adalah seorang pelabur saham. Seorang saintis data menggunakan teknik perlombongan data dan mendapat satu pola tersorok (maklumat) yang meramal, bahawa esok, saham Syarikat A akan naik dan saham Syarikat B akan jatuh teruk. Berdasarkan kepada analisis sainstis data dan pakai domain, anda pun jual kesemua saham Syarikat A dan duit hasil jualan itu digunakan untuk membeli saham Syarikat B. Lusa, anda mendapat keuntungan yang sangat banyak.

Jadi, bila melombong data, kita mencari ‘maklumat’ yang boleh menjana duit ATAU menjimatkan duit ATAU mendana bisnes, ATAU menyelamatkan nyawa (lombong data perubatan). Bukankah dari duit yang terhasil atau tersimpan hasil penjanaan dan penjimatan boleh digunakan untuk membeli emas dan berlian juga?

Hasil Perlombongan Data Perlu Sampai Kepada Orang yang Betul pada Waktu yang Betul

– Pengurusan Pengetahuan

Pola atau maklumat yang ditemui hasil perlombongan data hanya berguna apabila digunakan dengan betul, pada waktu yang betul, oleh orang/organisasi yang betul.

Jika saya melombong data saham dan menjumpai pola saham yang terbaik untuk meramal turun naik saham, tetapi saya bukan orang/organisasi yang betul untuk menggunakan pola itu seoptima mungkin, maka pengetahuan itu tidak membawa manfaat pada saya. Pengetahuan (i.e., pola ) hanya berguna apabila diamalkan/digunakan. Ibarat pokok yang tidak berbuah, berguna tetapi tidak berfungsi seperti pokok yang berbuah.

Pola saham ini jadi TIDAK BERGUNA kepada saya kerana saya tidak tahu atau tidak mampu menggunakannya, kerana saya bukan pelabur. Kalau nak melabur pun, saya tak ada pengetahuan dan modal yang boleh memberi impak besar. Saya hanya mengkaji algoritma. Kalau saya buat sebarkan dalam media sosial bahawa esok saham Syarikat A diramal akan jatuh, adakah saya akan selamat dari saman kerana membuat spekulasi? Saya kurang arif mengenai isu ini.

Nabi Muhammad SAW mengajar kita satu doa, “Ya Allah, aku bermohon, lindungi aku daripada ilmu pengetahuan yang tidak berguna, daripada hati yang tidak khusyuk.. “

Perkara utama sebelum melombong data, pastikan ada ‘pengguna’ hasil perlombongan data anda. Pastikan pengguna itu adalah orang yang membuat keputusan atau orang yang dekat/berpengaruh seperti penasihat kepada pembuat keputusan, ATAU hasil perlombongan data akan diguna pakai oleh sistem lain.

Soalan seterusnya, bagaimana melombong data?

Jika kita perhatikan, proses melombong data ni lebih kurang macam melombong bahan mineral juga. Proses ini boleh dibahagikan kepada empat fasa besar:

  1. Perolehan
  2. Pra-pemprosesan
  3. Pemprosesan
  4. Pakai/Guna (deployment)

Fasa perolehan ialah fasa menentukan sumber data atau kawasan perlombongan. Bila dah kenalpasti, baru kita mohon data dari tuan data atau tuan tanah (e.g., Pejabat Tanah) kan? Dah dapat permit atau lesen dari kerajaan atau tuan punya data, barulah proses menggali atau perolehan data (contohnya memuat turun data dari pangkalan data) dilaksanakan.

Bila dah dapat data mentah dari sumber, barulah Fasa Pra-Pemprosesan bermula. Fasa Pra-Pemprosesan adalah fasa yang memenatkan. Fasa ini selalunya memakan masa antara 60-80% dari masa perlombongan data. Antara aktiviti dalam fasa ini ialah proses pembersihan (pemisahan dari tanah/kotoran = pembersihan data mentah) untuk mendapatkan data bersih daripada ‘data mentah’. Gambar di bawah adalah contoh emas mentah.

Seperti emas dan bahan geologi lain yang tersorok di dalam perut bumi, emas mentah ni tersorok dan disaluti tanah, lumpur, pasir, seut, batu dan sebagainya. Pelbagai teknik digunakan untuk memisahkan emas mentah dari kotoran. Samalah dalam konteks perlombongan data, data bersih perlu dipisahkan dari kotoran.

Sumber imej: Facebook Pembeli Emas Mentah

Sebab itu akademia memanggil ‘maklumat bernilai’ di dalam timbunan data ini sebagai ‘hidden pattern’ atau ‘pola tersorok’ kerana emas dan bahan galian tersorok dan diselaputi kotoran.

Susah juga membersihkan data kerana melibatkan pencarian penyelesaian kepada isu seperti data yang tak lengkap, data yang ralat (contohnya ada nombor IC pelanggan yang lahir tahun 1511 sebagai pelanggan online) dan macam macam kepelikan pada data yang disebabkan oleh kesilapan manusia atau ralat sistem atau, sesuatu yang misteri (Kalau misteri sangat, delete je data tu, jgn buang masa cari ustaz atau pengkaji paranormal utk bersihkan data).

Setelah data sudah dibersihkan dari segala jenis kepelikan maka sampailah masa kita menggunakan ilmu dari bidang machine learning untuk memproses data. Fasa Pemprosesan Data lazimnya ialah menggunakan algoritma machine learning (ML) untuk mencari pola tersorok. Jenis jenis algoritma ni kita bincang kemudian dalam posting saya yang lain. Pola ni boleh dalam macam macam bentuk. Ada pola dalam bentuk association rules atau hubungan, ada dalam bentuk ramalan, ada dalam bentuk pengelompokan dan ada juga dalam bentuk jujukan. Nantilah kita citer panjang pasal ni yea. Setelah menggunakan algoritma ML, hasil ini digunakan dalam fasa seterusnya iaitu Fasa Pakai/Guna.

Machine Learning adalah sub-bidang dari bidang Kecerdasan Buatan atau (Artificial Intelligence). Jadi, hubungan di antara Perlombongan Data dan Kecerdasan Buatan ialah, sub-bidang kecerdasan bidang seperti Machine Learning dan Optimization sering digunakan untuk mencari pola tersorok dan mengoptimumkan gelintaran.

Ingat, TIDAK WAJIB guna algoritma Machine Learning untuk cari pola, ada kalanya kita guna teknik dari statistik. Kebarangkalian (probability), kaedah pengesahan (validation), regression dan banyak lagi teknik menjadi asas kepada banyak algoritma ML, menjadikan bidang statistik antara tiang seri machine learning. Untuk belajar ML, tak perlu tahu stat dan math hingga level degree, form 5 pun cukup dah utk memahami machine learning. Yang mana advanced tu, boleh sambung belajar di Udemy atau Youtube.

Seperti yang diterangkan, pola boleh dalam pelbagai bentuk. Antara bentuk yang saya tidak senaraikan di atas ialah dalam bentuk PETUA. Ya.. petua…

Guru saya kata (saya lupa guru yang mana), petua ialah pola yang diperolehi hasil pemerhatian orang tua-tua. Oleh itu PETUA adalah singkatan dari “PEmerhatian orang TUA”. Apa contoh petua yg terkenal? Lihat contoh petua yang saya dapat dari Laman Web Puspanita. Jadi, antara hasil perlombongan data juga adalah petua, tetapi bukanlah ‘PEmerhatian orang TUA‘ tapi PETUA kali ini ialah singkatan bagi ‘PEraturan Tersirat Ungkapan Algoritma.

Ungkapan bermakna “Susunan kata yg mempunyai maksud tertentu dan digunakan dlm tulisan dan juga dlm pertuturan”.

Faham dah apa itu perlombongan data? Bahasa mudah saya, perlombongan data ialah aktiviti mengeluarkan maklumat bernilai yang selama ini kita tidak nampak atau tidak diketahui dari lambakan, timbunan dan lautan data.

Susah ke nak belajar perlombongan data? Tak susah lah. Macam naik basikal juga, ia memerlukan latihan. Ia memerlukan masa. Ia boleh dipelajari. Ia boleh dikuasai. Guna Excel pun boleh buat perlombongan data!! Dan berdoalah agar Allah permudahkan. InshaAllah.. semua jadi mudah.