2.4 Komponen-Komponen Asas Sistem Geodemografi
2.4.2 Komponen Perlombongan Data
Komponen kedua yang penting untuk membangunkan sistem geodemografi ialah kaedah pengkelasan dengan menggunakan analisis perlombongan data. Analisis perlombongan data dan penerokaan pengetahuan menurut Fayyad et al. (1996) merujuk kepada keseluruhan proses penerokaan maklumat berguna daripada data yang melibatkan proses pemilihan data, pra-pemprosesan, pengubahan data dan penelitian yang terperinci terhadap hasil yang diperolehi. Kaedah ini menurut Bissant dan Hagedorn (2009) berkembang dengan pesat terutamanya pada awal tahun 1990an berpunca daripada peningkatan jumlah dan saiz pangkalan data digital. Kesukaran menganalisis data dalam pangkalan data yang besar ini menyebabkan jurang di antara peningkatan jumlah simpanan data dengan keupayaan untuk memahami corak dan maklumat dalam pangkalan data menjadi semakin besar (Bissant dan Hagedorn, 2009).
Masalah yang timbul di kalangan pengkaji akibat daripada pertambahan data dalam jumlah yang besar ini menurut Hill dan Lewicki (2006) ialah untuk menguruskan data-data ini dalam struktur yang lebih tersusun dan memperolehi manfaat daripada proses tersebut. Keadaan ini menurut Miller dan Han (2009) boleh ditangani dengan menggunakan proses penerokaan pengetahuan yang berupaya mencerap maklumat daripada pangkalan data melalui analisis perlombongan data. Fayyad et al. (1996)
40
menyatakan bahawa analisis yang dilaksanakan sebelum ini lebih menumpukan kepada komponen perlombongan data walaupun komponen-komponen lain juga adalah penting untuk membolehkan analisis dijalankan dengan lebih berkesan.
Rajah 2.6: Proses-proses yang terlibat dalam analisis penerokaan data Sumber: Fayyad et al. (1996)
Perbandingan definisi dan perbezaan langkah yang dilakukan oleh Chowdhury (2009) di antara analisis penerokaan dengan analisis perlombongan data jelas menunjukkan bahawa kedua-dua proses ini mempunyai perbezaan yang ketara. Walau bagaimanapun,
Latar belakang bidang
Guna Maklumat Baru Terima Tolak
Pemprosesan awalan
Integrasi Data
Pengubahan Data
Algoritma Perlombongan
Data
Perlombongan Data
Menerangkan Hasilan Pemilihan Data
Keputusan
41
melalui perubahan masa, perbezaan antara kedua-dua proses ini menjadi semakin kecil sehingga kebanyakan pengkaji merujuk istilah penerokaan dan perlombongan data sebagai proses yang sama. Seperti yang ditunjukkan dalam rajah 2.6, secara keseluruhannya proses penerokaan data boleh dibahagikan kepada beberapa kumpulan yang utama, ini termasuklah penelitian latar belakang, pemprosesan awal, perlombongan data, penghasilan pengetahuan dan menggunakan semula maklumat yang diperolehi. Fayyad et al. (1996), Han dan Kamber (2001)dan Miller dan Han (2009) meringkaskan proses-proses utama ini adalah seperti berikut:
i) Membina pemahaman mengenai bidang kajian, ia juga dirujuk sebagai pengetahuan latar belakang sesuatu bidang yang dikaji.
ii) Pemprosesan awal yang melibatkan pemilihan sebahagian daripada pembolehubah dalam pangkalan data untuk menumpukan pencarian terhadap corak yang bermanfaat, pembersihan data seperti membuang nilai yang ekstrem dan pengurangan data yang melibatkan proses-proses seperti pengubahan serta penukaran format data.
iii) Kaedah perlombongan data. Proses ini melibatkan pemilihan kaedah perlombongan data yang sesuai seperti analisis kecenderungan, analisis kesatuan dan analisis kluster, memilih teknik perlombongan data yang merujuk kepada proses merujuk kepada pemilihan penggunaan algoritma dalam kaedah analisis dan melaksanakan teknik perlombongan data untuk mencari corak yang tidak diketahui.
iv) Penghasilan pengetahuan yang melibatkan penelitian terhadap corak yang dihasilkan dan mengukuhkan penemuan baru dengan sistem berkomputer.
Kaedah perlombongan data secara umumnya boleh dibahagikan kepada dua kategori yang utama, iaitu kaedah perlombongan data yang digerakkan oleh hipotesis dan kaedah
42
perlombongan data secara penerokaan. Kaedah perlombongan data yang digerakkan oleh hipotesis bermula dengan pembangunan teori oleh pengguna sebelum analisis seterusnya dilaksanakan bagi mengesahkan kebenaran teori yang dihasilkan.
Pendekatan analisis seperti ini menurut Chowdhury (2009) lazimnya bergantung kepada model untuk menggerakkan kajian dan sering dirujuk sebagai kaedah analisis diselia (supervised). Kaedah perlombongan data secara penerokaan menurut Olson dan Delen (2008) pula tidak memerlukan pembentukan hipotesis terlebih dahulu tetapi sebaliknya melakukan analisis pencarian corak, kesatuan dan hubungan di antara data secara terus untuk membolehkan maklumat yang terlindung dikenalpasti. Kaedah analisis ini juga dikenali sebagai kaedah analisis tidak diselia (unsupervised).
Salah satu daripada kaedah analisis tidak diselia yang penting menurut Jansen (2007) ialah analisis kluster. Sama seperti kaedah analisis tidak diselia yang lain, analisis ini tidak memerlukan penentuan kelas dilakukan terlebih dahulu untuk mengesan struktur terlindung dalam kumpulan data. Objektif utama analisis kluster ialah untuk menguruskan objek dalam kumpulan berdasarkan persamaan di kalangan objek tersebut.
Rajah 2.7: Pengklusteran berasaskan jarak terdekat Sumber: Jansen (2007)
43
Rajah 2.7 menunjukkan perbezaan data sebelum dan selepas kluster analisis dilaksanakan. Kriteria persamaan yang digunakan dalam kes ini ialah jarak terdekat, iaitu dua atau lebih termasuk dalam kluster yang sama sekiranya berada berdekatan dengan jarak yang telah ditetapkan. Kaedah analisis kluster ini juga dikenali sebagai pengklusteran berasaskan jarak (distance-based clustering) (Jansen, 2007). Selain daripada pengkelasan berasaskan jarak, analisis kluster juga boleh dilaksanakan dengan menggunakan konsep persamaan (conceptual clustering). Kaedah analisis ini melibatkan dua komponen yang utama iaitu mencari kluster yang bersesuaian dan membentuk gambaran bagi setiap kelas. Ini berbeza dengan kaedah analisis konvensional yang mengukur persamaan objek berasaskan kepada jarak geometri semata-mata (Han dan Kamber, 2001).
Analisis kluster menggabungkan objek hanya berasaskan kepada maklumat yang diperolehi daripada pembolehubah yang mewakili objek-objek tersebut (Tan et al., 2005). Matlamat utama analisis kluster adalah untuk menggabungkan objek atau kawasan dalam kumpulan yang serupa dan berbeza dengan objek-objek atau kawasan dalam kumpulan lain. Hasil analisis kluster yang baik akan diperolehi apabila kawasan di dalam kluster yang sama mempunyai persamaan maksimum, dan mempunyai perbezaan maksimum dengan kawasan dalam kluster yang lain (Vickers et al., 2005).
Analisis kluster menurut Miller dan Han (2009) juga boleh dianggap sebagai kaedah pembahagian data (data segmentation) kerana keupayaan kaedah ini untuk mengelompokkan kumpulan data yang besar berdasarkan kepada persamaan data-data tersebut. Selain itu, analisis kluster juga berfungsi sebagai salah satu daripada komponen perlombongan data yang boleh digunakan untuk mengetahui taburan data,
44
meneliti ciri-ciri kluster dan menumpukan analisis kepada kumpulan kluster yang khusus untuk melaksanakan analisis lanjutan.
Tan et al. (2005) pula menyatakan bahawa analisis kluster termasuk dalam kumpulan teknik yang digunakan untuk membahagikan objek kedalam kumpulan. Sebagai contoh, kaedah pengklusteran juga boleh dianggap sebagai salah satu daripada bentuk pengkelasan yang melabelkan sesuatu objek. Namun begitu, analisis kluster hanya melabelkan kelas yang diperolehi daripada pembolehubah yang sangat berbeza dengan kaedah pengkelasan yang sebenar. Dudoit dan Fridlyand (2003) menjelaskan bahawa analisis kluster juga dikenali sebagai teknik pembelajaran tidak diselia (unsupervised learning) yang tidak menentukan bilangan kluster terlebih dahulu, sebaliknya kluster-kluster tersebut diperolehi daripada proses penerokaan data. Kaedah pembelajaran tidak diselia ini melibatkan proses penentuan jumlah kluster dan pemadanan kawasan dalam kumpulan kluster yang khusus. Ini berbeza dengan proses pengkelasan yang juga dikenali sebagai kaedah pembelajaran diselia (supervised learning) yang memerlukan penentuan kelas dilakukan terlebih dahulu. Proses ini melibatkan pembentukan set data latihan (learning set) yang terdiri daripada kumpulan objek atau kawasan yang telah dilabelkan. Maklumat-maklumat dalam set data latihan ini diproses dan digunakan untuk meramalkan kumpulan kelas dalam set data yang lain (Dudoit dan Fridlyand, 2003).
Kajian yang dijalankan oleh Leventhal (1995) terhadap sistem-sistem geodemografi komersial di UK menjelaskan bahawa keseluruhan sistem dibangunkan dengan menggunakan kaedah pembelajaran tidak diselia (analisis kluster). Walau bagaimanapun, terdapat perbezaan yang jelas dalam beberapa aspek pembangunan
45
sistem yang lain, antaranya termasuklah perbezaan penggunaan sumber data, pemilihan pembolehubah dan penggunaan algoritma. Algoritma-algoritma dalam analisis kluster menurut Harris et al. (2005) pula boleh dibahagikan kepada dua kumpulan yang utama iaitu kaedah pengklusteran berhierarki dan kaedah pengklusteran berbahagi seperti yang ditunjukkan dalam rajah 2.8.
Rajah 2.8: Kaedah-kaedah utama dalam proses pengklusteran Sumber: Freitas (2002)
Kaedah pengklusteran berhierarki: Harris et al. (2005) menyatakan bahawa penggunaan kaedah pengklusteran berhierarki ini merupakan kaedah yang paling ringkas. Seperti yang ditunjukkan dalam rajah 2.8, kaedah pengklusteran berhierarki ini boleh dibahagikan kepada dua teknik yang berbeza iaitu kaedah pengklusteran dengan menggunakan teknik bawah ke atas (agglomerative) dan kaedah pengklusteran dengan menggunakan atas ke bawah (divisive). Teknik pengklusteran berhierarki bawah ke atas menurut Myatt (2007) mengandaikan setiap objek pada asalnya berada dalam kluster yang berasingan dengan setiap kluster mempunyai pusat kluster masing-masing. Catarci et al. (2009) menjelaskan bahawa proses pengklusteran yang dilaksanakan
Kaedah Pengklusteran
Berhierarki
Atas ke bawah Bawah ke atas
Berbahagi
Bertindan Berasingan
46
menggabungkan dua atau lebih kluster yang setara secara berulangan dan berhenti apabila memperolehi bilangan kluster yang ditetapkan oleh pengguna. Antara contoh algortima pengklusteran berhierarki ini ialah CURE (pengklusteran menggunakan perwakilan) dan CHAMELEON.
Sebaliknya, teknik pengklusteran berhierarki atas ke bawah pula mengandaikan semua objek berada dalam satu kluster yang besar. Kluster tunggal ini dipecahkan oleh algoritma secara berkitaran sehingga mencapai sasaran jumlah kluster yang bersesuaian.
Proses pengklusteran dilakasanakan secara berterusan sehingga mencapai tahap kriteria kluster yang telah ditetapkan. Antara algoritma pengklusteran yang menggunakan teknik atas ke bawah ialah PDDP (principal direction divisive partitioning) dan algoritma bisecting k-means (algoritma yang menggunakan sebahagian asas algoritma k-means) (Catarci et al., 2009). Harris et al. (2005), Vickers (2006) dan Myatt (2007) menyatakan bahawa walaupun kedua-dua teknik pengklusteran berhierarki ini boleh mengatasi masalah pengklusteran dengan hanya menggerakkan arahan tunggal, kaedah ini sebaliknya memerlukan tempoh masa yang lama untuk menghasilkan struktur hierarki dan sukar untuk diimplimentasi terhadap kumpulan data yang bersaiz besar.
Kaedah pengklusteran berbahagi : Kaedah pengklusteran berbahagi memisahkan kumpulan data mengikut kumpulan-kumpulan kluster yang berasingan. Kaedah ini berbeza dengan kaedah pengklusteran secara hierarki yang membahagikan objek mengikut struktur dendrogram. Algoritma pengklusteran berbahagi boleh menghasilkan kluster sama ada secara automatik ataupun membentuk kluster berdasarkan kepada kriteria yang telah ditetapkan oleh pengguna (Kamath, 2002). Keupayaan ini menyebabkan algoritma pengklusteran k-means menjadi salah satu daripada algoritma
47
pengklusteran yang popular dan merupakan algoritma pengklusteran yang paling kerap digunakan dalam analisis perlombongan data (Mucherino et al., 2009). Nikravesh dan Aminzadeh (2003) menjelaskan bahawa algortima k-means yang diperkenalkan oleh MacQueen pada tahun 1967 ini secara umumnya boleh dianggap sebagai algoritma yang membolehkan sejumlah pusat kluster k digunakan untuk mewakili kluster titik N (k<N). Proses-proses yang berlaku semasa algoritma ini dilaksanakan adalah seperti yang diringkaskan dalam jadual 2.4.
Jadual 2.4: Ringkasan algoritma k-means
Sumber: Nikravesh dan Aminzadeh (2003)
Fungsi utama algoritma k-means adalah untuk membahagikan kumpulan data dan membentuk sejumlah k kluster (Liu, 2007). Setiap kluster yang dihasilkan ini mempunyai pusat kluster sendiri yang juga dikenali sebagai pusat graviti. Pada permulaan proses pengklusteran, algoritma k-means memilih titik k secara rawak sebagai pusat kluster. Algoritma ini kemudiannya mengira jarak di antara pusat kluster dan setiap objek dalam kumpulan data. Objek-objek dalam kumpulan data ini seterusnya dihubungkan dengan pusat graviti yang terdekat. Setelah semua objek
1 Andaikan setiap kluster mempunyai sampel m yang mirip antara satu sama lain (x1,x2,x3,….,xm)
2 Pilih satu set kluster {y1,y2,y3,….,yk)
3 Alihkan sampel m kepada kluster y dengan menggunakan kaedah jarak minimum Euclidean
4 Kira jarak dan hasilkan kluster baru
5 Jika ada kluster yang berubah, kembali ke langkah 3. Jika tiada, berhenti
6 Tamat
48
dihubungkan, pusat kluster bagi setiap objek ini dikira semula secara berulangan. Proses pengiraan nilai min ini berlaku secara berulangan sehingga kriteria penyingkiran (stopping criteria) dicapai. Antara kriteria-kriteria penyingkiran menurut Liu (2007) termasuklah tiada pergerakan atau pembahagian data kepada kluster yang lain, tidak berlaku perubahan pusat kluster dan penurunan nilai sum of square error (SSE) adalah minimum.
Rajah 2.9: Kaedah pengklusteran menggunakan algoritma k-means Sumber: Acquisti et al. (2007)
Rajah 2.9 menunjukkan proses-proses pengklusteran dengan menggunakan algoritma k-means yang bermula pemilihan secara rawak pusat kluster, mengubah titik kepada kluster yang sepadan, mengemaskini nilai min kluster yang baru dan pembahagian semula kluster yang berlaku secara berulangan. Pemilihan ukuran yang sesuai untuk
K=2
Objek K dipilih secara rawak sebagai pusat
kl l
Alihkan objek kepada pusat yang setara
Kemaskini nilai purata kluster
Susun semula Kemaskini nilai
purata kluster
49
mengira jarak antara pusat kluster pula adalah sangat penting kerana proses ini mempengaruhi keseluruhan proses penghasilan kluster (Dennet dan Stillwell, 2009).