BAB 4 ORGANISASI BERBASIS PROSES
5.7 Teknik dan Tugas Analisis Data
penjualan. Studi terkait pangsa pasar memerlukan informasi tentang penjualan perusahaan lain dalam kategori produk yang sama.
Namun, ketika kita menggunakan istilah analisis deret waktu, kita tidak berbicara tentang regresi deret waktu. Kita berbicara tentang metode yang dimulai dengan berfokus pada satu ukuran ekonomi pada satu waktu dan polanya sepanjang waktu. Kami mencari tren, musim, dan siklus dalam deret waktu individu itu. Kemudian, setelah bekerja dengan deret waktu tunggal itu, kami melihat kemungkinan hubungan dengan deret waktu lainnya. Jika kita peduli dengan peramalan atau prediksi masa depan, seperti yang sering kita lakukan dalam analisis prediktif, maka kita menggunakan metode analisis deret waktu. Baru-baru ini, ada minat yang cukup besar dalam model ruang keadaan untuk deret waktu, yang menyediakan mekanisme yang nyaman untuk memasukkan komponen regresi ke dalam model deret waktu dinamis.
Ada banyak sekali aplikasi analisis deret waktu dalam pemasaran, termasuk model bauran pemasaran dan model riset periklanan. Seiring dengan peramalan penjualan, ini termasuk dalam kelas umum model respons pasar. Model bauran pemasaran melihat efek dari harga, promosi, dan penempatan produk di perusahaan ritel. Ini adalah beberapa masalah deret waktu. Riset periklanan mencari efektivitas kumulatif periklanan pada kesadaran merek dan produk serta penjualan.
Sebagian besar penelitian ini menggunakan ukuran yang ditentukan seperti "stok iklan", yang berupaya mengubah tayangan iklan atau poin peringkat menjadi satu ukuran dalam waktu. Pemikirannya adalah bahwa pesan paling berpengaruh segera setelah diterima, pengaruhnya menurun seiring waktu, tetapi tidak menurun sepenuhnya sampai banyak unit di kemudian hari. Pemirsa atau pendengar mengingat iklan lama setelah paparan awal terhadap iklan tersebut. Cara lain untuk mengatakan ini adalah dengan mencatat bahwa ada efek terbawa dari satu periode waktu ke periode berikutnya. Tak perlu dikatakan, pengukuran dan pemodelan pada subjek efektivitas periklanan menghadirkan banyak tantangan bagi ilmuwan data pemasaran.
Mereka berguna untuk memahami struktur data. Visualisasi terutama merupakan teknik penemuan dan berguna untuk menafsirkan data dalam jumlah besar; alat visualisasi termasuk histogram, plot kotak, diagram pencar, dan plot permukaan multi-dimensi.
2. Analisis korelasi mengukur hubungan antara dua variabel. Koefisien korelasi yang dihasilkan menunjukkan jika perubahan pada salah satu variabel akan mengakibatkan perubahan pada variabel lainnya. Ketika membandingkan korelasi antara dua variabel, tujuannya adalah untuk melihat apakah perubahan variabel independen akan mengakibatkan perubahan variabel dependen. Informasi ini membantu dalam memahami kemampuan prediktif variabel independen. Temuan korelasi, seperti temuan regresi, dapat berguna dalam menganalisis hubungan kausal, tetapi temuan tersebut tidak dengan sendirinya membentuk pola kausal.
3. Analisis klaster berusaha mengorganisasikan informasi tentang variabel sehingga kelompok yang relatif homogen, atau “kelompok”, dapat dibentuk. Cluster yang dibentuk dengan keluarga metode ini harus sangat homogen secara internal (anggotanya mirip satu sama lain) dan sangat heterogen secara eksternal (anggota tidak seperti anggota cluster lainnya).
4. Analisis diskriminan digunakan untuk memprediksi keanggotaan dalam dua atau lebih kelompok yang saling eksklusif dari satu set prediktor ketika tidak ada urutan alami pada kelompok. Analisis diskriminan dapat dilihat sebagai kebalikan dari analisis varians multivariat satu arah (MANOVA), di mana tingkat variabel independen (atau faktor) untuk MANOVA menjadi kategori variabel dependen untuk analisis diskriminan, dan variabel dependen MANOVA menjadi prediktor untuk analisis diskriminan.
5. Analisis regresi adalah alat statistik yang menggunakan hubungan antara dua atau lebih variabel kuantitatif sehingga satu variabel (variabel terikat) dapat diprediksi dari yang lain (variabel bebas). Tetapi tidak peduli seberapa kuat hubungan statistik antar variabel, tidak ada pola sebab-akibat yang harus diimplikasikan oleh model regresi.
Analisis regresi datang dalam banyak rasa, termasuk model regresi linier sederhana, linier berganda, lengkung, dan lengkung ganda, serta regresi logistik, yang akan dibahas selanjutnya.
6. Jaringan syaraf tiruan (NN) adalah kelas sistem yang dimodelkan setelah otak manusia.
Karena otak manusia terdiri dari jutaan neuron yang saling terhubung oleh sinapsis, NN terbentuk dari sejumlah besar neuron simulasi, terhubung satu sama lain dengan cara yang mirip dengan neuron otak. Seperti di otak manusia, kekuatan interkoneksi neuron dapat berubah (atau diubah oleh algoritme pembelajaran) sebagai respons terhadap stimulus yang disajikan atau keluaran yang diperoleh, yang memungkinkan jaringan untuk "belajar."
Kerugian dari NN adalah bahwa membangun model jaringan saraf awal bisa sangat memakan waktu karena pemrosesan input hampir selalu berarti bahwa data mentah harus diubah. Penyaringan dan pemilihan variabel membutuhkan banyak waktu dan keterampilan analis. Juga, untuk pengguna tanpa latar belakang teknis, mencari tahu bagaimana jaringan saraf beroperasi jauh dari jelas.
7. Case-based reasoning (CBR) adalah teknologi yang mencoba memecahkan suatu masalah dengan memanfaatkan pengalaman dan solusi masa lalu secara langsung.
Sebuah kasus biasanya merupakan masalah khusus yang dihadapi dan dipecahkan sebelumnya. Mengingat masalah baru tertentu, CBR memeriksa set kasus yang disimpan dan menemukan yang serupa. Jika kasus serupa ada, solusinya diterapkan ke masalah baru, dan masalah ditambahkan ke database kasus untuk referensi di masa mendatang.
Kelemahan CBR adalah bahwa solusi yang disertakan dalam basis data kasus mungkin tidak optimal dalam arti apa pun karena terbatas pada apa yang sebenarnya dilakukan di masa lalu, belum tentu apa yang seharusnya dilakukan dalam keadaan serupa. Oleh karena itu, menggunakannya mungkin hanya mengabadikan kesalahan sebelumnya.
8. Decision tree (DTs) seperti yang digunakan dalam analisis keputusan di mana setiap node non-terminal mewakili tes atau keputusan pada item data yang dipertimbangkan. Tergantung pada hasil tes, seseorang memilih cabang tertentu.
Untuk mengklasifikasikan item data tertentu, seseorang akan mulai dari simpul akar dan mengikuti pernyataan ke bawah sampai simpul terminal (atau daun) tercapai;
pada saat itu, keputusan dibuat. DT juga dapat diartikan sebagai bentuk khusus dari seperangkat aturan yang dicirikan oleh organisasi aturan yang hierarkis.
Kelemahan DT adalah bahwa pohon menggunakan data dengan sangat cepat dalam proses pelatihan. Mereka tidak boleh digunakan dengan kumpulan data kecil.
Mereka juga sangat sensitif terhadap noise dalam data, dan mereka mencoba menyesuaikan data dengan tepat, yang disebut sebagai overfitting. Overfitting berarti model terlalu bergantung pada detail kumpulan data tertentu yang digunakan untuk membuatnya. Ketika sebuah model mengalami overfitting, itu tidak mungkin valid secara eksternal (yaitu, tidak akan bertahan saat diterapkan ke kumpulan data baru).
9. Association rules (ARs) adalah pernyataan tentang hubungan antara atribut dari grup entitas yang diketahui dan satu atau lebih aspek entitas tersebut yang memungkinkan untuk membuat prediksi tentang aspek entitas lain yang tidak termasuk dalam grup tetapi memiliki atribut yang sama. Lebih umum, AR menyatakan korelasi statistik antara kemunculan atribut tertentu dalam item data atau antara item data tertentu dalam kumpulan data. Bentuk umum dari AR adalah X1…Xn => Y[C,S] yang berarti bahwa atribut X1,…,Xn memprediksi Y dengan kepercayaan C dan signifikansi S.
Tabel 5.2 Teknik Analisis versus Tugas Teknik Analisis
Data
Peringkasan
Data Segmentasi Klasifikasi Ramalan Analisis Ketergantungan Deskriptif dan
visualisasi ♦ ♦ ♦
Analisis korelasi ♦
Analisis klaster ♦
Analisis
diskriminan ♦
Analis regresi ♦ ♦
Jaringan saraf ♦ ♦ ♦ Penalaran
berbasis kasus ♦
Pohon
keputusan ♦ ♦
Aturan asosiasi ♦
Pilihan tugas analisis data yang berguna:
1. Peringkasan data memberi pengguna gambaran umum tentang struktur data dan umumnya dilakukan pada tahap awal proyek. Jenis analisis data eksplorasi awal ini dapat membantu memahami sifat data dan menemukan hipotesis potensial untuk informasi tersembunyi. Teknik statistik dan visualisasi deskriptif sederhana umumnya berlaku.
2. Segmentasi memisahkan data menjadi subkelompok atau kelas yang menarik dan bermakna. Dalam hal ini, analis dapat menghipotesiskan sub-kelompok tertentu yang relevan untuk pertanyaan bisnis berdasarkan pengetahuan sebelumnya atau berdasarkan hasil deskripsi dan ringkasan data. Teknik pengelompokan otomatis dapat mendeteksi struktur yang sebelumnya tidak terduga dan tersembunyi dalam data yang memungkinkan segmentasi. Teknik pengelompokan, visualisasi, dan jaring saraf umumnya berlaku.
3. Klasifikasi mengasumsikan bahwa satu set objek-ditandai dengan beberapa atribut atau fitur-milik kelas yang berbeda. Label kelas adalah pengidentifikasi kualitatif diskrit, misalnya, besar, sedang, atau kecil. Tujuannya adalah untuk membangun model klasifikasi yang menetapkan kelas yang benar untuk objek yang sebelumnya tidak terlihat dan tidak berlabel. Model klasifikasi banyak digunakan untuk pemodelan prediktif. Analisis diskriminan, metode DT, metode induksi aturan, dan algoritma genetika umumnya berlaku.
4. Prediksi sangat mirip dengan klasifikasi. Perbedaannya adalah bahwa dalam prediksi, kelas bukanlah atribut diskrit kualitatif tetapi atribut kontinu. Tujuan dari prediksi adalah untuk menemukan nilai numerik dari atribut target untuk objek yang tidak terlihat; Jenis masalah ini juga dikenal sebagai regresi, dan jika prediksi berhubungan dengan data deret waktu, maka sering disebut peramalan. Analisis regresi, pohon keputusan, dan jaring saraf umumnya berlaku.
5. Analisis ketergantungan berkaitan dengan menemukan model yang menggambarkan ketergantungan (atau asosiasi) signifikan antara item data atau peristiwa. Dependensi dapat digunakan untuk memprediksi nilai suatu item yang diberikan informasi pada item data lainnya. Analisis dependensi memiliki hubungan yang erat dengan klasifikasi dan prediksi karena dependensi secara implisit digunakan untuk perumusan model prediktif. Analisis korelasi, analisis regresi, aturan asosiasi, penalaran berbasis kasus, dan teknik visualisasi umumnya berlaku.