Teknik Ilmu Data - ORGANISASI BERBASIS PROSES

BAB 4 ORGANISASI BERBASIS PROSES

5.6 Teknik Ilmu Data

Melakukan ilmu data berarti menerapkan sistem yang fleksibel, dapat diskalakan, dan dapat diperluas untuk persiapan, analisis, visualisasi, dan pemodelan data. Banyak perusahaan beralih dari sistem komputasi terpusat yang dimiliki secara internal dan menuju layanan berbasis cloud terdistribusi. Sistem perangkat keras dan perangkat lunak terdistribusi, termasuk sistem basis data, dapat diperluas dengan lebih mudah seiring dengan berkembangnya kebutuhan pengelolaan data organisasi. Melakukan ilmu data berarti mampu mengumpulkan data dari berbagai sistem database: relasional dan non-relasional, komersial dan open source. Kami menggunakan alat analisis dan kueri basis data, mengumpulkan informasi di seluruh sistem terdistribusi, mengumpulkan informasi, membuat tabel kontingensi, dan menghitung indeks hubungan lintas variabel yang menarik. Kami menggunakan teknologi informasi dan sistem basis data sejauh yang dapat kami gunakan, dan kemudian kami melakukan lebih banyak, menerapkan apa yang kami ketahui tentang inferensi statistik dan teknik pemodelan analitik prediktif.

5.6.1 Sistem Basis Data

Database relasional memiliki struktur tabel baris dan kolom, mirip dengan spreadsheet. Kami mengakses dan memanipulasi data ini menggunakan bahasa kueri terstruktur (SQL). Karena berorientasi pada transaksi dengan integritas data yang ditegakkan, database relasional memberikan dasar untuk pemrosesan pesanan penjualan dan sistem akuntansi keuangan. Basis data non-relasional fokus pada ketersediaan dan skalabilitas.

Mereka mungkin menggunakan nilai kunci, berorientasi kolom, berorientasi dokumen, atau struktur grafik. Beberapa dirancang untuk aplikasi online atau real-time, di mana waktu respons yang cepat adalah kuncinya. Lainnya sangat cocok untuk penyimpanan besar-besaran dan analisis offline, dengan pengurangan peta yang menyediakan alat agregasi data utama.

5.6.2 Inferensi Statistik

Statistik adalah fungsi dari data sampel dan lebih kredibel ketika sampel mewakili populasi yang bersangkutan. Biasanya, sampel acak besar, kesalahan standar kecil, dan interval kepercayaan sempit lebih disukai. Metode ilmiah formal menyarankan agar kita membangun teori dan menguji teori tersebut dengan data sampel. Prosesnya melibatkan penarikan kesimpulan statistik sebagai perkiraan titik, perkiraan interval, atau pengujian hipotesis tentang populasi. Apapun bentuk inferensinya, kita membutuhkan data sampel yang berkaitan dengan pertanyaan yang menarik. Statistik klasik dan Bayesian mewakili pendekatan alternatif untuk inferensi cara alternatif untuk mengukur ketidakpastian tentang dunia.

1. Pengujian hipotesis klasik melibatkan pembuatan hipotesis nol tentang parameter populasi dan kemudian menolak atau tidak menolak hipotesis tersebut berdasarkan data sampel. Hipotesis nol tipikal (seperti yang tersirat dari kata null) menyatakan bahwa tidak ada perbedaan antara proporsi atau kelompok atau tidak ada hubungan antar variabel.

Untuk menguji hipotesis nol, kami menghitung statistik khusus yang disebut statistik uji bersama dengan nilai p yang terkait. Dengan asumsi bahwa hipotesis nol benar, kita dapat menurunkan distribusi teoritis dari statistik uji. Kami memperoleh nilai-p dengan merujuk statistik uji sampel ke distribusi teoretis ini. Nilai-p itu sendiri merupakan statistik sampel, memberikan probabilitas untuk menolak hipotesis nol dengan asumsi bahwa itu benar.

Mari kita asumsikan bahwa kondisi untuk inferensi yang valid telah dipenuhi.

Kemudian, ketika kita mengamati nilai p yang sangat rendah (0,05, 0,01, atau 0,001, misalnya), ini menunjukkan bahwa salah satu dari dua hal ini harus benar:

a. Suatu peristiwa dengan probabilitas yang sangat rendah telah terjadi dengan asumsi bahwa hipotesis nol itu benar.

b. Hipotesis nol salah. Nilai p yang rendah membuat kami menolak hipotesis nol, dan kami mengatakan bahwa hasil penelitian signifikan secara statistik.

Beberapa hasil secara statistik signifikan dan bermakna.

2. Pendekatan Bayesian memperlakukan parameter sebagai variabel acak yang memiliki distribusi probabilitas yang mewakili ketidakpastian kita tentang dunia, yang dapat dikurangi dengan mengumpulkan data sampel yang relevan. Data sampel dan teorema Bayes digunakan untuk menurunkan distribusi probabilitas posterior untuk parameter yang sama ini, yang selanjutnya digunakan untuk mendapatkan probabilitas bersyarat.

5.6.3 Regresi dan Klasifikasi

Ilmu data melibatkan pencarian hubungan yang bermakna antara variabel. Kami mencari hubungan antara pasangan variabel kontinu menggunakan plot pencar dan koefisien korelasi. Kami mencari hubungan antara variabel kategoris menggunakan tabel kontingensi dan metode analisis data kategoris. Kami menggunakan metode multivariat dan tabel kontingensi multi-arah untuk menguji hubungan di antara banyak variabel. Ada dua jenis utama model prediksi: regresi dan klasifikasi. Regresi adalah prediksi respons dengan besaran yang berarti. Klasifikasi melibatkan prediksi kelas atau kategori.

Bentuk regresi yang paling umum adalah regresi kuadrat terkecil, juga disebut regresi kuadrat terkecil biasa, regresi linier, atau regresi berganda. Ketika kami menggunakan regresi kuadrat terkecil biasa, kami memperkirakan koefisien regresi sehingga meminimalkan jumlah residual kuadrat, di mana residual adalah perbedaan antara nilai respons yang diamati dan diprediksi. Untuk masalah regresi, kami menganggap respons sebagai mengambil nilai apa pun di sepanjang garis bilangan real, meskipun dalam praktiknya respons dapat mengambil sejumlah nilai berbeda yang terbatas. Yang penting untuk regresi adalah bahwa nilai respon memiliki besaran yang berarti.

Regresi Poisson berguna untuk penghitungan. Respon memiliki besaran yang berarti tetapi mengambil nilai diskrit (bilangan bulat) dengan nilai minimum nol. Model log-linear untuk frekuensi, frekuensi yang dikelompokkan, dan tabel kontingensi untuk observasi lintas klasifikasi termasuk dalam domain ini.

Kebanyakan teknik pemodelan tradisional melibatkan model linier atau persamaan linier. Respon atau respons yang ditransformasikan berada di sisi kiri model linier. Prediktor linier ada di sisi kanan. Prediktor linier melibatkan variabel penjelas dan linier dalam parameternya. Artinya, melibatkan penambahan koefisien atau perkalian koefisien dengan

variabel penjelas. Koefisien yang kami sesuaikan dengan model linier mewakili perkiraan parameter populasi.

Model linier umum, seperti namanya, adalah generalisasi dari model regresi linier klasik. Mereka termasuk model untuk pilihan dan jumlah, termasuk regresi logistik, model logit multinomial, model log-linear, model logistik ordinal, regresi Poisson, dan model data kelangsungan hidup. Untuk memperkenalkan teori di balik model-model penting ini, kita mulai dengan meninjau model regresi linier klasik. Model linier umum membantu kita memodelkan hubungan non-linier yang jelas antara variabel penjelas dan tanggapan.

Regresi linier adalah model linier umum khusus. Ini memiliki respons yang terdistribusi secara normal dan tautan identitas yang menghubungkan nilai yang diharapkan dari respons terhadap prediktor linier. Koefisien regresi linier dapat diperkirakan dengan kuadrat terkecil biasa. Untuk anggota lain dari keluarga model linier umum, kami menggunakan estimasi kemungkinan maksimum. Dengan model linier klasik, kami memiliki analisis varians dan uji-F.

Dengan model linier umum, kami memiliki analisis uji penyimpangan dan rasio kemungkinan, yang merupakan uji chi-kuadrat asimtotik.

Metode regresi logistik, meskipun disebut "regresi", sebenarnya adalah metode klasifikasi. Ini melibatkan prediksi respons biner. Model logit ordinal dan multinomial memperluas regresi logistik ke masalah yang melibatkan lebih dari dua kelas. Analisis diskriminan linier adalah metode klasifikasi lain dari domain statistik tradisional.

5.6.4 Penambangan Data dan Pembelajaran Mesin

Pembelajaran mesin mengacu pada metode atau algoritme yang digunakan sebagai alternatif metode statistik tradisional. Ketika kami menerapkan metode ini dalam analisis data, ini disebut penambangan data. Sistem rekomendasi, pemfilteran kolaboratif, aturan asosiasi, metode pengoptimalan berdasarkan heuristik, serta segudang metode untuk regresi, klasifikasi, dan pengelompokan, semuanya merupakan contoh pembelajaran mesin. Dengan statistik tradisional, kami mendefinisikan spesifikasi model sebelum bekerja dengan data dan juga membuat asumsi tentang distribusi populasi dari mana data telah diambil. Pembelajaran mesin, di sisi lain, adalah adaptif data: spesifikasi model ditentukan dengan menerapkan algoritme ke data. Dengan pembelajaran mesin, beberapa asumsi dibuat tentang distribusi data yang mendasarinya.

Analisis klaster disebut sebagai pembelajaran tanpa pengawasan untuk membedakannya dari klasifikasi, yang merupakan pembelajaran terawasi, dipandu oleh nilai-nilai yang diketahui dan dikodekan dari variabel respons atau kelas. Pemodelan aturan asosiasi, kumpulan item yang sering, analisis jaringan sosial, analisis tautan, sistem rekomendasi, dan banyak metode multivariat yang digunakan dalam ilmu data mewakili metode pembelajaran tanpa pengawasan.

Sebuah metode multivariat penting, analisis komponen utama, mengacu pada aljabar linier dan menyediakan cara untuk mengurangi jumlah ukuran atau fitur kuantitatif yang kita gunakan untuk menggambarkan domain yang menarik. Sudah lama menjadi bahan pokok para ahli pengukuran dan prasyarat analisis faktor, analisis komponen utama telah melihat aplikasi terbaru dalam analisis semantik laten, sebuah teknologi untuk mengidentifikasi topik penting di seluruh korpus dokumen.

5.6.5 Visualisasi Data

Ringkasan statistik gagal menceritakan kisah data. Untuk memahami data, kita harus melihat melampaui tabel data, koefisien regresi, dan hasil uji statistik. Alat visualisasi membantu kita belajar dari data. Kami mengeksplorasi data, menemukan pola dalam data, dan mengidentifikasi kelompok pengamatan yang berjalan bersama dan pengamatan atau outlier yang tidak biasa. Visualisasi data sangat penting untuk pekerjaan ilmu data di bidang penemuan (analisis data eksplorasi), diagnostik (pemodelan statistik), dan desain (grafik presentasi). R sangat kuat dalam visualisasi data.

5.6.6 Analisis Teks

Analisis teks adalah area analisis prediktif yang penting dan berkembang. Analisis teks diambil dari berbagai disiplin ilmu, termasuk linguistik, komunikasi dan seni bahasa, psikologi eksperimental, analisis wacana politik, jurnalisme, ilmu komputer, dan statistik.

Keluaran dari proses ini, seperti perayapan, pengikisan, dan penguraian, adalah kumpulan dokumen atau korpus teks. Kumpulan dokumen atau korpus ini dalam bahasa alami. Dua cara utama untuk menganalisis korpus teks adalah pendekatan bag-of-words dan pemrosesan bahasa alami. Kami mengurai korpus lebih lanjut, membuat ekspresi, indeks, kunci, dan matriks yang diformat secara umum yang lebih mudah dianalisis oleh komputer.

Penguraian tambahan ini terkadang disebut sebagai anotasi teks. Kami mengekstrak fitur dari teks dan kemudian menggunakan fitur tersebut dalam analisis selanjutnya. Pemrosesan bahasa alami lebih dari kumpulan kata-kata individual: Bahasa alami menyampaikan makna.

Dokumen bahasa alami berisi paragraf, paragraf berisi kalimat, dan kalimat berisi kata-kata. Ada aturan tata bahasa, dengan banyak cara untuk menyampaikan ide yang sama, bersama dengan pengecualian untuk aturan dan aturan tentang pengecualian. Kata-kata yang digunakan dalam kombinasi dan aturan tata bahasa terdiri dari dasar-dasar linguistik dari analisis teks. Ahli bahasa mempelajari bahasa alami, kata-kata dan aturan yang kita gunakan untuk membentuk ucapan yang bermakna. Tata bahasa generatif adalah istilah umum untuk aturan; morfologi, sintaksis, dan semantik adalah istilah yang lebih spesifik.

Program komputer untuk pemrosesan bahasa alami menggunakan aturan linguistik untuk meniru komunikasi manusia dan mengubah bahasa alami menjadi teks terstruktur untuk analisis lebih lanjut. Langkah kunci dalam analisis teks adalah pembuatan matriks istilah demi dokumen (kadang-kadang disebut tabel leksikal). Baris dari matriks data ini sesuai dengan kata atau kata yang berasal dari kumpulan dokumen, dan kolom sesuai dengan dokumen dalam kumpulan.

Entri di setiap sel matriks term-by-documents bisa menjadi indikator biner untuk ada atau tidak adanya istilah dalam dokumen, hitungan frekuensi berapa kali istilah digunakan dalam dokumen, atau frekuensi berbobot menunjukkan pentingnya suatu istilah dalam dokumen. Setelah dibuat, matriks term-by-documents seperti indeks, pemetaan pengenal dokumen ke istilah (kata kunci atau batang) dan sebaliknya. Untuk sistem pencarian informasi atau mesin pencari, kami mungkin juga menyimpan informasi mengenai lokasi spesifik istilah dalam dokumen.

Sistem alternatif mungkin membedakan antara bagian-bagian pidato, memungkinkan pencarian sintaksis yang lebih canggih di seluruh dokumen. Aplikasi analitik teks umum:

1. Penyaringan spam telah lama menjadi topik yang menarik sebagai masalah klasifikasi, dan banyak pengguna e-mail telah mendapatkan keuntungan dari algoritma efisien

yang telah berkembang di bidang ini. Dalam konteks pencarian informasi, mesin pencari mengklasifikasikan dokumen sebagai relevan dengan pencarian atau tidak.

Teknik pemodelan yang berguna untuk klasifikasi teks termasuk regresi logistik, analisis fungsi diskriminan linier, pohon klasifikasi, dan mesin vektor pendukung.

Berbagai metode ansambel atau komite dapat digunakan.

2. Peringkasan teks otomatis adalah area penelitian dan pengembangan yang dapat membantu manajemen informasi. Bayangkan sebuah program pemrosesan teks dengan kemampuan untuk membaca setiap dokumen dalam kumpulan dan meringkasnya dalam satu atau dua kalimat, mungkin mengutip dari dokumen itu sendiri. Mesin pencari saat ini menyediakan sebagian analisis dokumen sebelum ditampilkan. Mereka membuat ringkasan otomatis untuk pengambilan informasi yang cepat. Mereka mengenali string teks umum yang terkait dengan permintaan pengguna. Aplikasi analisis teks ini merupakan alat pencarian informasi yang kita anggap remeh sebagai bagian dari kehidupan kita sehari-hari.

3. Analisis sentimen adalah analisis teks yang berfokus pada pengukuran. Kadang-kadang disebut penambangan opini, salah satu pendekatan untuk analisis sentimen adalah dengan menggunakan kumpulan kata positif dan negatif (leksikon, kamus) yang menyampaikan emosi atau perasaan manusia. Kumpulan kata ini khusus untuk bahasa yang diucapkan dan konteks penerapannya. Pendekatan lain untuk analisis sentimen adalah bekerja secara langsung dengan sampel teks dan penilaian manusia dari sampel tersebut, mengembangkan metode penilaian teks khusus untuk tugas yang ada.

Tujuan dari analisis sentimen adalah untuk menilai teks untuk pengaruh, perasaan, sikap, atau pendapat. Analisis sentimen dan pengukuran teks pada umumnya menjanjikan sebagai teknologi untuk memahami opini konsumen dan pasar.

Sama seperti peneliti politik dapat belajar dari kata-kata publik, pers, dan politisi, peneliti bisnis dapat belajar dari kata-kata pelanggan dan pesaing. Ada log layanan pelanggan, transkrip telepon, dan laporan panggilan penjualan, bersama dengan grup pengguna, listserv, dan posting blog. Dan kami memiliki media sosial di mana-mana untuk membangun koleksi dokumen untuk analisis teks dan sentimen.

4. Teks langkah-langkah mengalir dari model pengukuran (algoritma untuk penilaian) dan kamus, baik yang didefinisikan oleh peneliti atau analis. Kamus dalam konteks ini bukanlah kamus tradisional; itu bukan daftar kata-kata yang diurutkan berdasarkan abjad dan definisinya. Sebaliknya, kamus yang digunakan untuk menyusun ukuran teks adalah gudang daftar kata, seperti sinonim dan antonim, kata positif dan negatif, kata yang terdengar kuat dan lemah, kata sifat bipolar, bagian ucapan, dan sebagainya.

Daftar tersebut berasal dari penilaian ahli tentang arti kata-kata. Sebuah ukuran teks memberikan nomor ke dokumen sesuai dengan aturan, dengan aturan yang didefinisikan oleh daftar kata, algoritma penilaian, dan teknik pemodelan dalam analitik prediktif.

5.6.7 Seri Waktu dan Model Riset Pasar

Data penjualan dan pemasaran disusun berdasarkan unit pengamatan, waktu, dan ruang. Unit pengamatan biasanya merupakan agen ekonomi (individu atau perusahaan) atau sekelompok agen seperti dalam analisis agregat. Adalah umum untuk menggunakan wilayah geografis sebagai dasar untuk agregasi. Atau, ruang (bujur dan lintang) dapat digunakan

secara langsung dalam analisis data spasial. Pertimbangan waktu sangat penting dalam analisis ekonomi makro, yang berfokus pada ukuran ekonomi nasional.

Istilah regresi deret waktu mengacu pada analisis regresi di mana unit pengorganisasian analisisnya adalah waktu. Kami melihat hubungan antara ukuran ekonomi yang diatur dalam waktu. Banyak analisis ekonomi menyangkut regresi deret waktu. Perhatian khusus harus diberikan untuk menghindari apa yang mungkin disebut hubungan palsu, karena banyak deret waktu ekonomi berkorelasi satu sama lain karena mereka bergantung pada faktor-faktor yang mendasarinya, seperti pertumbuhan penduduk atau musim. Dalam regresi deret waktu, kami menggunakan metode regresi linier standar. Kami memeriksa residu dari regresi kami untuk memastikan bahwa mereka tidak berkorelasi dalam waktu. Jika mereka berkorelasi dalam waktu (korelasi otomatis), maka kami menggunakan metode seperti kuadrat terkecil umum sebagai alternatif dari kuadrat terkecil biasa. Artinya, kami menggabungkan model data kesalahan sebagai bagian dari proses pemodelan kami. Analisis data longitudinal atau analisis data panel adalah contoh dari metode data campuran dengan fokus pada data yang diatur oleh unit dan waktu cross-sectional.

Prakiraan penjualan dapat dibangun di atas struktur khusus data penjualan seperti yang ditemukan dalam bisnis. Ini adalah data yang diatur berdasarkan waktu dan lokasi, di mana lokasi mungkin merujuk ke wilayah geografis atau wilayah penjualan, toko, departemen di dalam toko, atau lini produk. Prakiraan penjualan adalah komponen penting dari perencanaan bisnis dan langkah pertama dalam proses penganggaran.

Model dan metode yang memberikan perkiraan yang akurat dapat sangat bermanfaat bagi manajemen. Mereka membantu manajer untuk memahami faktor-faktor penentu penjualan, termasuk promosi, penetapan harga, iklan, dan distribusi. Mereka mengungkapkan posisi kompetitif dan pangsa pasar. Ada banyak pendekatan untuk peramalan. Beberapa menghakimi, mengandalkan pendapat ahli atau konsensus. Ada prakiraan top-down dan bottom-up dan berbagai teknik untuk menggabungkan pandangan para ahli.

Pendekatan lain bergantung pada analisis data penjualan masa lalu.

1. Peramalan berdasarkan periode waktu: Ini mungkin hari, minggu, bulan, atau interval apa pun yang masuk akal untuk masalah yang dihadapi. Ketergantungan waktu dapat dicatat dengan cara yang sama seperti pada model deret waktu tradisional. Istilah auto-regresif berguna dalam banyak konteks. Kovariat yang ditafsirkan waktu, seperti hari dalam seminggu atau bulan dalam setahun, dapat ditambahkan untuk memberikan kekuatan prediksi tambahan. Seorang analis dapat bekerja dengan data deret waktu, menggunakan penjualan masa lalu untuk memprediksi penjualan di masa depan, mencatat tren keseluruhan dan pola siklus dalam data. Pemulusan eksponensial, rata-rata bergerak, dan berbagai metode regresi dan ekonometrik dapat digunakan dengan data deret waktu.

2. Peramalan berdasarkan lokasi: Mengatur data berdasarkan lokasi berkontribusi pada kekuatan prediksi model. Lokasi itu sendiri dapat digunakan sebagai faktor dalam model. Selain itu, kita dapat mencari variabel penjelas yang terkait dengan lokasi.

Dengan wilayah geografis, misalnya, kami mungkin menyertakan variabel demografis konsumen dan bisnis yang diketahui terkait dengan penjualan.

Dolar penjualan per periode waktu adalah variabel respons khas yang menarik dalam studi peramalan penjualan. Variabel respon alternatif meliputi volume penjualan dan waktu

penjualan. Studi terkait pangsa pasar memerlukan informasi tentang penjualan perusahaan lain dalam kategori produk yang sama.

Namun, ketika kita menggunakan istilah analisis deret waktu, kita tidak berbicara tentang regresi deret waktu. Kita berbicara tentang metode yang dimulai dengan berfokus pada satu ukuran ekonomi pada satu waktu dan polanya sepanjang waktu. Kami mencari tren, musim, dan siklus dalam deret waktu individu itu. Kemudian, setelah bekerja dengan deret waktu tunggal itu, kami melihat kemungkinan hubungan dengan deret waktu lainnya. Jika kita peduli dengan peramalan atau prediksi masa depan, seperti yang sering kita lakukan dalam analisis prediktif, maka kita menggunakan metode analisis deret waktu. Baru-baru ini, ada minat yang cukup besar dalam model ruang keadaan untuk deret waktu, yang menyediakan mekanisme yang nyaman untuk memasukkan komponen regresi ke dalam model deret waktu dinamis.

Ada banyak sekali aplikasi analisis deret waktu dalam pemasaran, termasuk model bauran pemasaran dan model riset periklanan. Seiring dengan peramalan penjualan, ini termasuk dalam kelas umum model respons pasar. Model bauran pemasaran melihat efek dari harga, promosi, dan penempatan produk di perusahaan ritel. Ini adalah beberapa masalah deret waktu. Riset periklanan mencari efektivitas kumulatif periklanan pada kesadaran merek dan produk serta penjualan.

Sebagian besar penelitian ini menggunakan ukuran yang ditentukan seperti "stok iklan", yang berupaya mengubah tayangan iklan atau poin peringkat menjadi satu ukuran dalam waktu. Pemikirannya adalah bahwa pesan paling berpengaruh segera setelah diterima, pengaruhnya menurun seiring waktu, tetapi tidak menurun sepenuhnya sampai banyak unit di kemudian hari. Pemirsa atau pendengar mengingat iklan lama setelah paparan awal terhadap iklan tersebut. Cara lain untuk mengatakan ini adalah dengan mencatat bahwa ada efek terbawa dari satu periode waktu ke periode berikutnya. Tak perlu dikatakan, pengukuran dan pemodelan pada subjek efektivitas periklanan menghadirkan banyak tantangan bagi ilmuwan data pemasaran.

Dalam dokumen Dr. Ir. Agus Wibowo, M.Kom, M.Si, MM (Halaman 118-124)