TUGAS 1 MATA KULIAH DATA SCIENCE

(1)

TUGAS 1 MATA KULIAH DATA SCIENCE

Tema : Konsep Data Scince, Statistika, Algoritma Klasifikasi dan performance klasifikasi Nama : Ika Kemala Sawati Azzahra

NPM : 24.55.2730

1. Business Analytic, Data Analytic, dan Data Science

Business analytic adalah salah satu teknologi yang digunakan untuk mendapatkan wawasan yang didapat dari menentukan dari data. Karena potensi operasional, taktis, dan strategisnya yang tinggi, maka telah menarik minat banyak akademisi dan praktisi diberbagai industri. Dapat didefinisikan sebagai proses mengembangkan keputusan atau rekomendasi yang dapat ditindaklanjuti berdasarkan pada wawasan dari data historis, serta pemantauan kinerja yang sering memproses bisnis melalui presentasi yang akurat, analisis data multidimensi, dan pembuatan laporan[1].

Contoh :

Perusahaan ritel ingin meningkatkan penjualan produk mereka. Mereka menggunakan business analytics untuk menganalisis data penjualan historis, perilaku pelanggan, dan tren pasar.

• Perusahaan mengumpulkan data penjualan dari berbagai saluran (online dan offline), data demografis pelanggan, dan data promosi.

• Menggunakan alat analisis untuk mengidentifikasi pola penjualan, seperti produk yang paling laku, waktu puncak penjualan, dan segmen pelanggan yang paling menguntungkan.

• Membuat dashboard untuk memvisualisasikan data penjualan dan tren.

• Berdasarkan analisis, perusahaan memutuskan untuk meningkatkan promosi untuk produk yang kurang laku dan menargetkan segmen pelanggan tertentu dengan kampanye pemasaran yang disesuaikan.

Data analytic berfokus pada analisis data yang masih mentah dan mengolahnya melalui berbagai metode dan teknik tertentu sehingga dapat menghasilkan kesimpulan yang dapat dijadikan referensi untuk pengambilan keputusan yang lebih baik dan tepat sasaran. Dalam proses data analytics, ada 4 tahapan yaitu pengumpulan data, pemrosesan data, analisis data dan interpretasi data. Data analytic tidak hanya sekadar mengolah data, tetapi juga mengidentifikasi tren, prediksi masa depan, serta memahami perilaku yang terjadi berdasarkan data yang ada[2].

Contoh :

Perusahaan telkomsel dalam pelayanan pelanggan ingin meningkatkan kepuasan pelanggan dengan menganalisis data interaksi pelanggan.

• Perusahaan mengumpulkan data penjualan dari interaksi pelanggan melalui telepon, email, dan media sosial.

• Menggunakan teknik analisis statistik untuk mengidentifikasi masalah umum yang dihadapi pelanggan, seperti waktu tunggu yang lama atau masalah produk.

Mengelompokkan pelanggan berdasarkan jenis masalah yang mereka hadapi dan tingkat kepuasan mereka.

(2)

• Berdasarkan analisis, perusahaan memutuskan untuk meningkatkan proses layanan dengan menerapkan pelatihan staf dan peningkatan sistem manajemen waktu.

Data science melibatkan data dan sains atau ilmu yang dibutuhkan untuk memproses data, jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang kandungan atau isi data yang bermanfaat, lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, memanipulasinya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban[3].

Contoh :

Toko Somethinc ingin memahami bagaimana pelanggan mereka merasakan produk terbaru yang diluncurkan melalui analisis sentimen di media sosial. Mereka memutuskan untuk menggunakan teknik data science untuk menganalisis data dari platform media sosial seperti Twitter, Facebook, dan Instagram.

• Perusahaan mengumpulkan data dari berbagai sumber media sosial menggunakan API (Application Programming Interface) atau alat pengumpulan data. Data yang dikumpulkan mencakup postingan dan komentar yang menyebutkan produk.

Retweet dan like yang diterima oleh postingan terkait produk. Metadata seperti tanggal, waktu, dan lokasi.

• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti penghapusan tautan dan emoji yang tidak diperlukan dalam analisis.

• Teks yang bersifat alami (natural language) diproses untuk mempersiapkannya untuk analisis. Seperti memecah teks menjadi kata-kata atau frasa, mengubah kata kebentuk dasarnya dan menghapus kata-kata umum yang tidak memberikan makna.

• Dengan menggunakan teknik machine learning dapat menggunakan model naive bayes, support vector machines (SVM), dan deep learning. Model dilatih menggunakan dataset yang telah dilabeli dengan sentimen positif, negatif, atau netral.

• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-Score.

• Kemudian hasil analisis sentimen divisualisasikan menggunakan grafik dan diagram untuk memberikan wawasan yang lebih jelas. Setelah analisis selesai, toko somethinc dapat mengidentifikasi area yang perlu diperbaiki dalam produk dan menyesuaikan strategi pemasaran dalam meningkatkan produk dan layanan mereka.

2. Data, Informasi dan Pengetahuan

Data didefinisikan sebagai fakta atau apa yang dikatakan sebagai hasil dari suatu observasi terhadap fenomena alam. Sebagai hasil observasi langsung terhadap kejadian atau fakta dari fenomena di alam nyata, data bisa berupa tulisan atau gambar yang dilengkapi dengan nilai tertentu[4].

Informasi bisa dianggap sebagai pesan atau makna yang terkandung dalam sebuah pesan, sebagai kumpulan data yang terstruktur yang kita komunikasikan lewat bahasa

(3)

lisan, surat kabar, video, dan lain sebagainya. Mengacu pada segala kejadian di dunia (entitas) yang tak terhingga, yang tak dapat disentuh, atau sesuatu yang abstrak[4].

Pengetahuan adalah model yang digunakan manusia untuk memahami dunia dan yang dapat diubah-ubah oleh informasi yang diterima pikiran manusia. Manusia yang memperoleh pengetahuan akan menjadi lebih bijak (wise) daripada sebelumnya[4].

Contoh :

Daftar mahasiswa baru s2 pjj informatika amikom jogja adalah data. Kemudian, daftar tersebut disampaikan kepada para tutor sebagai bahan absen. Berdasarkan data tersebut, para tutor memberi informasi kepada para mahasiswa bahwa peserta kuliah pjj s2 berjumlah 60 yang terdiri atas 25 siswa berjenis kelamin perempuan dan 35 berjenis kelamin laki-laki. Ini adalah informasi dari para tutor. Selanjutnya, salah seorang mahasiswa mempunyai gambaran pengetahuan bahwa jumlah mahasiswa laki-laki lebih banyak dibanding mahasiswa perempuan. Kemudian, mahasiswa lain mempunyai pengetahuan yang berbeda bahwa peminat s2 pjj informatika sebagian besar adalah mahasiswa laki-laki. Jadi, dari gambaran ini, berdasarkan informasi yang sama, pengetahuan yang diterima seseorang bisa berbeda.

3. Statistika Deskriptif

Statistik deskriptif digunakan untuk menggambarkan dan merangkum data, termasuk pada perhitungan ukuran pusat seperti mean dan median dan untuk ukuran variasi seperti range dan standar deviasi[5].

Contoh :

Misal sebuah sekolah ingin menganalisis hasil ujian akhir semester siswa untuk memahami kinerja akademis mereka. Sekolah telah mengumpulkan data nilai ujian dari 20 siswa dalam mata pelajaran informatika. Berikut adalah nilai ujian yang diperoleh : 90, 78, 99, 88, 76, 95, 89, 84, 73, 90, 82, 91, 75, 80, 77, 87, 93, 94, 81, 79

Menghitung ukuran pusat :

• Mean : Jumlah semua nilai / Banyaknya data = 1.701 / 20 = 85,05

• Median : mengurutkan jumlah nilai = 73, 75, 76, 77, 78, 79, 80, 81, 82, 84, 87, 88, 89, 90, 90, 91, 93, 94, 95, 99

Banyaknya nilai = 20, jumlah rata-rata nilai tengah = (84 + 87) = 171 / 2 = 85,5

• Modus : Nilai yang paling banyak muncul adalah 90 sebanyak 2 kali.

Menghitung ukuran penyebaran :

• Range : Nilai maksimum – Nilai minimum = 99 – 73 = 26

• Standar deviasi : Menghitung selisih setiap nilai dari rata-rata, kemudian mengkuadratkan hasilnya.

(73 - 85,05)²= (-12.05)² = 145,20 (75 - 85,05)²= (-10.05)² = 101 (76 - 85,05)²= (-9.05)² = 81.90 (77 - 85,05)²= (-8.05)² = 64.80 (78 - 85,05)²= (-7.05)² = 49.70 (79 - 85,05)²= (-6.05)² = 36.60

(4)

(80 - 85,05)²= (-5.05)² = 25.50 (81 - 85,05)²= (-4.05)² = 16.40 (82 - 85,05)²= (-3.05)² = 9.30 (84 - 85,05)²= (-1.05)² = 1.10 (87 - 85,05)²= (1.95)² = 3.80 (88 - 85,05)²= (2.95)² = 8.70 (89 - 85,05)²= (3.95)² = 15.60 (90 - 85,05)²= (4.95)² = 24.50 (90 - 85,05)²= (4.95)² = 24.50 (91 - 85,05)²= (5.95)² = 35.40 (93 - 85,05)²= (7.95)² = 63.20 (94 - 85,05)²= (8.95)² = 80.10 (95 - 85,05)²= (9.95)² = 99 (99 - 85,05)²= (13.95)² = 194.60

Kita jumlahkam semua hasil kuadrat tersebut : 145,20 + 101 + 81.90 + 64.80 + 49.70 + 36.60 + 25.50 + 16.40 + 9.30 + 1.10 + 3.80 + 8.70 + 15.60 + 24.50 + 24.50 + 35.40 + 63.20 + 80.10 + 99 + 194.60 = 1.080,9

Selanjutnya kita menghitung varians, yaitu rata-rata selisih kuadrat. Karena kita menggunakan sampel maka kita akan bagi dengan (N – 1) dimana N = 20 – 1 = 19.

Varians : Total / (N – 1) = 1.080,9 / 19 = 56,88

Menghitung standar deviasinya yang merupakan akar kuadrat dari varians.

Standar deviasi : ²�56,88 = 7,54

Maka didapat bahwa standar deviasi data nilai ujian dari 20 siswa dalam mata pelajaran informatika adalah sekitar 7,54. Standar deviasi 7,54 poin dari rata-rata 85,05 nilai ujian siswa menunjukkan semakin kecil nilai standar deviasinya maka semakin dekat nilai siswa ke rata-rata, sebaliknya jika standar deviasi lebih besar maka menunjukkan variasi ynag lebih besar dalam nilai siswa.

Setelah melakukan analisis statistik deskriptif, sekolah menemukan bahwa rata-rata nilai ujian adalah 85,05 dimana menunjukkan bahwa secara keseluruhan, siswa memiliki kinerja yang baik. Median 85,5 menunjukkan bahwa setengah dari siswa memiliki nilai di atas 84.5. Modus 90 menunjukkan bahwa nilai ini adalah yang paling umum di antara siswa. Rentang nilai 26 menunjukkan variasi yang cukup besar dalam kinerja siswa. Standar deviasi 7,54 memberikan informasi lebih lanjut tentang sebaran nilai.

Statistik deskriptif memberikan informasi yang berharga bagi sekolah untuk dapat merencanakan intervensi yang diperlukan.

4. Mean, Modus, Standar Deviasi

Rata-rata hitung atau sering disebut mean merupakan ukuran untuk pemusatan yang digunakan sebagai dasar perbandingan antara dua kelompok ataupun lebih. Mean terbagi menjadi data tunggal dan data berkelompok atau data distribusi frekuensi.

Dimana data tunggal tergolong mudah yakni hanya menjumlahkan seluruh data dan dibagi dengan banyaknya data, sedangkan data distribusi frekuensi harus menghitung

(5)

terlebih dahulu titik tengah dari tiap kelas interval kemudian baru menggunakan rata- rata hitung[6].

Contoh :

Misal kita ingin menghitung rata-rata umur mahasiswa s2 pjj informatika amikom.

Didapatkan data dari 10 mahasiswa sebagai berikut : 22 30 34 28 29 25 39 39 25 25

Kita mulai menjumlahkan semua umur mahasiswa yang diperoleh : 296

Diketahui jumlah mahasiswa ada 10. Maka kita bisa langsung menghitung mean nya Mean = Total nilai / Jumlah mahasiswa = 296 / 10 = 29,6

Maka didapatkan bahwa rata-rata umur mahasiswa s2 pjj informatika amikom adalah 29,6. Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.

Modus merupakan suatu nilai yang sering muncul atau data yang paling banyak frekuensinya, jika dihadapkan dengan nilai yang mempunyai frekuensi kemunculan yang sama dengan yang lain maka modus mudah diperoleh. Modus terbagi antara modus untuk data tunggal dan modus untuk data distribusi frekuensi. Dalam suatu data bisa terjadi beberapa modus dan bisa pula terjadi tanpa adanya modus[6]

Contoh :

Misal kita ingin mengetahui umur mahasiswa s2 pjj informatika amikom yang paling banyak. Didapatkan data dari 10 mahasiswa sebagai berikut :

22 30 34 28 29 25 39 39 25 25

Kita perlu menghitung berapa banyak umur mahasiswa tersebut yang memiliki umur yang sama.

22 = 1, 25 = 3, 28 = 1, 29 = 1, 30 = 1 34 = 1, 39 = 2.

Maka didapatkan bahwa banyak mahasiswa s2 pjj informatika amikom yang memiliki umur yang sama adalah 25 tahun sebanyak 3 orang. Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.

Standar deviasi disebut juga simpangan baku merupakan suatu nilai dimana ia menunjukkan tingkatan atau derajat dalam variasi kelompok atau ukuran standar penyimpangan reratanya. Simpangan baku terbagi atas simpangan baku data tunggal dan simpangan baku untuk data berkelompok serta variance atau varians yang merupakan kuadrat dari simpangan baku berfungsi untuk mengetahui tingkatan penyebaran atau variasi dalam data[6].

Contoh :

Misal kita ingin menghitung standar deviasi dari umur mahasiswa s2 pjj informatika amikom. Didapatkan data dari 10 mahasiswa sebagai berikut :

22 30 34 28 29 25 39 39 25 25

Kita mulai menjumlahkan semua umur mahasiswa yang diperoleh : 296

Diketahui jumlah mahasiswa ada 10. Maka kita bisa langsung menghitung mean nya Mean = Total nilai / Jumlah mahasiswa = 296 / 10 = 29,6

Maka didapatkan bahwa rata-rata umur mahasiswa s2 pjj informatika amikom adalah 29,6.

(6)

Selanjutnya kita menghitung selisih setiap nilai dari rata-rata, kemudian mengkuadratkan hasilnya.

(22 – 29,6)² = (-7.6)²= 57,76 (30 – 29,6)² = (0.4)²= 0.16 (34 – 29,6)² = (4.4)²= 19.36 (28 – 29,6)² = (-1.6)²= 2.56 (29 – 29,6)² = (-0.6)²= 0.36 (25 – 29,6)² = (-4.6)²= 21.16 (39 – 29,6)² = (9.4)²= 88.36 (39 – 29,6)² = (9.4)²= 88.36 (25 – 29,6)² = (-4.6)²= 21.16 (25 – 29,6)² = (-4.6)²= 21.16

Kita jumlahkam semua hasil kuadrat tersebut : 57,76 + 0.16 + 19.36 + 2.56 + 0.36 + 21.16 + 88.36 + 88.36 + 21.16 + 21.16 = 143,68

Selanjutnya kita menghitung varians, yaitu rata-rata selisih kuadrat. Karena kita menggunakan sampel maka kita akan bagi dengan (N – 1) dimana N = 10 – 1 = 9.

Varians : Total / (N – 1) = 143,68 / 9 = 15,96

Menghitung standar deviasinya yang merupakan akar kuadrat dari varians.

Standar deviasi : �15,96² = 3,99

Maka didapat bahwa standar deviasi umur mahasiswa s2 pjj informatika amikom adalah sekitar 3,99. Standar deviasi 3,99 poin dari rata-rata 29,6 umur mahasiswa menunjukkan semakin kecil nilai standar deviasinya maka semakin dekat umur mahasiswa ke rata-rata, sebaliknya jika standar deviasi lebih besar maka menunjukkan variasi yang lebih besar dalam umur mahasiswa.

Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.

5. Perbedaan Data Science dengan Artificial Intelligence

Data science melibatkan data dan sains atau ilmu yang dibutuhkan untuk memproses data, jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang kandungan atau isi data yang bermanfaat, lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, memanipulasinya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban[3]. Data Science menyediakan data dan wawasan yang diperlukan untuk mengembangkan model AI.

Kecerdasan Buatan (AI) merujuk pada kemampuan mesin atau sistem komputer untuk meniru atau menunjukkan kecerdasan manusia. Definisi ini melibatkan kemampuan sistem untuk mengumpulkan informasi, memahami konteks, melakukan analisis, membuat keputusan, dan belajar dari pengalaman untuk menghadapi tugas-tugas yang kompleks[7]. AI dapat digunakan untuk meningkatkan analisis dan pengolahan data dalam Data Science.

Contoh :

(7)