Mathematics
Background
Mathematics
Background
Latar Belakang
Latar Belakang
Beberapa pengetahuan tentang statistic dan aljabar linear diperlukan untuk memahami dan membangun aplikasi text mining
Mean and Variance
Mean and Variance
Latar Belakang
Latar Belakang
Karakteristik dari populasi data yang
sangat banyak bisa diperkirakan dari beberapa sample.
Poin pentingnya ada 2 : Bagaimana
kita bisa mendapatkan sample yang tidak bias dan berapa sample yang seharusnya diperlukan
Karakteristik dari populasi data yang
sangat banyak bisa diperkirakan dari beberapa sample.
Poin pentingnya ada 2 : Bagaimana
Latar Belakang
Latar Belakang
Untuk mendapatkan sample yang tidak bias tidak mudah juga, salah satu caranya kita bisa mengambil beberapa sample secara random.
Latar Belakang
Latar Belakang
Lalu, bagaimana cara menentukan
batas banyaknya sample yang harus diambil?
Kita bisa menggunakan mean (pusat
lokasi nilai data) dan variance (tingkat variasi nilai data) sebagai pendukung keputusannya
Lalu, bagaimana cara menentukan
batas banyaknya sample yang harus diambil?
Kita bisa menggunakan mean (pusat
Mean
Mean
Mean adalah rata-rata nilai sebuah
data
Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-i
Mean adalah rata-rata nilai sebuah
data
Di mana N adalah jumlah populasi dan
Standart Deviasi
Standart Deviasi
Standar Deviasi adalah besar
perbedaan dari nilai sampel terhadap rata-rata.
Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-I,
sedangkan µ adalah nilai mean.
Standar Deviasi adalah besar
perbedaan dari nilai sampel terhadap
rata-rata.
Di mana N adalah jumlah populasi dan
Variance
Variance
Varian adalah ukuran persebaran
(dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi
Di mana N adalah jumlah populasi dan xi
adalah nilai pada populasi ke-I,
sedangkan µ adalah nilai mean.
Varian adalah ukuran persebaran (dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi
Reuters Collection
Reuters Collection
Reuters Collection berisi
dokumen-dokumen berita yang sangat banyak.
Misal kita ambil 10000 dokumen lalu
kita cari mean, varian dan standart deviasinya.
Reuters Collection berisi
dokumen-dokumen berita yang sangat banyak.
Misal kita ambil 10000 dokumen lalu
Reuters Collection
Reuters Collection
Kata Mean Standart Deviasi
And 2.79 3.57
Of 3.86 4.61
The 6.30 8.52
United 0.08 0.41
States 0.06 0.37
America 0.02 0.20
Misal kita analisis statistic dari beberapa kata berikut :
Reuters Collection
Reuters Collection
Kata Mean Standart Deviasi
And 2.79 3.57
Of 3.86 4.61
The 6.30 8.52
United 0.08 0.41
States 0.06 0.37
America 0.02 0.20
Misal kita analisis statistic dari beberapa kata berikut :
Reuters Collection
Reuters Collection
Kebanyakan data yang memiliki Mean
yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula
Bisa juga kita gambarkan dalam
bentuk distribusi jumlah kemunculan
Kebanyakan data yang memiliki Mean
yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula
Bisa juga kita gambarkan dalam
Probability
Probability
Probability
Probability
Probabilitas atau peluang adalah nilai di antara 0 dan 1 yang mengindikasikan seberapa mungkin sebuah kejadian atau beberapa kumpulan kejadian akan terjadi
Probability
Probability
Nilai 0 mengindikasikan kejadian tidak
akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi
Nilai di antara 0-1 mengindikasikan
besarnya kemungkinan terjadi
Nilai 0 mengindikasikan kejadian tidak
akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi
Nilai di antara 0-1 mengindikasikan
Probability
Probability
Contoh, kita bisa menghitung
probabilitas kata and muncul tepat satu kali pada sebuah dokumen.
Kita bisa tuliskan p(x) sebagai peluang
kata and muncul x kali
Atau P(X=x) peluang random variable
X bernilai x
Contoh, kita bisa menghitung
probabilitas kata and muncul tepat satu kali pada sebuah dokumen.
Kita bisa tuliskan p(x) sebagai peluang
kata and muncul x kali
Atau P(X=x) peluang random variable
Probability
Probability
Kadang kita tidak bisa menghitung
rata-rata jumlah kemunculan sebuah
kata dalam sebuah kumpulan
dokumen karena, misal dokumenya sangat banyak
Kadang kita tidak bisa menghitung
Probability
Probability
Oleh karena itu, mean bisa
diperkirakan dari Expected value
Di mana E[X] adalah Expected value
dari random variable x dijumlahkan semuanya untuk semua kemungkinan x
Oleh karena itu, mean bisa
diperkirakan dari Expected value
Di mana E[X] adalah Expected value
dari random variable x dijumlahkan semuanya untuk semua kemungkinan x
x
x
xp
X
Probability
Probability
Oleh karena itu, mean bisa dihitung
dari Expected value
Namun, dengan menggunakan
Expected value ini bisa jadi berbeda
dengan mean yang sebenarnya
Oleh karena itu, mean bisa dihitung
dari Expected value
Namun, dengan menggunakan
Expected value ini bisa jadi berbeda dengan mean yang sebenarnya
x
x
xp
X
Probability
Probability
Pengukuran lain adalah Covariance
dan Correlation untuk
membandingkan dua buah variable
Pengukuran lain adalah Covariance
dan Correlation untuk
Probability
Probability
Covariance menggambarkan
bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak
Misal, menghitung Covariance dari
variable X dan Y
Covariance menggambarkan
bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak
Misal, menghitung Covariance dari
variable X dan Y
X
Y
E
X
x
Y
y
Probability
Probability
Misal, menghitung Covariance dari variable X dan
Y
Nilai Kovarian yang tinggi mengindikasikan jika
semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama.
Sebaliknya, nilai Kovarian yang rendah
mengindikasikan jika semakin besar nilai X, maka nilai Y malah semakin kecil, dan sebaliknya. Atau bisa dikatakan X dan Y punya perilaku yang berkebalikan.
Misal, menghitung Covariance dari variable X dan
Y
Nilai Kovarian yang tinggi mengindikasikan jika
semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama.
Sebaliknya, nilai Kovarian yang rendah
Probability
Probability
Sama halnya dengan Covariance,
Correlation juga mengukur hubungan antara 2 buah variable, namun dengan
hasil yang lebih mudah di
interpretasikan
Sama halnya dengan Covariance,
Probability
Probability
Nilai Korelasi pasti di antara -1 sampai
1
Korelasi tinggi mengindikasikan jika
semakin besar nilai X, maka semakin besar juga nilai Y, dan sebaliknya.
Nilai Korelasi pasti di antara -1 sampai
1
Korelasi tinggi mengindikasikan jika
Probability
Probability
Nilai Korelasi pasti di antara -1 sampai 1
Dari data 10.000 dokumen berita
Reuters, korelasi kemunculan ata United
dan States adalah 0.84. Artinya United
dan States sering muncul dalam jumlah yang sama dalam dokumen manapun
Nilai Korelasi pasti di antara -1 sampai 1
Least Square Method
Least Square Method
Least Square Method
Least Square Method
Misal kita gambarkan hubungan
antara probabilitas kemunculan kata United dan States dalam sebuah dokumen
Misal kita gambarkan hubungan
Least Square Method
Least Square Method
Seperti pada gambar, ketika kata
United muncul 4 kali dalam sebuah dokumen, maka ada peluang 0.6 kata States juga muncul sebanyak 4 kali dalam dokumen tersebut. ketika kata United muncul 5 kali dalam sebuah dokumen, maka ada peluang 0.75 kata States juga muncul sebanyak 5 kali dalam dokumen tersebut.
Seperti pada gambar, ketika kata
Least Square Method
Least Square Method
Probabilitasnya cenderung naik jika
jumlah kemunculanya bertambah.
Kita bisa menarik sebuah garis Regresi Garis regresi ini bisa digunakan untuk
memprediksi probabilitas dari nilai x selanjutnya
Probabilitasnya cenderung naik jika
jumlah kemunculanya bertambah.
Kita bisa menarik sebuah garis Regresi Garis regresi ini bisa digunakan untuk
Least Square Method
Least Square Method
Untuk membuat garis Regresi ini bisa
membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh
Kita bisa menggunakan metode Least
Square untuk meminimalisir jarak ini
Untuk membuat garis Regresi ini bisa
membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh
Kita bisa menggunakan metode Least
Entropy
Entropy
Entropy
Entropy
Entropy bisa diartikan sebagai ketidak
pastian
Entropy dalam Information Theory
digunakan sebagai metode kompresi pada tahun 1940an untuk mengirim lebih banyak informasi dengan akurasi yang tinggi
Entropy bisa diartikan sebagai ketidak
pastian
Entropy dalam Information Theory
Entropy
Entropy
Nilai Entropy yang tinggi berarti data
berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut
Nilai Entropy yang rendah berarti data
berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil
Nilai Entropy 0 berrarti 100% kepastian
Nilai Entropy yang tinggi berarti data
berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut
Nilai Entropy yang rendah berarti data
berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil
Entropy
Entropy
Misal, dalam Bahasa Inggris, huruf u
sering muncul setalah q. Ada sedikit ketidakpastian kalau huruf u sering muncul setalah q, sehingga nilai entropynya rendah
Misal, dalam Bahasa Inggris, huruf u
Entropy
Entropy
Entropy menghitung jumlah informasi
yang dibutuhkan dalam
menyelesaikan ketidakpastian
Jika banyak ketidakpastian, maka kita
perlu lebih banyak informasi yang dikirimkan, sehingga nilai Entropynya pun tinggi
Entropy menghitung jumlah informasi
yang dibutuhkan dalam
menyelesaikan ketidakpastian
Jika banyak ketidakpastian, maka kita
Entropy
Entropy
Di mana pi adalah peluang kata wi
Untuk dua buah kata dengan peluang 0.75
dan 0.25, entropynya adalah 0.811
Untuk dua buah kata dengan peluang 0.5
dan 0.5, entropynya adalah 1
Entropy bertambah seiring banyaknya
ketidakpastian
Di mana pi adalah peluang kata wi
Untuk dua buah kata dengan peluang 0.75 dan 0.25, entropynya adalah 0.811
Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1
Related-Event
Probability
Related-Event
Probability
Related-Event
Probability
Related-Event
Probability
Misal ada sebuah Bahasa yang hanya
terdiri dari 3 kata : (apple, baker, charlie)
Jika dalam Bahasa tersebut hanya bisa
membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah
{apple apple, baker baker, Charlie
Charlie, apple baker, apple Charlie, baker apple, baker Charlie, Charlie apple, Charlie baker}
Misal ada sebuah Bahasa yang hanya terdiri dari 3 kata : (apple, baker, charlie) Jika dalam Bahasa tersebut hanya bisa
membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah
Related-Event
Probability
Related-Event
Probability
Kemungkinan terjadi kata apple baker adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9
P(apple) : Peluang apple muncul minimal satu kali adalah 5/9
P(apple ∩ baker) : Peluang apple dan baker muncul bersama adalah 2/9
P(apple U baker) : Peluang apple atau baker muncul adalah 8/9
Kemungkinan terjadi kata apple baker
adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9
P(apple) : Peluang apple muncul minimal
satu kali adalah 5/9
P(apple ∩ baker) : Peluang apple dan baker
muncul bersama adalah 2/9
P(apple U baker) : Peluang apple atau baker
muncul adalah 8/9
a
b
p
a
p
b
p
a
b
Related-Event
Probability
Related-Event
Probability
P(apple|baker) : Peluang muncul apple jika kata baker muncul juga adalah 2/5
P(apple|baker) = 2/9 / 5/9 = 2/5
P(apple|baker) : Peluang muncul apple jika
kata baker muncul juga adalah 2/5
P(apple|baker) = 2/9 / 5/9 = 2/5
b pb a
p b
a
Related-Event
Probability
Related-Event
Probability
Misal, kita memiliki dua event a1 dan c2
a1 : Kalimat berawalan apple
c2 : Kalimat berakhiran Charlie
Jika p(a1|c2) = p(a1), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga
Misal, kita memiliki dua event a1 dan c2
a1 : Kalimat berawalan apple
c2 : Kalimat berakhiran Charlie
Jika p(a1|c2) = p(a1), maka dua kejadian ini
independent, tidak saling mempengaruhi, sehingga
a
1c
2
p
a
1p
c
2Related-Event
Probability
Bayes Rule
Bayes Rule
Bayes Rule
Bayes Rule
Misal di pulau terpencil hidup seorang manusia
Kita tidak tahu jenis kelaminya apa
P(pria) adalah peluang manusia tersebut berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita
P(pria)= P(wanita) =1/2
Ini disebut sebagai prior probability, nilai peluang sebelum mendapatan informasi
Misal di pulau terpencil hidup seorang
manusia
Kita tidak tahu jenis kelaminya apa
P(pria) adalah peluang manusia tersebut
berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita
P(pria)= P(wanita) =1/2
Ini disebut sebagai prior probability, nilai
Bayes Rule
Bayes Rule
Lalu kita mendapat info kalau orang
tersebut suka main sepakbola
(kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability
Lalu kita mendapat info kalau orang
tersebut suka main sepakbola (kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability
Probability
Distribution
Probability
Distribution
Binomial Distribution
Binomial Distribution
A fixed number of observations (trials), n
e.g., 15 tosses of a coin; 20 patients; 1000 people
surveyed
A binary outcome
e.g., head or tail in each toss of a coin; disease or no
disease
Generally called “success” and “failure”
Probability of success is p, probability of failure is 1 – p
Constant probability for each observation
e.g., Probability of getting a tail is the same each time
Binomial distribution
Binomial distribution
Take the example of 5 coin tosses. What’s the probability that you fip
exactly 3 heads in 5 coin tosses?
Take the example of 5 coin tosses. What’s the probability that you fip
Binomial distribution
Binomial distribution
Solution:
One way to get exactly 3 heads: HHHTT
What’s the probability of this exact arrangement?
P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2
Another way to get exactly 3 heads: THHHT
Probability of this exact outcome = (1/2)1 x (1/2)3 x
(1/2)1 = (1/2)3 x (1/2)2
Solution:
One way to get exactly 3 heads: HHHTT
What’s the probability of this exact arrangement?
P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2
Another way to get exactly 3 heads: THHHT
Probability of this exact outcome = (1/2)1 x (1/2)3 x
Binomial distribution
Binomial distribution
In fact, (1/2)3 x (1/2)2 is the probability of
each unique outcome that has exactly 3 heads and 2 tails.
So, the overall probability of 3 heads and 2 tails is:
(1/2)3 x (1/2)2 + (1/2)3 x (1/2)2 + (1/2)3 x
(1/2)2 + ….. for as many unique
arrangements as there are—but how many are there??
In fact, (1/2)3 x (1/2)2 is the probability of
each unique outcome that has exactly 3 heads and 2 tails.
So, the overall probability of 3 heads and 2 tails is:
(1/2)3 x (1/2)2 + (1/2)3 x (1/2)2 + (1/2)3 x
(1/2)2 + ….. for as many unique
Outcome Probability
Factorial review: n! = n(n-1)(n-2)…
P(3 heads and 2 tails) = x P(heads)3 x P(tails)2 =
10 x (
½
)
5=31.25%
Binomial distribution
Binomial distribution
5
x
p(x)
0 1 2 3 4 5
Binomial distribution
function:
X= the number of heads tossed
in 5 coin tosses
Binomial distribution
function:
X= the number of heads tossed
in 5 coin tosses
number of heads
p(x)
number of heads
Binomial distribution,
generally
Binomial distribution,
generally
1-p = probability of failure
p = probability of success
X = # successes out of n trials
n = number of trials
Note the general pattern emerging if you have only two possible
outcomes (call them 1/0 or yes/no or success/failure) in n independent trials, then the probability of exactly X “successes”=
Binomial distribution:
example
Binomial distribution:
example
If I toss a coin 20 times, what’s the
probability of getting exactly 10 heads?
If I toss a coin 20 times, what’s the
probability of getting exactly 10 heads?
Binomial distribution:
example
Binomial distribution:
example
If I toss a coin 20 times, what’s the
probability of getting of getting 2 or fewer heads?
If I toss a coin 20 times, what’s the
**All probability distributions are
characterized by an expected value and a variance:
**All probability distributions are
characterized by an expected value and a variance:
If X follows a binomial distribution with parameters n and p:
Note: the variance will always lie between 0*N-.25 *N
p(1-p) reaches maximum at p=.5 P(1-p)=.25
) 1
( p
The Poisson Distribution
The Poisson Distribution
The Poisson distribution is defned by:
Where f(x) is the probability of x occurrences in an interval
m is the expected value or mean value of occurrences within an interval
e is the natural logarithm. e = 2.71828
!
)
(
x
e
x
f
x
Properties of the Poisson
Distribution
Properties of the Poisson
Distribution
1. The probability of occurrences is the same for any two intervals of equal length.
Example: Mercy Hospital
Example: Mercy Hospital
Poisson Probability Function
Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings.
What is the
probability of 4 arrivals in
30 minutes on a weekend evening?
Poisson Probability Function
Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings.
What is the
probability of 4 arrivals in
30 minutes on a weekend evening?
Example: Mercy Hospital
Example: Mercy Hospital
= 6/hour = 3/half-hour, x = 4
4 3
3 (2.71828)
(4) .1680
4!
The Normal
Distribution
The Normal Distribution:
as mathematical function
(pdf)
The Normal PDF
The Normal PDF
1
It’s a probability function, so no matter what the values of and , must integrate to 1!
Normal distribution is
defned by its mean and
standard dev.
Normal distribution is
defned by its mean and
standard dev.
E(X)= =
Var(X)=2 =
Standard Deviation(X)=
E(X)= =
Var(X)=2 =
Standard Deviation(X)=
**The beauty of the normal curve:
**The beauty of the normal curve:
No matter what and are, the area
between - and + is about 68%; the area
between -2 and +2 is about 95%; and
the area between -3 and +3 is about
68-95-99.7 Rule
68-95-99.7 Rule in Math terms…
68-95-99.7 Rule in Math terms…
How good is rule for real data?
How good is rule for real data?
Check some example data:
The mean of the weight of the women
= 127.8
The standard deviation (SD) = 15.5 Check some example data:
The mean of the weight of the women
= 127.8
127.8 143.3 112.3
68% of 120 = .68x120 = ~ 82 runners
In fact, 79 runners fall within 1-SD (15.5 lbs) of the mean.
8 0 9 0 1 0 0 1 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 6 0
0
5
1 0
1 5
2 0
2 5
P
e
r
c
e
n
t
127.8 96.8
95% of 120 = .95 x 120 = ~ 114 runners
In fact, 115 runners fall within 2-SD’s of the mean.
158.8
8 0 9 0 1 0 0 1 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 6 0
0
5
1 0
1 5
2 0
2 5
P
e
r
c
e
n
t
127.8 81.3
99.7% of 120 = .997 x 120 = 119.6 runners
Sampling
Distribution
Sampling
Distribution
Sampling Distribution
Sampling Distribution
Dalam teks mining, alasan untuk
melakukan sampling sangat jelas, yaitu kita tidak bisa mengkases semua teks online yang tersedia dalam berbagai Bahasa dan sampling adalah satu-satunya cara untuk membangun
representasi model semua teks
tersebut
Dalam teks mining, alasan untuk
Sampling Distribution
Sampling Distribution
Beberapa tipe sampling yang bisa
dipakai
Beberapa tipe sampling yang bisa
dipakai
Statistic Populatio n
Distributi on
Populatio n
Variance
Sample Distributi on
Hypothesis Testing
Hypothesis Testing
Hypothesis Testing
Hypothesis Testing
Hipotesis adalah teori yang belum
teruji yang diyakini berdasarkan data
yang atau pengalaman sudah
terkumpul
H0 adalah null Hipotesis, hipotesis yang
diyakini tidak benar
H0 adalah hipotesis yang diyakini
benar
Hipotesis adalah teori yang belum
teruji yang diyakini berdasarkan data yang atau pengalaman sudah terkumpul
H0 adalah null Hipotesis, hipotesis yang
diyakini tidak benar
H0 adalah hipotesis yang diyakini
benar
Test Result H0 True H1 True
Chi-Square Test
Chi-Square Test
Misal kita mendapatkan spam dan
email yang bukan spam pada hari libur maupun hari aktif
Bisakah kita membangun sebuah
hubungan antara tipe email dan hari pengirimanya
Misal kita mendapatkan spam dan
email yang bukan spam pada hari libur maupun hari aktif
Bisakah kita membangun sebuah
hubungan antara tipe email dan hari pengirimanya
Type Weekday Weekend Total
Spam 73 145 218
Bukan Spam 182 100 282
Chi-Square Test
Chi-Square Test
Expected Frequency(EF) bisa dihitung dengan distribusi normal.
EF(Spam, Weekday) adalah EF spam pada weekday
EF(Spam, Weekday) = 255x218/500 = 111.18
Dst, sehingga didapat nlai Expected Frequency(EF) :
Expected Frequency(EF) bisa dihitung
dengan distribusi normal.
EF(Spam, Weekday) adalah EF spam pada
weekday
EF(Spam, Weekday) = 255x218/500 =
111.18
Dst, sehingga didapat nlai Expected
Frequency(EF) :Type Weekday Weekend Total
Spam 111.18 106.82 218
Bukan Spam 143.82 138.18 282
Chi-Square Test
Chi-Square Test
Chi-square bisa dihitung dengan rumus
Oij adalah frekuensi yang diobservasi dan Eij
adalah frekuensi yang diharapkan (expected Frequency)
Koreksi 0.5 digunakan untuk meningkatkan perkiraan distribusi chi-square. Hasilnya :
Chi-square bisa dihitung dengan rumus
Oij adalah frekuensi yang diobservasi dan Eij
adalah frekuensi yang diharapkan (expected Frequency)
Koreksi 0.5 digunakan untuk meningkatkan
perkiraan distribusi chi-square. Hasilnya :
Chi-Square Test
Chi-Square Test
Chi-square bisa dihitung dengan rumus
Nilai Chi-square Spam pada Weekdays =
(|73-111.18|+0.5)2 / 111.18 =
1496.1424/111.18 = 13.45
Chi-square bisa dihitung dengan rumus
Nilai Chi-square Spam pada Weekdays =
(|73-111.18|+0.5)2 / 111.18 =
1496.1424/111.18 = 13.45
Type Weekday Weekend
Spam 13.45 14.00
Bukan Spam 10.40 10.82
Chi-Square Test
Chi-Square Test
Jumlah totalnya = 48.67
Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635
Jadi H0 ditolak
Oleh karena itu, memang ada hubungan antara hari dan tipe email
Jumlah totalnya = 48.67
Untuk chi-square dengan 1 degree of
freedom minimalnya adalah 6.635
Jadi H0 ditolak
Oleh karena itu, memang ada hubungan
antara hari dan tipe email
Type Weekday Weekend
Spam 13.45 14.00
T-Test
T-Test
Kalau Chi-square membandingkan variance, kalau
t-test membandingkan nilai tunggal seperti mean.
Misal kita memiliki koleksi dokumen yang
dimasukkan ke dalam 8 kategori
Dokumen yang tidak bisa dikategorikan di
masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut
Kita akan mengetes sebuah algoritma kategorisasi
sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan
Kita ingin mengetahui apakah peningkatan
performa algoritma tersebut signifkan atau tidak
Kalau Chi-square membandingkan variance, kalau
t-test membandingkan nilai tunggal seperti mean.
Misal kita memiliki koleksi dokumen yang
dimasukkan ke dalam 8 kategori
Dokumen yang tidak bisa dikategorikan di
masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut
Kita akan mengetes sebuah algoritma kategorisasi
sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan
Kita ingin mengetahui apakah peningkatan
T-Test
T-Test
Algoritma awal : Jumlah dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9.
Algoritma sesudah ditingkatkan : Jumlah dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7.
Kalau dari jumlah yang benar, kelihatanya performa algoritma ini sudah mengalami peningkatan, tapi signifkan kah?
Algoritma awal : Jumlah dokumen yang
sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9.
Algoritma sesudah ditingkatkan : Jumlah
dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7.
Kalau dari jumlah yang benar, kelihatanya
T-Test
T-Test
H0 : hipotesis menyatakan tidak ada perubahan performa
Kita hitung dulu mean dari perbedaan jumlah kategori benar
Mean = ((18-15)+(22-18)+(21-20)+(6-6)+(10-8)+(17-17)+(21-20)+(7-9))/8 = 1.125 Standart deviasinya kalau kita hitung 1.76
H0 : hipotesis menyatakan tidak ada
perubahan performa
Kita hitung dulu mean dari perbedaan jumlah
kategori benar
Mean =
((18-15)+(22-18)+(21-20)+(6-6)+(10-8)+(17-17)+(21-20)+(7-9))/8 = 1.125
T-Test
T-Test
T-Test dengan 7 degree of freedoms
C1 dan c2 adalah julah dokumen terkategorisasi
benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi
Karena nilai t kurang dari 1.895 (Lihat table distribusi
t dengan 7 degree of freedoms), maka H0 diterima
Jadi, algoritma tidak mengalami peningkatan
performa yang signifkan
T-Test dengan 7 degree of freedoms
C1 dan c2 adalah julah dokumen terkategorisasi
benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi
Karena nilai t kurang dari 1.895 (Lihat table distribusi
t dengan 7 degree of freedoms), maka H0 diterima
Jadi, algoritma tidak mengalami peningkatan
performa yang signifkan
Matriks
Matriks
Matriks
Matriks
Persamaan ditemukan pada banyak aplikasi teks mining, mulai dari POS tagging, indexing, monitor email trafc, dsb
Aljabar linear adalah ilmu untuk menyelesaikan persamaan ini
Matriks dan vector dapat dipakai sebagai representasi untuk mendeskripsikan persamaan ini agar lebih mudah diselesaikan
Persamaan ditemukan pada banyak aplikasi
teks mining, mulai dari POS tagging, indexing, monitor email trafc, dsb
Aljabar linear adalah ilmu untuk
menyelesaikan persamaan ini
Matriks dan vector dapat dipakai sebagai
Matriks
Matriks
Misal transisi tiga part-of-speech (POS) dalam sebuah dokumen digambarkan dalam gambar berikut
Misal transisi tiga part-of-speech (POS) dalam
Matriks
Matriks
Bisa kita representasikan ke dalam sebuah matriks berikut :
Bisa kita representasikan ke dalam sebuah
matriks berikut :
Noun Adjective Verb
Noun 0.50 0.00 0.50
Adjective 0.25 0.50 0.25
Matriks
Matriks
Salah satu penggunaan matriks yang lain adalah dalam mengerjakan metode Singular Value Decomposition (SVD)
Salah satu penggunaan matriks yang lain