Latar Belakang

(1)

Mathematics

Background

Mathematics

Background

(2)

Beberapa pengetahuan tentang statistic dan aljabar linear diperlukan untuk memahami dan membangun aplikasi text mining

(3)

Mean and Variance

(4)

Latar Belakang

_{Karakteristik dari populasi data yang}

sangat banyak bisa diperkirakan dari beberapa sample.

_{Poin pentingnya ada 2 : Bagaimana}

kita bisa mendapatkan sample yang tidak bias dan berapa sample yang seharusnya diperlukan

_{Karakteristik dari populasi data yang}

sangat banyak bisa diperkirakan dari beberapa sample.

_{Poin pentingnya ada 2 : Bagaimana}

(5)

Latar Belakang

Untuk mendapatkan sample yang tidak bias tidak mudah juga, salah satu caranya kita bisa mengambil beberapa sample secara random.

(6)

Latar Belakang

_{Lalu, bagaimana cara menentukan}

batas banyaknya sample yang harus diambil?

_{Kita bisa menggunakan mean (pusat}

lokasi nilai data) dan variance (tingkat variasi nilai data) sebagai pendukung keputusannya

_{Lalu, bagaimana cara menentukan}

batas banyaknya sample yang harus diambil?

_{Kita bisa menggunakan mean (pusat}

(7)

Mean

_{Mean adalah} _rata-rata _{nilai sebuah}

data

_{Di mana N adalah jumlah populasi dan} xi adalah nilai pada populasi ke-i

_{Mean adalah} _rata-rata _{nilai sebuah}

data

_{Di mana N adalah jumlah populasi dan}

(8)

Standart Deviasi

_Standar _Deviasi_adalah _besar

perbedaan dari nilai sampel terhadap rata-rata.

_{Di mana N adalah jumlah populasi dan} xi adalah nilai pada populasi ke-I,

sedangkan µ adalah nilai mean.

_Standar _Deviasi_adalah _besar

perbedaan dari nilai sampel terhadap

rata-rata.

_{Di mana N adalah jumlah populasi dan}

(9)

Variance

_{Varian adalah} _{ukuran persebaran}

(dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi

_{Di mana N adalah jumlah populasi dan}_x_i

adalah nilai pada populasi ke-I,

sedangkan µ adalah nilai mean.

_{Varian adalah} _{ukuran persebaran} (dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi

(10)

Reuters Collection

_{Reuters Collection berisi}

dokumen-dokumen berita yang sangat banyak.

_{Misal kita ambil 10000 dokumen lalu}

kita cari mean, varian dan standart deviasinya.

_{Reuters Collection berisi}

dokumen-dokumen berita yang sangat banyak.

_{Misal kita ambil 10000 dokumen lalu}

(11)

Reuters Collection

Kata Mean Standart Deviasi

And 2.79 3.57

Of 3.86 4.61

The 6.30 8.52

United 0.08 0.41

States 0.06 0.37

America 0.02 0.20

Misal kita analisis statistic dari beberapa kata berikut :

(12)

Reuters Collection

Kata Mean Standart Deviasi

And 2.79 3.57

Of 3.86 4.61

The 6.30 8.52

United 0.08 0.41

States 0.06 0.37

America 0.02 0.20

Misal kita analisis statistic dari beberapa kata berikut :

(13)

Reuters Collection

_{Kebanyakan data yang memiliki Mean}

yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula

_{Bisa juga kita gambarkan dalam}

bentuk distribusi jumlah kemunculan

_{Kebanyakan data yang memiliki Mean}

yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula

_{Bisa juga kita gambarkan dalam}

(14)

(15)

Probability

(16)

Probability

Probabilitas atau peluang adalah nilai di antara 0 dan 1 yang mengindikasikan seberapa mungkin sebuah kejadian atau beberapa kumpulan kejadian akan terjadi

(17)

Probability

_{Nilai 0 mengindikasikan kejadian tidak}

akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi

_{Nilai di antara 0-1 mengindikasikan}

besarnya kemungkinan terjadi

_{Nilai 0 mengindikasikan kejadian tidak}

akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi

_{Nilai di antara 0-1 mengindikasikan}

(18)

Probability

_Contoh, _kita _bisa _menghitung

probabilitas kata and muncul tepat satu kali pada sebuah dokumen.

_{Kita bisa tuliskan}_p(x)_{sebagai peluang}

kata and muncul x kali

_Atau _P_(X=_x_{) peluang random variable}

X bernilai x

_Contoh, _kita _bisa _menghitung

probabilitas kata and muncul tepat satu kali pada sebuah dokumen.

_{Kita bisa tuliskan}_p(x)_{sebagai peluang}

kata and muncul x kali

_Atau _P_(X=_x_{) peluang random variable}

(19)

Probability

_{Kadang kita tidak bisa menghitung}

rata-rata jumlah kemunculan sebuah

kata dalam sebuah kumpulan

dokumen karena, misal dokumenya sangat banyak

_{Kadang kita tidak bisa menghitung}

(20)

Probability

_Oleh _karena _itu, _mean _bisa

diperkirakan dari Expected value

_{Di mana} _E[X] _adalah _{Expected value}

dari random variable x dijumlahkan semuanya untuk semua kemungkinan x

_Oleh _karena _itu, _mean _bisa

diperkirakan dari Expected value

_{Di mana} _E[X] _adalah _{Expected value}

dari random variable x dijumlahkan semuanya untuk semua kemungkinan x

 



_

 

x

xp

X

(21)

Probability

_{Oleh karena itu, mean bisa dihitung}

dari Expected value

_Namun, _dengan _menggunakan

Expected value ini bisa jadi berbeda

dengan mean yang sebenarnya

_{Oleh karena itu, mean bisa dihitung}

dari Expected value

_Namun, _dengan _menggunakan

Expected value ini bisa jadi berbeda dengan mean yang sebenarnya

 



_

 

x

xp

X

(22)

Probability

_{Pengukuran lain adalah} _Covariance

dan Correlation untuk

membandingkan dua buah variable

_{Pengukuran lain adalah} _Covariance

dan Correlation untuk

(23)

Probability

_Covariance _{menggambarkan}

bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak

_{Misal, menghitung Covariance dari}

variable X dan Y

_Covariance _{menggambarkan}

bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak

_{Misal, menghitung Covariance dari}

variable X dan Y



X

Y



E



X

x



Y

y



(24)

Probability

_{Misal, menghitung Covariance dari variable X dan}

Y

_{Nilai Kovarian yang tinggi mengindikasikan jika}

semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama.

_Sebaliknya, _nilai _Kovarian _yang _rendah

mengindikasikan jika semakin besar nilai X, maka nilai Y malah semakin kecil, dan sebaliknya. Atau bisa dikatakan X dan Y punya perilaku yang berkebalikan.

_{Misal, menghitung Covariance dari variable X dan}

Y

_{Nilai Kovarian yang tinggi mengindikasikan jika}

semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama.

_Sebaliknya, _nilai _Kovarian _yang _rendah

(25)

Probability

_{Sama halnya dengan Covariance,}

Correlation juga mengukur hubungan antara 2 buah variable, namun dengan

hasil yang lebih mudah di

interpretasikan

_{Sama halnya dengan Covariance,}

(26)

Probability

_{Nilai Korelasi pasti di antara -1 sampai}

1

_{Korelasi tinggi mengindikasikan jika}

semakin besar nilai X, maka semakin besar juga nilai Y, dan sebaliknya.

_{Nilai Korelasi pasti di antara -1 sampai}

1

_{Korelasi tinggi mengindikasikan jika}

(27)

Probability

_{Nilai Korelasi pasti di antara -1 sampai 1}

_{Dari data 10.000 dokumen berita}

Reuters, korelasi kemunculan ata United

dan States adalah 0.84. Artinya United

dan States sering muncul dalam jumlah yang sama dalam dokumen manapun

_{Nilai Korelasi pasti di antara -1 sampai 1}

(28)

Least Square Method

(29)

Least Square Method

_Misal _kita _gambarkan _hubungan

antara probabilitas kemunculan kata United dan States dalam sebuah dokumen

_Misal _kita _gambarkan _hubungan

(30)

Least Square Method

_{Seperti pada gambar, ketika kata}

United muncul 4 kali dalam sebuah dokumen, maka ada peluang 0.6 kata States juga muncul sebanyak 4 kali dalam dokumen tersebut. ketika kata United muncul 5 kali dalam sebuah dokumen, maka ada peluang 0.75 kata States juga muncul sebanyak 5 kali dalam dokumen tersebut.

_{Seperti pada gambar, ketika kata}

(31)

Least Square Method

_{Probabilitasnya cenderung naik jika}

jumlah kemunculanya bertambah.

_{Kita bisa menarik sebuah garis Regresi} _{Garis regresi ini bisa digunakan untuk}

memprediksi probabilitas dari nilai x selanjutnya

_{Probabilitasnya cenderung naik jika}

jumlah kemunculanya bertambah.

_{Kita bisa menarik sebuah garis Regresi} _{Garis regresi ini bisa digunakan untuk}

(32)

Least Square Method

_{Untuk membuat garis Regresi ini bisa}

membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh

_{Kita bisa menggunakan metode Least}

Square untuk meminimalisir jarak ini

_{Untuk membuat garis Regresi ini bisa}

membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh

_{Kita bisa menggunakan metode Least}

(33)

Entropy

(34)

Entropy

_{Entropy bisa diartikan sebagai ketidak}

pastian

_{Entropy dalam Information Theory}

digunakan sebagai metode kompresi pada tahun 1940an untuk mengirim lebih banyak informasi dengan akurasi yang tinggi

_{Entropy bisa diartikan sebagai ketidak}

pastian

_{Entropy dalam Information Theory}

(35)

Entropy

_{Nilai Entropy yang tinggi berarti data}

berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut

_{Nilai Entropy yang rendah berarti data}

berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil

_{Nilai Entropy 0 berrarti 100% kepastian}

_{Nilai Entropy yang tinggi berarti data}

berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut

_{Nilai Entropy yang rendah berarti data}

berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil

(36)

Entropy

_{Misal, dalam Bahasa Inggris, huruf u}

sering muncul setalah q. Ada sedikit ketidakpastian kalau huruf u sering muncul setalah q, sehingga nilai entropynya rendah

_{Misal, dalam Bahasa Inggris, huruf u}

(37)

Entropy

_{Entropy menghitung jumlah informasi}

yang dibutuhkan dalam

menyelesaikan ketidakpastian

_{Jika banyak ketidakpastian, maka kita}

perlu lebih banyak informasi yang dikirimkan, sehingga nilai Entropynya pun tinggi

_{Entropy menghitung jumlah informasi}

yang dibutuhkan dalam

menyelesaikan ketidakpastian

_{Jika banyak ketidakpastian, maka kita}

(38)

Entropy

_{Di mana p}_i_{adalah peluang kata w}_i

_{Untuk dua buah kata dengan peluang 0.75}

dan 0.25, entropynya adalah 0.811

_{Untuk dua buah kata dengan peluang 0.5}

dan 0.5, entropynya adalah 1

_{Entropy bertambah seiring banyaknya}

ketidakpastian

_{Di mana}_p_i_{adalah peluang kata}_w_i

_{Untuk dua buah kata dengan peluang 0.75} dan 0.25, entropynya adalah 0.811

_{Untuk dua buah kata dengan peluang 0.5} dan 0.5, entropynya adalah 1

(39)

Related-Event

Probability

Related-Event

Probability

(40)

Related-Event

Probability

Related-Event

Probability

_{Misal ada sebuah Bahasa yang hanya}

terdiri dari 3 kata : (apple, baker, charlie)

_{Jika dalam Bahasa tersebut hanya bisa}

membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah

_{{apple apple, baker baker, Charlie}

Charlie, apple baker, apple Charlie, baker apple, baker Charlie, Charlie apple, Charlie baker}

_{Misal ada sebuah Bahasa yang hanya} terdiri dari 3 kata : (apple, baker, charlie) _{Jika dalam Bahasa tersebut hanya bisa}

membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah

(41)

Related-Event

Probability

Related-Event

Probability

 _{Kemungkinan terjadi kata} _{apple baker} adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9

 _{P(apple) : Peluang apple muncul minimal} satu kali adalah 5/9

 _{P(apple ∩ baker) : Peluang apple dan baker} muncul bersama adalah 2/9

 _{P(apple U baker) : Peluang apple atau baker} muncul adalah 8/9

 _{Kemungkinan terjadi kata} _{apple baker}

adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9

 _{P(apple) : Peluang apple muncul minimal}

satu kali adalah 5/9

 _{P(apple ∩ baker) : Peluang apple dan baker}

muncul bersama adalah 2/9

 _{P(apple U baker) : Peluang apple atau baker}

muncul adalah 8/9



a

b



p

 

a

p

 

b

p



a

b



(42)

Related-Event

Probability

Related-Event

Probability

 _{P(apple|baker) : Peluang muncul apple jika} kata baker muncul juga adalah 2/5

 _{P(apple|baker) = 2/9 / 5/9 = 2/5}

 _{P(apple|baker) : Peluang muncul apple jika}

kata baker muncul juga adalah 2/5

 _{P(apple|baker) = 2/9 / 5/9 = 2/5}



 

b p

b a

p b

a

(43)

Related-Event

Probability

Related-Event

Probability

 _{Misal, kita memiliki dua event}_a₁_dan_c₂

 a1 : Kalimat berawalan apple

 _c₂_{: Kalimat berakhiran Charlie}

 _{Jika p(a}₁_|c₂_{) = p(a}₁_{), maka dua kejadian ini} independent, tidak saling mempengaruhi, sehingga

 _{Misal, kita memiliki dua event}_a_{1 dan}_c₂

 a1 : Kalimat berawalan apple

 _c_{2 : Kalimat berakhiran Charlie}

 _{Jika p(a}₁_|c₂_{) = p(a}₁_{), maka dua kejadian ini}

independent, tidak saling mempengaruhi, sehingga



a

1

c

2



p

   

a

1

p

c

2

(44)

Related-Event

Probability

(45)

Bayes Rule

(46)

Bayes Rule

_{Misal di pulau terpencil hidup seorang} manusia

_{Kita tidak tahu jenis kelaminya apa}

_{P(pria) adalah peluang manusia tersebut} berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita

_{P(pria)= P(wanita) =1/2}

_{Ini disebut sebagai prior probability, nilai} peluang sebelum mendapatan informasi

_{Misal di pulau terpencil hidup seorang}

manusia

_{Kita tidak tahu jenis kelaminya apa}

_{P(pria) adalah peluang manusia tersebut}

berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita

_{P(pria)= P(wanita) =1/2}

_{Ini disebut sebagai prior probability, nilai}

(47)

Bayes Rule

_{Lalu kita mendapat info kalau orang}

tersebut suka main sepakbola

(kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability

_{Lalu kita mendapat info kalau orang}

tersebut suka main sepakbola (kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability

(48)

Probability

Distribution

Probability

Distribution

(49)

Binomial Distribution

 A fixed number of observations (trials), n

 e.g., 15 tosses of a coin; 20 patients; 1000 people

surveyed

 A binary outcome

 e.g., head or tail in each toss of a coin; disease or no

disease

 Generally called “success” and “failure”

 Probability of success is p, probability of failure is 1 – p

 Constant probability for each observation

 e.g., Probability of getting a tail is the same each time

(50)

Binomial distribution

_{Take the example of 5 coin tosses.} _{What’s the probability that you fip}

exactly 3 heads in 5 coin tosses?

_{Take the example of 5 coin tosses.} _{What’s the probability that you fip}

(51)

Binomial distribution

Solution:

One way to get exactly 3 heads: HHHTT

What’s the probability of this exact arrangement?

P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2

Another way to get exactly 3 heads: THHHT

Probability of this exact outcome = (1/2)1 x (1/2)3 x

(1/2)1 = (1/2)3 x (1/2)2

Solution:

One way to get exactly 3 heads: HHHTT

What’s the probability of this exact arrangement?

P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2

Another way to get exactly 3 heads: THHHT

Probability of this exact outcome = (1/2)1 x (1/2)3 x

(52)

Binomial distribution

In fact, (1/2)3 x _(1/2)2_{is the probability of}

each unique outcome that has exactly 3 heads and 2 tails.

So, the overall probability of 3 heads and 2 tails is:

(1/2)3 x _(1/2)2_{+ (1/2)}3 x _(1/2)2 + _(1/2)3 x

(1/2)2 + _{….. for as many unique}

arrangements as there are—but how many are there??

In fact, (1/2)3 x _(1/2)2_{is the probability of}

each unique outcome that has exactly 3 heads and 2 tails.

So, the overall probability of 3 heads and 2 tails is:

(1/2)3 x _(1/2)2_{+ (1/2)}3 x _(1/2)2 + _(1/2)3 x

(1/2)2 + _{….. for as many unique}

(53)

Outcome Probability

Factorial review: n! = n(n-1)(n-2)…

(54)

P(3 heads and 2 tails) = x P(heads)3 x P(tails)2 =

10 x (

½

)

5=

31.25%

Binomial distribution

     5

(55)

x

p(x)

0 1 2 3 4 5

Binomial distribution

function:

X= the number of heads tossed

in 5 coin tosses

Binomial distribution

function:

X= the number of heads tossed

in 5 coin tosses

number of heads

p(x)

number of heads

(56)

Binomial distribution,

generally

Binomial distribution,

generally

1-p = probability of failure

p = probability of success

X = # successes out of n trials

n = number of trials

Note the general pattern emerging  if you have only two possible

outcomes (call them 1/0 or yes/no or success/failure) in n independent trials, then the probability of exactly X “successes”=

(57)

Binomial distribution:

example

Binomial distribution:

example

_{If I toss a coin 20 times, what’s the}

probability of getting exactly 10 heads?

(58)

Binomial distribution:

example

Binomial distribution:

example

probability of getting of getting 2 or fewer heads?

(59)

**All probability distributions are

characterized by an expected value and a variance:

**All probability distributions are

characterized by an expected value and a variance:

If X follows a binomial distribution with parameters n and p:

Note: the variance will always lie between 0*N-.25 *N

p(1-p) reaches maximum at p=.5 P(1-p)=.25

) 1

( p

(60)

The Poisson Distribution

The Poisson distribution is defned by:

Where f(x) is the probability of x occurrences in an interval

m is the expected value or mean value of occurrences within an interval

e is the natural logarithm. e = 2.71828

!

)

(

x

e

x

f

x 



(61)

Properties of the Poisson

Distribution

Properties of the Poisson

Distribution

1. The probability of occurrences is the same for any two intervals of equal length.

(62)

Example: Mercy Hospital

 _{Poisson Probability Function}

Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings.

What is the

probability of 4 arrivals in

30 minutes on a weekend evening?

 _{Poisson Probability Function}

Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings.

What is the

probability of 4 arrivals in

30 minutes on a weekend evening?

(63)

Example: Mercy Hospital

 = 6/hour = 3/half-hour, x = 4

4 3

3 (2.71828)

(4) .1680

4!

(64)

The Normal

Distribution

(65)

The Normal Distribution:

as mathematical function

(pdf)

(66)

The Normal PDF

1

It’s a probability function, so no matter what the values of  and , must integrate to 1!

(67)

Normal distribution is

defned by its mean and

standard dev.

Normal distribution is

defned by its mean and

standard dev.

E(X)= =

Var(X)=2 =

Standard Deviation(X)=

E(X)= =

Var(X)=2 =

Standard Deviation(X)=

(68)

**The beauty of the normal curve:

No matter what  and  are, the area

between - and + is about 68%; the area

between -2 and +2 is about 95%; and

the area between -3 and +3 is about

(69)

68-95-99.7 Rule

(70)

68-95-99.7 Rule in Math terms…

(71)

How good is rule for real data?

_{Check some example data:}

_{The mean of the weight of the women}

= 127.8

_{The standard deviation (SD) = 15.5} _{Check some example data:}

_{The mean of the weight of the women}

= 127.8

(72)

127.8 143.3 112.3

68% of 120 = .68x120 = ~ 82 runners

In fact, 79 runners fall within 1-SD (15.5 lbs) of the mean.

8 0 _{9 0} _{1 0 0} _{1 1 0} _{1 2 0} _{1 3 0} _{1 4 0} _{1 5 0} _{1 6 0}

0

5

1 0

1 5

2 0

2 5

P

e

r

c

e

n

t

(73)

127.8 96.8

95% of 120 = .95 x 120 = ~ 114 runners

In fact, 115 runners fall within 2-SD’s of the mean.

158.8

8 0 _{9 0} _{1 0 0} _{1 1 0} _{1 2 0} _{1 3 0} _{1 4 0} _{1 5 0} _{1 6 0}

0

5

1 0

1 5

2 0

2 5

P

e

r

c

e

n

t

(74)

127.8 81.3

99.7% of 120 = .997 x 120 = 119.6 runners

(75)

Sampling

Distribution

Sampling

Distribution

(76)

Sampling Distribution

_{Dalam teks mining, alasan untuk}

melakukan sampling sangat jelas, yaitu kita tidak bisa mengkases semua teks online yang tersedia dalam berbagai Bahasa dan sampling adalah satu-satunya cara untuk membangun

representasi model semua teks

tersebut

_{Dalam teks mining, alasan untuk}

(77)

Sampling Distribution

_{Beberapa tipe sampling yang bisa}

dipakai

_{Beberapa tipe sampling yang bisa}

dipakai

Statistic Populatio n

Distributi on

Populatio n

Variance

Sample Distributi on

(78)

Hypothesis Testing

(79)

Hypothesis Testing

_{Hipotesis adalah teori yang belum}

teruji yang diyakini berdasarkan data

yang atau pengalaman sudah

terkumpul

_H₀_{adalah null Hipotesis, hipotesis yang}

diyakini tidak benar

_H₀ _{adalah hipotesis yang diyakini}

benar

_{Hipotesis adalah teori yang belum}

teruji yang diyakini berdasarkan data yang atau pengalaman sudah terkumpul

_H₀_{adalah null Hipotesis, hipotesis yang}

diyakini tidak benar

_H₀ _{adalah hipotesis yang diyakini}

benar

Test Result _H₀_True _H₁_True

(80)

Chi-Square Test

_{Misal kita mendapatkan spam dan}

email yang bukan spam pada hari libur maupun hari aktif

_{Bisakah kita membangun sebuah}

hubungan antara tipe email dan hari pengirimanya

_{Misal kita mendapatkan spam dan}

email yang bukan spam pada hari libur maupun hari aktif

_{Bisakah kita membangun sebuah}

hubungan antara tipe email dan hari pengirimanya

Type Weekday Weekend Total

Spam 73 145 218

Bukan Spam 182 100 282

(81)

Chi-Square Test

 _Expected _{Frequency(EF)} _bisa _dihitung dengan distribusi normal.

 _{EF(Spam, Weekday) adalah EF spam pada} weekday

 _{EF(Spam, Weekday) = 255x218/500 =} 111.18

 _Dst, _sehingga _didapat _nlai _Expected Frequency(EF) :

 _Expected _{Frequency(EF)} _bisa _dihitung

dengan distribusi normal.

 _{EF(Spam, Weekday) adalah EF spam pada}

weekday

 _{EF(Spam, Weekday) = 255x218/500 =}

111.18

 _Dst, _sehingga _didapat _nlai _Expected

Frequency(EF) :Type Weekday Weekend Total

Spam 111.18 106.82 218

Bukan Spam 143.82 138.18 282

(82)

Chi-Square Test

 _{Chi-square bisa dihitung dengan rumus}

 Oij adalah frekuensi yang diobservasi dan Eij

adalah frekuensi yang diharapkan (expected Frequency)

 _{Koreksi 0.5 digunakan untuk meningkatkan} perkiraan distribusi chi-square. Hasilnya :

 Oij adalah frekuensi yang diobservasi dan Eij

adalah frekuensi yang diharapkan (expected Frequency)

 _{Koreksi 0.5 digunakan untuk meningkatkan}

perkiraan distribusi chi-square. Hasilnya :

(83)

Chi-Square Test

 _{Nilai Chi-square Spam pada Weekdays =}

(|73-111.18|+0.5)2 / 111.18 =

1496.1424/111.18 = 13.45

 _{Nilai Chi-square Spam pada Weekdays =}

(|73-111.18|+0.5)2 / 111.18 =

1496.1424/111.18 = 13.45

Type Weekday Weekend

Spam 13.45 14.00

Bukan Spam 10.40 10.82

(84)

Chi-Square Test

 _{Jumlah totalnya = 48.67}

 _{Untuk chi-square dengan 1 degree of} freedom minimalnya adalah 6.635

 _{Jadi H0 ditolak}

 _{Oleh karena itu, memang ada hubungan} antara hari dan tipe email

 _{Jumlah totalnya = 48.67}

 _{Untuk chi-square dengan 1 degree of}

freedom minimalnya adalah 6.635

 _{Jadi H0 ditolak}

 _{Oleh karena itu, memang ada hubungan}

antara hari dan tipe email

Type Weekday Weekend

Spam 13.45 14.00

(85)

T-Test

 _{Kalau Chi-square membandingkan variance, kalau}

t-test membandingkan nilai tunggal seperti mean.

 _{Misal kita memiliki koleksi dokumen yang}

dimasukkan ke dalam 8 kategori

 _{Dokumen yang tidak bisa dikategorikan di}

masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut

 _{Kita akan mengetes sebuah algoritma kategorisasi}

sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan

 _{Kita ingin mengetahui apakah peningkatan}

performa algoritma tersebut signifkan atau tidak

 _{Kalau Chi-square membandingkan variance, kalau}

t-test membandingkan nilai tunggal seperti mean.

 _{Misal kita memiliki koleksi dokumen yang}

dimasukkan ke dalam 8 kategori

 _{Dokumen yang tidak bisa dikategorikan di}

masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut

 _{Kita akan mengetes sebuah algoritma kategorisasi}

sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan

 _{Kita ingin mengetahui apakah peningkatan}

(86)

T-Test

 _{Algoritma awal : Jumlah dokumen yang} sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9.

 _{Algoritma sesudah ditingkatkan : Jumlah} dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7.

 _{Kalau dari jumlah yang benar, kelihatanya} performa algoritma ini sudah mengalami peningkatan, tapi signifkan kah?

 _{Algoritma awal : Jumlah dokumen yang}

sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9.

 _{Algoritma sesudah ditingkatkan : Jumlah}

dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7.

 _{Kalau dari jumlah yang benar, kelihatanya}

(87)

T-Test

 _{H0 : hipotesis menyatakan tidak ada} perubahan performa

 _{Kita hitung dulu mean dari perbedaan jumlah} kategori benar

 _Mean ₌ ((18-15)+(22-18)+(21-20)+(6-6)+(10-8)+(17-17)+(21-20)+(7-9))/8 = 1.125  _{Standart deviasinya kalau kita hitung 1.76}

 _{H0 : hipotesis menyatakan tidak ada}

perubahan performa

 _{Kita hitung dulu mean dari perbedaan jumlah}

kategori benar

 _Mean ₌

((18-15)+(22-18)+(21-20)+(6-6)+(10-8)+(17-17)+(21-20)+(7-9))/8 = 1.125

(88)

T-Test

 _{T-Test dengan 7 degree of freedoms}

 _{C1 dan c2 adalah julah dokumen terkategorisasi}

benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi

 _{Karena nilai}_t_{kurang dari 1.895 (Lihat table distribusi}

t dengan 7 degree of freedoms), maka H0 diterima

 _{Jadi, algoritma tidak mengalami peningkatan}

performa yang signifkan

 _{T-Test dengan 7 degree of freedoms}

 _{C1 dan c2 adalah julah dokumen terkategorisasi}

benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi

 _{Karena nilai}_t_{kurang dari 1.895 (Lihat table distribusi}

t dengan 7 degree of freedoms), maka H0 diterima

 _{Jadi, algoritma tidak mengalami peningkatan}

performa yang signifkan

(89)

Matriks

(90)

Matriks

 _{Persamaan ditemukan pada banyak aplikasi} teks mining, mulai dari POS tagging, indexing, monitor email trafc, dsb

 _Aljabar _linear _adalah _ilmu _untuk menyelesaikan persamaan ini

 _{Matriks dan vector dapat dipakai sebagai} representasi untuk mendeskripsikan persamaan ini agar lebih mudah diselesaikan

 _{Persamaan ditemukan pada banyak aplikasi}

teks mining, mulai dari POS tagging, indexing, monitor email trafc, dsb

 _Aljabar _linear _adalah _ilmu _untuk

menyelesaikan persamaan ini

 _{Matriks dan vector dapat dipakai sebagai}

(91)

Matriks

 _{Misal transisi tiga part-of-speech (POS) dalam} sebuah dokumen digambarkan dalam gambar berikut

 _{Misal transisi tiga part-of-speech (POS) dalam}

(92)

Matriks

 _{Bisa kita representasikan ke dalam sebuah} matriks berikut :

 _{Bisa kita representasikan ke dalam sebuah}

matriks berikut :

Noun Adjective Verb

Noun 0.50 0.00 0.50

Adjective 0.25 0.50 0.25

(93)

Matriks

 _{Salah satu penggunaan matriks yang lain} adalah dalam mengerjakan metode Singular Value Decomposition (SVD)

 _{Salah satu penggunaan matriks yang lain}