• Tidak ada hasil yang ditemukan

Latar Belakang - Mathematics Background

N/A
N/A
Protected

Academic year: 2018

Membagikan "Latar Belakang - Mathematics Background"

Copied!
93
0
0

Teks penuh

(1)

Mathematics

Background

Mathematics

Background

(2)

Latar Belakang

Latar Belakang

Beberapa pengetahuan tentang statistic dan aljabar linear diperlukan untuk memahami dan membangun aplikasi text mining

(3)

Mean and Variance

Mean and Variance

(4)

Latar Belakang

Latar Belakang

Karakteristik dari populasi data yang

sangat banyak bisa diperkirakan dari beberapa sample.

Poin pentingnya ada 2 : Bagaimana

kita bisa mendapatkan sample yang tidak bias dan berapa sample yang seharusnya diperlukan

Karakteristik dari populasi data yang

sangat banyak bisa diperkirakan dari beberapa sample.

Poin pentingnya ada 2 : Bagaimana

(5)

Latar Belakang

Latar Belakang

Untuk mendapatkan sample yang tidak bias tidak mudah juga, salah satu caranya kita bisa mengambil beberapa sample secara random.

(6)

Latar Belakang

Latar Belakang

Lalu, bagaimana cara menentukan

batas banyaknya sample yang harus diambil?

Kita bisa menggunakan mean (pusat

lokasi nilai data) dan variance (tingkat variasi nilai data) sebagai pendukung keputusannya

Lalu, bagaimana cara menentukan

batas banyaknya sample yang harus diambil?

Kita bisa menggunakan mean (pusat

(7)

Mean

Mean

Mean adalah rata-rata nilai sebuah

data

Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-i

Mean adalah rata-rata nilai sebuah

data

Di mana N adalah jumlah populasi dan

(8)

Standart Deviasi

Standart Deviasi

Standar Deviasi adalah besar

perbedaan dari nilai sampel terhadap rata-rata.

Di mana N adalah jumlah populasi dan xi adalah nilai pada populasi ke-I,

sedangkan µ adalah nilai mean.

Standar Deviasi adalah besar

perbedaan dari nilai sampel terhadap

rata-rata.

Di mana N adalah jumlah populasi dan

(9)

Variance

Variance

Varian adalah ukuran persebaran

(dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi

Di mana N adalah jumlah populasi dan xi

adalah nilai pada populasi ke-I,

sedangkan µ adalah nilai mean.

Varian adalah ukuran persebaran (dispersi) data. Dihitung dengan cara mengkuadratkan standart deviasi

(10)

Reuters Collection

Reuters Collection

Reuters Collection berisi

dokumen-dokumen berita yang sangat banyak.

Misal kita ambil 10000 dokumen lalu

kita cari mean, varian dan standart deviasinya.

Reuters Collection berisi

dokumen-dokumen berita yang sangat banyak.

Misal kita ambil 10000 dokumen lalu

(11)

Reuters Collection

Reuters Collection

Kata Mean Standart Deviasi

And 2.79 3.57

Of 3.86 4.61

The 6.30 8.52

United 0.08 0.41

States 0.06 0.37

America 0.02 0.20

Misal kita analisis statistic dari beberapa kata berikut :

(12)

Reuters Collection

Reuters Collection

Kata Mean Standart Deviasi

And 2.79 3.57

Of 3.86 4.61

The 6.30 8.52

United 0.08 0.41

States 0.06 0.37

America 0.02 0.20

Misal kita analisis statistic dari beberapa kata berikut :

(13)

Reuters Collection

Reuters Collection

Kebanyakan data yang memiliki Mean

yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula

Bisa juga kita gambarkan dalam

bentuk distribusi jumlah kemunculan

Kebanyakan data yang memiliki Mean

yang tinggi cenderung akan memiliki variance dan standart deviasi yang tinggi pula

Bisa juga kita gambarkan dalam

(14)
(15)

Probability

Probability

(16)

Probability

Probability

Probabilitas atau peluang adalah nilai di antara 0 dan 1 yang mengindikasikan seberapa mungkin sebuah kejadian atau beberapa kumpulan kejadian akan terjadi

(17)

Probability

Probability

Nilai 0 mengindikasikan kejadian tidak

akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi

Nilai di antara 0-1 mengindikasikan

besarnya kemungkinan terjadi

Nilai 0 mengindikasikan kejadian tidak

akan pernah terjadi, sedangkan nilai 1 mengindikasikan kejadian pasti akan pernah terjadi

Nilai di antara 0-1 mengindikasikan

(18)

Probability

Probability

Contoh, kita bisa menghitung

probabilitas kata and muncul tepat satu kali pada sebuah dokumen.

Kita bisa tuliskan p(x) sebagai peluang

kata and muncul x kali

Atau P(X=x) peluang random variable

X bernilai x

Contoh, kita bisa menghitung

probabilitas kata and muncul tepat satu kali pada sebuah dokumen.

Kita bisa tuliskan p(x) sebagai peluang

kata and muncul x kali

Atau P(X=x) peluang random variable

(19)

Probability

Probability

Kadang kita tidak bisa menghitung

rata-rata jumlah kemunculan sebuah

kata dalam sebuah kumpulan

dokumen karena, misal dokumenya sangat banyak

Kadang kita tidak bisa menghitung

(20)

Probability

Probability

Oleh karena itu, mean bisa

diperkirakan dari Expected value

Di mana E[X] adalah Expected value

dari random variable x dijumlahkan semuanya untuk semua kemungkinan x

Oleh karena itu, mean bisa

diperkirakan dari Expected value

Di mana E[X] adalah Expected value

dari random variable x dijumlahkan semuanya untuk semua kemungkinan x

 

 

x

x

xp

X

(21)

Probability

Probability

Oleh karena itu, mean bisa dihitung

dari Expected value

Namun, dengan menggunakan

Expected value ini bisa jadi berbeda

dengan mean yang sebenarnya

Oleh karena itu, mean bisa dihitung

dari Expected value

Namun, dengan menggunakan

Expected value ini bisa jadi berbeda dengan mean yang sebenarnya

 

 

x

x

xp

X

(22)

Probability

Probability

Pengukuran lain adalah Covariance

dan Correlation untuk

membandingkan dua buah variable

Pengukuran lain adalah Covariance

dan Correlation untuk

(23)

Probability

Probability

Covariance menggambarkan

bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak

Misal, menghitung Covariance dari

variable X dan Y

Covariance menggambarkan

bagaimana dua buah variable memiliki perubahan nilai yang sama atau tidak

Misal, menghitung Covariance dari

variable X dan Y

X

Y

E

X

x

Y

y

(24)

Probability

Probability

Misal, menghitung Covariance dari variable X dan

Y

Nilai Kovarian yang tinggi mengindikasikan jika

semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama.

Sebaliknya, nilai Kovarian yang rendah

mengindikasikan jika semakin besar nilai X, maka nilai Y malah semakin kecil, dan sebaliknya. Atau bisa dikatakan X dan Y punya perilaku yang berkebalikan.

Misal, menghitung Covariance dari variable X dan

Y

Nilai Kovarian yang tinggi mengindikasikan jika

semakin besar nilai X, maka semakin besar juga nilai Y dan jika semakin kecil nilai X, maka semakin kecil juga nilai Y. Atau bisa dikatakan X dan Y punya perilaku yang sama.

Sebaliknya, nilai Kovarian yang rendah

(25)

Probability

Probability

Sama halnya dengan Covariance,

Correlation juga mengukur hubungan antara 2 buah variable, namun dengan

hasil yang lebih mudah di

interpretasikan

Sama halnya dengan Covariance,

(26)

Probability

Probability

Nilai Korelasi pasti di antara -1 sampai

1

Korelasi tinggi mengindikasikan jika

semakin besar nilai X, maka semakin besar juga nilai Y, dan sebaliknya.

Nilai Korelasi pasti di antara -1 sampai

1

Korelasi tinggi mengindikasikan jika

(27)

Probability

Probability

Nilai Korelasi pasti di antara -1 sampai 1

Dari data 10.000 dokumen berita

Reuters, korelasi kemunculan ata United

dan States adalah 0.84. Artinya United

dan States sering muncul dalam jumlah yang sama dalam dokumen manapun

Nilai Korelasi pasti di antara -1 sampai 1

(28)

Least Square Method

Least Square Method

(29)

Least Square Method

Least Square Method

Misal kita gambarkan hubungan

antara probabilitas kemunculan kata United dan States dalam sebuah dokumen

Misal kita gambarkan hubungan

(30)

Least Square Method

Least Square Method

Seperti pada gambar, ketika kata

United muncul 4 kali dalam sebuah dokumen, maka ada peluang 0.6 kata States juga muncul sebanyak 4 kali dalam dokumen tersebut. ketika kata United muncul 5 kali dalam sebuah dokumen, maka ada peluang 0.75 kata States juga muncul sebanyak 5 kali dalam dokumen tersebut.

Seperti pada gambar, ketika kata

(31)

Least Square Method

Least Square Method

Probabilitasnya cenderung naik jika

jumlah kemunculanya bertambah.

Kita bisa menarik sebuah garis RegresiGaris regresi ini bisa digunakan untuk

memprediksi probabilitas dari nilai x selanjutnya

Probabilitasnya cenderung naik jika

jumlah kemunculanya bertambah.

Kita bisa menarik sebuah garis RegresiGaris regresi ini bisa digunakan untuk

(32)

Least Square Method

Least Square Method

Untuk membuat garis Regresi ini bisa

membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh

Kita bisa menggunakan metode Least

Square untuk meminimalisir jarak ini

Untuk membuat garis Regresi ini bisa

membuat prediksi yang terbaik, maka garis regresi ini harus didefnisikan sedemikian sehingga jarak garis ke nilai aslinya tidak berbeda jauh

Kita bisa menggunakan metode Least

(33)

Entropy

Entropy

(34)

Entropy

Entropy

Entropy bisa diartikan sebagai ketidak

pastian

Entropy dalam Information Theory

digunakan sebagai metode kompresi pada tahun 1940an untuk mengirim lebih banyak informasi dengan akurasi yang tinggi

Entropy bisa diartikan sebagai ketidak

pastian

Entropy dalam Information Theory

(35)

Entropy

Entropy

Nilai Entropy yang tinggi berarti data

berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut

Nilai Entropy yang rendah berarti data

berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil

Nilai Entropy 0 berrarti 100% kepastian

Nilai Entropy yang tinggi berarti data

berasal dari sebuah distribusi uniform dan ada banyak ketidakpastian dari data tersebut

Nilai Entropy yang rendah berarti data

berasal dari sebuah distribusi dengan puncak juga lembah dan tingkat ketidakpastianya kecil

(36)

Entropy

Entropy

Misal, dalam Bahasa Inggris, huruf u

sering muncul setalah q. Ada sedikit ketidakpastian kalau huruf u sering muncul setalah q, sehingga nilai entropynya rendah

Misal, dalam Bahasa Inggris, huruf u

(37)

Entropy

Entropy

Entropy menghitung jumlah informasi

yang dibutuhkan dalam

menyelesaikan ketidakpastian

Jika banyak ketidakpastian, maka kita

perlu lebih banyak informasi yang dikirimkan, sehingga nilai Entropynya pun tinggi

Entropy menghitung jumlah informasi

yang dibutuhkan dalam

menyelesaikan ketidakpastian

Jika banyak ketidakpastian, maka kita

(38)

Entropy

Entropy

Di mana pi adalah peluang kata wi

Untuk dua buah kata dengan peluang 0.75

dan 0.25, entropynya adalah 0.811

Untuk dua buah kata dengan peluang 0.5

dan 0.5, entropynya adalah 1

Entropy bertambah seiring banyaknya

ketidakpastian

Di mana pi adalah peluang kata wi

Untuk dua buah kata dengan peluang 0.75 dan 0.25, entropynya adalah 0.811

Untuk dua buah kata dengan peluang 0.5 dan 0.5, entropynya adalah 1

(39)

Related-Event

Probability

Related-Event

Probability

(40)

Related-Event

Probability

Related-Event

Probability

Misal ada sebuah Bahasa yang hanya

terdiri dari 3 kata : (apple, baker, charlie)

Jika dalam Bahasa tersebut hanya bisa

membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah

{apple apple, baker baker, Charlie

Charlie, apple baker, apple Charlie, baker apple, baker Charlie, Charlie apple, Charlie baker}

Misal ada sebuah Bahasa yang hanya terdiri dari 3 kata : (apple, baker, charlie) Jika dalam Bahasa tersebut hanya bisa

membuat kalimat dengan 2 buah kata, maka kemungkinanya adalah

(41)

Related-Event

Probability

Related-Event

Probability

Kemungkinan terjadi kata apple baker adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9

P(apple) : Peluang apple muncul minimal satu kali adalah 5/9

P(apple ∩ baker) : Peluang apple dan baker muncul bersama adalah 2/9

P(apple U baker) : Peluang apple atau baker muncul adalah 8/9

Kemungkinan terjadi kata apple baker

adalah 1/9 dan kemungkinan tidak terjadi adalah 8/9

P(apple) : Peluang apple muncul minimal

satu kali adalah 5/9

P(apple ∩ baker) : Peluang apple dan baker

muncul bersama adalah 2/9

P(apple U baker) : Peluang apple atau baker

muncul adalah 8/9

a

b

p

 

a

p

 

b

p

a

b

(42)

Related-Event

Probability

Related-Event

Probability

P(apple|baker) : Peluang muncul apple jika kata baker muncul juga adalah 2/5

P(apple|baker) = 2/9 / 5/9 = 2/5

P(apple|baker) : Peluang muncul apple jika

kata baker muncul juga adalah 2/5

P(apple|baker) = 2/9 / 5/9 = 2/5

 

b p

b a

p b

a

(43)

Related-Event

Probability

Related-Event

Probability

Misal, kita memiliki dua event a1 dan c2

a1 : Kalimat berawalan apple

c2 : Kalimat berakhiran Charlie

Jika p(a1|c2) = p(a1), maka dua kejadian ini independent, tidak saling mempengaruhi, sehingga

Misal, kita memiliki dua event a1 dan c2

a1 : Kalimat berawalan apple

c2 : Kalimat berakhiran Charlie

Jika p(a1|c2) = p(a1), maka dua kejadian ini

independent, tidak saling mempengaruhi, sehingga

a

1

c

2

p

   

a

1

p

c

2

(44)

Related-Event

Probability

(45)

Bayes Rule

Bayes Rule

(46)

Bayes Rule

Bayes Rule

Misal di pulau terpencil hidup seorang manusia

Kita tidak tahu jenis kelaminya apa

P(pria) adalah peluang manusia tersebut berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita

P(pria)= P(wanita) =1/2

Ini disebut sebagai prior probability, nilai peluang sebelum mendapatan informasi

Misal di pulau terpencil hidup seorang

manusia

Kita tidak tahu jenis kelaminya apa

P(pria) adalah peluang manusia tersebut

berjenis kelamin pria dan P(wanita) adalah peluang manusia tersebut berjenis kelamin wanita

P(pria)= P(wanita) =1/2

Ini disebut sebagai prior probability, nilai

(47)

Bayes Rule

Bayes Rule

Lalu kita mendapat info kalau orang

tersebut suka main sepakbola

(kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability

Lalu kita mendapat info kalau orang

tersebut suka main sepakbola (kejadian s), maka sekarang P(pria) akan berubah karena adanya informasi baru, yaitu suka main bola. Ini yang disebut sebagai posterior probability

(48)

Probability

Distribution

Probability

Distribution

(49)

Binomial Distribution

Binomial Distribution

 A fixed number of observations (trials), n

 e.g., 15 tosses of a coin; 20 patients; 1000 people

surveyed

 A binary outcome

 e.g., head or tail in each toss of a coin; disease or no

disease

 Generally called “success” and “failure”

 Probability of success is p, probability of failure is 1 – p

 Constant probability for each observation

 e.g., Probability of getting a tail is the same each time

(50)

Binomial distribution

Binomial distribution

Take the example of 5 coin tosses. What’s the probability that you fip

exactly 3 heads in 5 coin tosses?

Take the example of 5 coin tosses. What’s the probability that you fip

(51)

Binomial distribution

Binomial distribution

Solution:

One way to get exactly 3 heads: HHHTT

What’s the probability of this exact arrangement?

P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2

Another way to get exactly 3 heads: THHHT

Probability of this exact outcome = (1/2)1 x (1/2)3 x

(1/2)1 = (1/2)3 x (1/2)2

Solution:

One way to get exactly 3 heads: HHHTT

What’s the probability of this exact arrangement?

P(heads)xP(heads) xP(heads)xP(tails)xP(tails) =(1/2)3 x (1/2)2

Another way to get exactly 3 heads: THHHT

Probability of this exact outcome = (1/2)1 x (1/2)3 x

(52)

Binomial distribution

Binomial distribution

In fact, (1/2)3 x (1/2)2 is the probability of

each unique outcome that has exactly 3 heads and 2 tails.

So, the overall probability of 3 heads and 2 tails is:

(1/2)3 x (1/2)2 + (1/2)3 x (1/2)2 + (1/2)3 x

(1/2)2 + ….. for as many unique

arrangements as there are—but how many are there??

In fact, (1/2)3 x (1/2)2 is the probability of

each unique outcome that has exactly 3 heads and 2 tails.

So, the overall probability of 3 heads and 2 tails is:

(1/2)3 x (1/2)2 + (1/2)3 x (1/2)2 + (1/2)3 x

(1/2)2 + ….. for as many unique

(53)

  Outcome Probability 

Factorial review: n! = n(n-1)(n-2)…

(54)

 

P(3 heads and 2 tails) =  x P(heads)3 x P(tails)2 =

10 x (

½

)

5=

31.25%

 

Binomial distribution

Binomial distribution

     5

(55)

x

p(x)

0 1 2 3 4 5

Binomial distribution

function:

X= the number of heads tossed

in 5 coin tosses

Binomial distribution

function:

X= the number of heads tossed

in 5 coin tosses

number of heads

p(x)

number of heads

(56)

Binomial distribution,

generally

Binomial distribution,

generally

1-p = probability  of failure

p = probability of success

X = # successes  out of n trials

n = number of trials

Note the general pattern emerging  if you have only two possible

outcomes (call them 1/0 or yes/no or success/failure) in n independent trials, then the probability of exactly X “successes”=

(57)

Binomial distribution:

example

Binomial distribution:

example

If I toss a coin 20 times, what’s the

probability of getting exactly 10 heads?

If I toss a coin 20 times, what’s the

probability of getting exactly 10 heads?

(58)

Binomial distribution:

example

Binomial distribution:

example

If I toss a coin 20 times, what’s the

probability of getting of getting 2 or fewer heads?

If I toss a coin 20 times, what’s the

(59)

**All probability distributions are

characterized by an expected value and a variance:

**All probability distributions are

characterized by an expected value and a variance:

If X follows a binomial distribution with parameters n and p:

Note: the variance will always lie between 0*N-.25 *N

p(1-p) reaches maximum at p=.5 P(1-p)=.25

) 1

( p

(60)

The Poisson Distribution

The Poisson Distribution

The Poisson distribution is defned by:

Where f(x) is the probability of x occurrences in an interval

m is the expected value or mean value of occurrences within an interval

e is the natural logarithm. e = 2.71828

!

)

(

x

e

x

f

x

(61)

Properties of the Poisson

Distribution

Properties of the Poisson

Distribution

1. The probability of occurrences is the same for any two intervals of equal length.

(62)

Example: Mercy Hospital

Example: Mercy Hospital

Poisson Probability Function

Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings.

What is the

probability of 4 arrivals in

30 minutes on a weekend evening?

Poisson Probability Function

Patients arrive at the emergency room of Mercy Hospital at the average rate of 6 per hour on weekend evenings.

What is the

probability of 4 arrivals in

30 minutes on a weekend evening?

(63)

Example: Mercy Hospital

Example: Mercy Hospital

 = 6/hour = 3/half-hour, x = 4

4 3

3 (2.71828)

(4) .1680

4!

(64)

The Normal

Distribution

(65)

The Normal Distribution:

as mathematical function

(pdf)

(66)

The Normal PDF

The Normal PDF

1

It’s a probability function, so no matter what the values of  and , must integrate to 1!

(67)

Normal distribution is

defned by its mean and

standard dev.

Normal distribution is

defned by its mean and

standard dev.

E(X)= =

Var(X)=2 =

Standard Deviation(X)=

E(X)= =

Var(X)=2 =

Standard Deviation(X)=

(68)

**The beauty of the normal curve:

**The beauty of the normal curve:

No matter what  and  are, the area

between - and + is about 68%; the area

between -2 and +2 is about 95%; and

the area between -3 and +3 is about

(69)

68-95-99.7 Rule

(70)

68-95-99.7 Rule in Math terms…

68-95-99.7 Rule in Math terms…

(71)

How good is rule for real data?

How good is rule for real data?

Check some example data:

The mean of the weight of the women

= 127.8

The standard deviation (SD) = 15.5Check some example data:

The mean of the weight of the women

= 127.8

(72)

127.8 143.3 112.3

68% of 120 = .68x120 = ~ 82 runners

In fact, 79 runners fall within 1-SD (15.5 lbs) of the mean.

 

8 0  9 0  1 0 0  1 1 0  1 2 0  1 3 0  1 4 0  1 5 0  1 6 0 

1 0 

1 5 

2 0 

2 5 

(73)

127.8 96.8

95% of 120 = .95 x 120 = ~ 114 runners

In fact, 115 runners fall within 2-SD’s of the mean.

158.8

 

8 0  9 0  1 0 0  1 1 0  1 2 0  1 3 0  1 4 0  1 5 0  1 6 0 

1 0 

1 5 

2 0 

2 5 

(74)

127.8 81.3

99.7% of 120 = .997 x 120 = 119.6 runners

(75)

Sampling

Distribution

Sampling

Distribution

(76)

Sampling Distribution

Sampling Distribution

Dalam teks mining, alasan untuk

melakukan sampling sangat jelas, yaitu kita tidak bisa mengkases semua teks online yang tersedia dalam berbagai Bahasa dan sampling adalah satu-satunya cara untuk membangun

representasi model semua teks

tersebut

Dalam teks mining, alasan untuk

(77)

Sampling Distribution

Sampling Distribution

Beberapa tipe sampling yang bisa

dipakai

Beberapa tipe sampling yang bisa

dipakai

Statistic Populatio n

Distributi on

Populatio n

Variance

Sample Distributi on

(78)

Hypothesis Testing

Hypothesis Testing

(79)

Hypothesis Testing

Hypothesis Testing

Hipotesis adalah teori yang belum

teruji yang diyakini berdasarkan data

yang atau pengalaman sudah

terkumpul

H0 adalah null Hipotesis, hipotesis yang

diyakini tidak benar

H0 adalah hipotesis yang diyakini

benar

Hipotesis adalah teori yang belum

teruji yang diyakini berdasarkan data yang atau pengalaman sudah terkumpul

H0 adalah null Hipotesis, hipotesis yang

diyakini tidak benar

H0 adalah hipotesis yang diyakini

benar

Test Result H0 True H1 True

(80)

Chi-Square Test

Chi-Square Test

Misal kita mendapatkan spam dan

email yang bukan spam pada hari libur maupun hari aktif

Bisakah kita membangun sebuah

hubungan antara tipe email dan hari pengirimanya

Misal kita mendapatkan spam dan

email yang bukan spam pada hari libur maupun hari aktif

Bisakah kita membangun sebuah

hubungan antara tipe email dan hari pengirimanya

Type Weekday Weekend Total

Spam 73 145 218

Bukan Spam 182 100 282

(81)

Chi-Square Test

Chi-Square Test

Expected Frequency(EF) bisa dihitung dengan distribusi normal.

EF(Spam, Weekday) adalah EF spam pada weekday

EF(Spam, Weekday) = 255x218/500 = 111.18

Dst, sehingga didapat nlai Expected Frequency(EF) :

Expected Frequency(EF) bisa dihitung

dengan distribusi normal.

EF(Spam, Weekday) adalah EF spam pada

weekday

EF(Spam, Weekday) = 255x218/500 =

111.18

Dst, sehingga didapat nlai Expected

Frequency(EF) :Type Weekday Weekend Total

Spam 111.18 106.82 218

Bukan Spam 143.82 138.18 282

(82)

Chi-Square Test

Chi-Square Test

Chi-square bisa dihitung dengan rumus

 Oij adalah frekuensi yang diobservasi dan Eij

adalah frekuensi yang diharapkan (expected Frequency)

Koreksi 0.5 digunakan untuk meningkatkan perkiraan distribusi chi-square. Hasilnya :

Chi-square bisa dihitung dengan rumus

 Oij adalah frekuensi yang diobservasi dan Eij

adalah frekuensi yang diharapkan (expected Frequency)

Koreksi 0.5 digunakan untuk meningkatkan

perkiraan distribusi chi-square. Hasilnya :

(83)

Chi-Square Test

Chi-Square Test

Chi-square bisa dihitung dengan rumus

Nilai Chi-square Spam pada Weekdays =

(|73-111.18|+0.5)2 / 111.18 =

1496.1424/111.18 = 13.45

Chi-square bisa dihitung dengan rumus

Nilai Chi-square Spam pada Weekdays =

(|73-111.18|+0.5)2 / 111.18 =

1496.1424/111.18 = 13.45

Type Weekday Weekend

Spam 13.45 14.00

Bukan Spam 10.40 10.82

(84)

Chi-Square Test

Chi-Square Test

Jumlah totalnya = 48.67

Untuk chi-square dengan 1 degree of freedom minimalnya adalah 6.635

Jadi H0 ditolak

Oleh karena itu, memang ada hubungan antara hari dan tipe email

Jumlah totalnya = 48.67

Untuk chi-square dengan 1 degree of

freedom minimalnya adalah 6.635

Jadi H0 ditolak

Oleh karena itu, memang ada hubungan

antara hari dan tipe email

Type Weekday Weekend

Spam 13.45 14.00

(85)

T-Test

T-Test

Kalau Chi-square membandingkan variance, kalau

t-test membandingkan nilai tunggal seperti mean.

Misal kita memiliki koleksi dokumen yang

dimasukkan ke dalam 8 kategori

Dokumen yang tidak bisa dikategorikan di

masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut

Kita akan mengetes sebuah algoritma kategorisasi

sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan

Kita ingin mengetahui apakah peningkatan

performa algoritma tersebut signifkan atau tidak

Kalau Chi-square membandingkan variance, kalau

t-test membandingkan nilai tunggal seperti mean.

Misal kita memiliki koleksi dokumen yang

dimasukkan ke dalam 8 kategori

Dokumen yang tidak bisa dikategorikan di

masukkan ke dalam kategori lain-lain yang berada di luar 8 kategori tersebut

Kita akan mengetes sebuah algoritma kategorisasi

sebelum dan sesudah algoritma tersebut diperbaiki / ditingkatkan

Kita ingin mengetahui apakah peningkatan

(86)

T-Test

T-Test

Algoritma awal : Jumlah dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9.

Algoritma sesudah ditingkatkan : Jumlah dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7.

Kalau dari jumlah yang benar, kelihatanya performa algoritma ini sudah mengalami peningkatan, tapi signifkan kah?

Algoritma awal : Jumlah dokumen yang

sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 15, 18, 20, 6, 8, 17, 20, dan 9.

Algoritma sesudah ditingkatkan : Jumlah

dokumen yang sudah masuk kategori yang benar sesuai urutan kat 1-8 adalah sejumlah 18, 22, 21, 6, 10, 17, 21, dan 7.

Kalau dari jumlah yang benar, kelihatanya

(87)

T-Test

T-Test

H0 : hipotesis menyatakan tidak ada perubahan performa

Kita hitung dulu mean dari perbedaan jumlah kategori benar

Mean = ((18-15)+(22-18)+(21-20)+(6-6)+(10-8)+(17-17)+(21-20)+(7-9))/8 = 1.125  Standart deviasinya kalau kita hitung 1.76

H0 : hipotesis menyatakan tidak ada

perubahan performa

Kita hitung dulu mean dari perbedaan jumlah

kategori benar

Mean =

((18-15)+(22-18)+(21-20)+(6-6)+(10-8)+(17-17)+(21-20)+(7-9))/8 = 1.125

(88)

T-Test

T-Test

T-Test dengan 7 degree of freedoms

C1 dan c2 adalah julah dokumen terkategorisasi

benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi

Karena nilai t kurang dari 1.895 (Lihat table distribusi

t dengan 7 degree of freedoms), maka H0 diterima

Jadi, algoritma tidak mengalami peningkatan

performa yang signifkan

T-Test dengan 7 degree of freedoms

C1 dan c2 adalah julah dokumen terkategorisasi

benar sebelum dan sesudah peningkatan algoritma dan s adalah standart deviasi

Karena nilai t kurang dari 1.895 (Lihat table distribusi

t dengan 7 degree of freedoms), maka H0 diterima

Jadi, algoritma tidak mengalami peningkatan

performa yang signifkan

(89)

Matriks

Matriks

(90)

Matriks

Matriks

Persamaan ditemukan pada banyak aplikasi teks mining, mulai dari POS tagging, indexing, monitor email trafc, dsb

Aljabar linear adalah ilmu untuk menyelesaikan persamaan ini

Matriks dan vector dapat dipakai sebagai representasi untuk mendeskripsikan persamaan ini agar lebih mudah diselesaikan

Persamaan ditemukan pada banyak aplikasi

teks mining, mulai dari POS tagging, indexing, monitor email trafc, dsb

Aljabar linear adalah ilmu untuk

menyelesaikan persamaan ini

Matriks dan vector dapat dipakai sebagai

(91)

Matriks

Matriks

Misal transisi tiga part-of-speech (POS) dalam sebuah dokumen digambarkan dalam gambar berikut

Misal transisi tiga part-of-speech (POS) dalam

(92)

Matriks

Matriks

Bisa kita representasikan ke dalam sebuah matriks berikut :

Bisa kita representasikan ke dalam sebuah

matriks berikut :

Noun Adjective Verb

Noun 0.50 0.00 0.50

Adjective 0.25 0.50 0.25

(93)

Matriks

Matriks

Salah satu penggunaan matriks yang lain adalah dalam mengerjakan metode Singular Value Decomposition (SVD)

Salah satu penggunaan matriks yang lain

Gambar

gambar berikutgambar berikut

Referensi

Dokumen terkait

Pada pelaksanaan kegiatan PPL di SMP Negeri 1 Ngaglik telah banyak memberikan manfaat serta pengalaman bagi praktikan baik dalam hal yang menyangkut proses

Sesuai dengan kaidah-kaidah yang ada pada tema minimalis, maka rancangan bangunan baru bebas dari ornamen-ornamen yang tidak diperlukan dan memiliki bukaan sebagai sumber cahaya

Manajemen adalah waktu yang dihabiskan oleh sebagian besar siswa (lebih dari 50%) untuk yang bersifat manajerial (misalnya pergantian bentuk latihan, menyimpan

Primitif fungsi f pada suatu interval mempunyai sifat-sifat antara lain bervariasi terbatas dan kontinu mutlak.. Penelitian ini mengkaji sifat kekonti- nuan fungsi

Gambar 4.3 DFD level 0 Sistem informasi obat untuk mendukung monitoring distribusi penggunaan obat pada pasien rawat inap di IFRSUBKA yang akan di

Manakah yang lebih berpengaruh antara model pembelajaran Missouri Mathematics Project (MMP) dengan model pembelajaran langsung ( Direct Instruction) untuk

Tujuan dari penelitian ini adalah untuk memprediksi umur simpan produk zobo drink dalam kemasan botol kaca, HDPE, dan PET melaluli evaluasi perubahan fisikokimia

Segala sesuatu memiliki dua sisi. Begitupun dengan diri kita. Di tengah kekurangan pasti ada kelebihan. Yang harus kita lakukan dalam hidup ini adalah selalu berusaha