• Tidak ada hasil yang ditemukan

Sch¨atzung von Verteilungsparametern

Dalam dokumen Dormann Kuehn AngewandteStatistik (Halaman 33-36)

2. Grundlagen 7

2.5. Methoden der Parametersch¨atzung

2.5.1. Sch¨atzung von Verteilungsparametern

Bei der Sch¨atzung der Parameter geht es darum, den Wert einer Modellkonstanten zu finden, der das Modell den Daten am n¨achsten bringt. F¨ur einen Datensatz x wollen wir das-jenige Modell finden, das den Datensatz am wahrscheinlichsten macht. Dies ist der Fall, wenn die Wahrscheinlichkeit, einen Wert unter einem Modell mit Parameter(n) θ zu beobachten, f¨ur alle Datenpunkte xi maximiert ist. F¨ur jedes Modell berechnet man also die

”maximale Dichte“. Wir benutzen aber lieber den englischen Ausdruck maximum likelihood , n¨amlich das Produkt (Q) der Wahrscheinlichkeiten jedes einzelnen Datenpunktes (xi):

L(x|θ) = Yn i=1

f (xi|θ) (2.23)

Dabei ist f (.) eine noch n¨aher zu spezifizierenden Funktion mit den Parametern θ, die die Datenpunkte xi ann¨ahert.

Noch mal langsam: Jeder Datensatz kann durch verschiedene Funktionen angen¨ahert wer-den. In jedem Modell befinden sich ein paar Parameter, die beispielsweise die Form einer Kurve durch die gemessenen Punkte beschreibt. Im einfachsten Fall liegen alle gemessenen Punkt parallel zur x-Achse (auch Abszisse genannt), und das Modell hat die Form y = c, wobei c eine Konstante ist. F¨ur Punkte, die einen linearen Zusammenhang nahelegen, m¨ussen f¨ur die Regressionsgerade y = ax + c zwei Parameter gesch¨atzt werden: das c des vorherigen Falles und zus¨atzlich die Geradensteigung a. N¨achstkomplizierter ist beispielsweise eine qua-dratische Form (y = ax + bx2+ c) oder etwa eine ansteigende Sinuswelle (y = dx sin ex). Alle diese Modelle k¨onnen auf einen Datensatz losgelassen werden, aber manche werden besser passen als andere.

F¨ur jedes dieser Modelle kann nun ein maximale Wahrscheinlichkeit berechnet werden. Die Konstanten der Modelle sind dabei in Gleichung 2.23 durch das θ symbolisiert.

L1(x|y = c) = Yn i=1

c = nc (2.24)

L2(x|y = ax + c) = Yn i=1

(axi+ c) = (ax1+ c)(ax2+ c) · · · (axn+ c) (2.25)

L3(x|y = ax + bx2+ c) = Yn i=1

(ax + bx2+ c) = · · · (2.26)

L4(x|y = dx sin ex) = Yn i=1

(dx sin ex) = · · · (2.27)

Produkte von Wahrscheinlichkeiten sind sehr kleine Zahlen (da ja jede Wahrscheinlichkeit

≤ 1 ist). Deshalb benutzt man meist nicht die likelihood, sondern ihren Logarithmus, die log-likelihood. Aus Gleichung 2.23 wird somit:

log L (x|θ) = log

" n Y

i=1

f (xi|θ)

#

= Xn i=1

logf (xi|θ) (2.28)

Und aus Gleichung 2.26 wird:

log L (x|y = ax + bx2+ c) = Xn i=1

log(axi+ bx2i + c) (2.29) F¨ur jede Wertekombination von a,b und c kann man nun mit Hilfe eines Computers die log-likelihood berechnen. Die Kombination, die den h¨ochsten Wert hat (die maximum log-likelihood,

ML) ist das beste Modell. Manchmal kann diese ML algebraisch berechnet werden, aber vor allem bei nicht-normalverteilten Daten sind iterative Berechnungen unumg¨anglich.7

Diese ganzen Formeln sind keine ¨uberfl¨ussige Mathematik. Hilborn & Mangel (1997) ge-ben der ML-Methode ein ganzes, einf¨uhrendes Buch, in dem eine klassische Regression oder Varianzanalyse nicht einmal vorkommt. Sie nutzen ML, um verschiedene ¨okologische Frage-stellungen zu beantworten.

Vor allem aber gibt es eigentlich kein anderes verteilungsbasiertes Sch¨atzverfahren! Das viel h¨aufiger beschriebene Verfahren der geringsten Abweichungsquadrate (ordinary least squares, OLS) ist ein Spezialfall der ML f¨ur normalverteilte Daten. Um dies zu sehen, muss man sich an die Form der Normalverteilung erinnern (Gleichung 2.4):

f (µ, σ) = 1 σ√

2πe−(x−µ)

2 2σ2

Ersetzt man x durch den Regressionsterm (also etwa ax+c), so sehen wir, dass die Abweichung von der Regressionsfunktion im Quadrat in der Berechnung der Normalverteilung eingeht.

Je geringer dieser Abweichungsterm, desto gr¨oßer der Wert von f (.). Da in der ML-Formel (Gleichung 2.23) der Wert f¨ur L maximiert werden soll, m¨ussen entsprechend die Parameter a und c so gew¨ahlt werden, dass die Abweichungen minimiert werden. Genau dies ist das Prinzip der ordinary least square Regression.8

Zwar wird das OLS Sch¨atzverfahren auch f¨ur andere Verteilungen benutzt, aber dies eigent-lich vor allem aus Mangel an ML-Erfahrung. Alle verallgemeinerten linearen Modelle (GLM), die wir auf sp¨ateren Seiten sehen werden, nutzen maximum likelihood-Sch¨atzungen. Es kann gezeigt werden, dass unter Annahme der Normalverteilung der Daten (genauer: der Residuen) die ML-Verfahren mit dem OLS-Sch¨atzer identisch ist. Da diese Herleitung der OLS recht instruktiv ist, und gleichzeitig das ML etwas entmystifiziert, sei es hier kurz dargestellt:

Wir beginnen mit der Formel f¨ur eine Normalverteilung (s. oben oder Gleichung 2.4), und erinnern uns das gilt:Qex= ePx. Damit k¨onnen wir die Normalverteilung als Funktion f (.) in Gleichung 2.23 einsetzen:

L = 1

(σ√

2π)ne2σ21

P(xiµ)2

Logarithmieren f¨uhrt zu:

logL = l(µ, σ) = log

"

1 (σ√

2π)ne2σ21 P(xiµ)2

#

(2.30)

= loghσn(2π)n/2i− 1 2σ2

X(xi− µ)2 (2.31)

= −n log σ −n

2log(2π) − 1 2σ2

X(xi− µ)2 (2.32)

7Noch ein Wort zur Verwirrung: Im englischen unterscheidet man zwei W¨orter f¨ur

Wahrscheinlichkeit“:

likelihood und probability. Zum einen bestehen Unterschiede in der Philosophie der Modellierung: Bei der likelihood sind die Daten fest, und die Modellparameter variieren, w¨ahrend bei der probability Daten zu einem festen Modell gesucht werden. Anders formuliert: Bei der likelihood fragt man, wie wahrscheinlich es ist, dass ein Modell den Daten passt; bei der probability, wie wahrscheinlich es ist, dass die Daten einem bestimmten Modell entstammen. Beide sind ¨uber Bayes Theorem (Gleichung 2.41) miteinander verkn¨upft (Hilborn & Mangel 1997, p. 133). Zum anderen ist die Summe der likelihoods einer Verteilung (= die Fl¨ache unter einer Verteilung) = 1. Bei einer Normalverteilung mit s << 1 muss daf¨ur die likelihood an manchen Stellen >1 sein, was nat¨urlich f¨ur eine Wahrscheinlichkeit nicht m¨oglich ist. Allgemein sind also likelihoods den Wahrscheinlichkeiten nur verwandt, aber ihnen nicht gleich.

8Nur der Vollst¨andigkeit halber: Es gibt noch weitere least square Regressionen, z.B. two-stage least squa-re (2SLS, auch instrumental-variable squa-regsqua-ression genannt) implementiert in Rin den packages systemfit, Funktion twostage.systemfit und package sem, Funktion tsls. Das 2SLS-Verfahren wird benutzt, wenn die erkl¨arende Variable (x) mit dem Fehler korreliert ist. Man nennt dann x eine endogene Variable. F¨ur die mathematische Grundlage siehe etwa http://stat-www.berkeley.edu/~census/ivy.eps.

Um das Maximum zu finden, setzen wir die Ableitung dieses Terms gleich Null:

d l

dµ = 0 = 1 σ2

X(xi− µ)

Da σ12 6= 0, muss der Rest Null sein. Somit ist

0 =XxiXµ =Xxi− nµ

da µ konstant ist und n mal addiert wird. Nach Umformung sehen wir, dass µ =

Pxi n

F¨ur die Varianz differenzieren wir Gleichung 2.32 nach σ, wobei der konstante Term weg-f¨allt, und setzen gleich Null (wir erinnern uns dass die Ableitung von log x = 1/x und die Ableitung von −1/x2= 2/x3):

d l

dσ = 0 = −n σ +

P(xi− µ)2 σ3 Multiplizieren auf beiden Seiten mit σ3 f¨uhrt zu

0 = −nσ2+X(xi− µ)2

⇐⇒ σ2 =

P(xi− µ)2 n

Voil`a! Auch nach dem Ansatz der ML berechnet sich der Mittelwert der Normalverteilung wie gewohnt als Summe aller Werte durch deren Anzahl, und die Varianz als Summe der Abweichungsquadrate geteilt durch die Anzahl.

Das Gleiche k¨onnen wir mit Poisson-verteilten Daten machen. Da L(µ) = λx

x!eλ

(siehe Gleichung 2.7), ergibt sich f¨ur die likelihood -Funktion:

L(xi|λ) = λx1

x1!eλ · λx2

x2!eλ · · · λxi

xn!eλ = λPxn x1! · · · xn!e Wir logarithmieren und erhalten

lnL = −nλ + (lnλ)Xxi− ln(Yxi!) Differenzieren nach λ und Nullsetzen ergibt:

d

dλlnL = −n + Pxi

λ = 0 λ =

Pxi n

In der Tat ist dies genau die Formel f¨ur den Mittelwert Poisson-verteilter Daten.

Im Vergleich zum OLS-Sch¨atzverfahren benutzt entsprechend eine ML Poisson-Regression nicht Abweichungsquadrate. Wir ersetzen analog zum obigen Beispiel λ durch axi+ c. Um L zu maximieren, m¨ussen a und c so gew¨ahlt werden, dass der Term ln(L ) maximiert wird.

Dies ist analytisch nicht l¨osbar (da zwei Unbekannte in nur einer Gleichung), sondern wird vom Computer iterativ berechnet.

Der Vollst¨andigkeit halber sei auch noch die likelihood-Funktion f¨ur eine Binomialverteilung angef¨uhrt:

L(p|n, xi) = n xi

!

pxi(1 − p)n−xi

Dem aufmerksamen Beobachter wird auffallen, dass obige Formel identisch mit der Vertei-lungsfunktion der Binomialverteilung ist. W¨ahrend also die VerteiVertei-lungsfunktion die Wahr-scheinlichkeit der Daten (xi) (bei gegebener Stichprobengr¨oße n und Eintrittswahrscheinlich-keit p) berechnet, gibt die likelihood -Funktion die WahrscheinlichEintrittswahrscheinlich-keit der Funktionsparameter (bei gegebenen Daten) an9.

Dalam dokumen Dormann Kuehn AngewandteStatistik (Halaman 33-36)