Log-lineare Modelle: Poisson Regression - Univariate Statistik II: Das Verallgemeinerte Lineare

III. Univariate Statistik II: Das Verallgemeinerte Lineare Modell (Generalised

8.2. Log-lineare Modelle: Poisson Regression

Log-lineare Modelle sind in GLMs für Poisson-verteilte Daten zuständig. Wir erinnern uns, dass vor allem Zähldaten zu einer Poisson-Verteilung führen. Wenn wir also Daten erheben, in denen bspws. die Anzahl Kaffee-trinkender Kollegen in Abhängigkeit vom Alter analysiert

werden sollen, so geschieht dies mittels log-linearer Modelle. Der Name “log-linear” rührt aus der link -Funktion, die für Poisson-Daten standardmäßig der log link ist.

Im Grunde ist die Analyse Poisson-verteilter Daten vollst¨andig analog zu den gerade be-sprochenen binomialverteilten Daten. Auch hier spezifizieren wir im GLM die Fehlerverteilung (und damit den link ), achten bei den Ergebnissen auf die dispersion, und selektieren unser Modell bei Modellvereinfachung mittels eines deviance-Tests.

Untersuchen wir im folgenden die Frage, ob Halsbandschnäpperweibchen durch ihre Wahl eines attraktiveren Männchens auch die Befütterung ihrer gemeinsamen Brut verbessern.

Dafür betrachten wir die Anzahl Futterstücke, die ein Halsbandschnäppermännchen seinen Jungen pro Stunde ans Nest liefert, in Abhängigkeit von der Attraktivität des Männchens.

(Die Auswertung, die f¨ur die Erstellung der Linien n¨otig ist wird gleich behandelt.)

> schnaepper <- read.table("schnaepper.txt", header = T)

> attach(schnaepper)

> names(schnaepper) [1] "stuecke" "attrakt"

> par(mfrow = c(1, 2), mar = c(5, 5, 1, 1))

> plot(log(stuecke) ~ attrakt, cex = 2, cex.lab = 1.7, pch = 16)

> points(seq(1, 5, by = 0.1), predict(glm(stuecke ~ attrakt, poisson), + list(attrakt = seq(1, 5, by = 0.1))), type = "l", lwd = 3)

> plot(stuecke ~ attrakt, cex = 2, cex.lab = 1.7, pch = 16)

> points(seq(1, 5, by = 0.1), predict(glm(stuecke ~ attrakt, poisson), + list(attrakt = seq(1, 5, by = 0.1)), type = "response"), type = "l", + lwd = 3)

Hat entsprechend dieser Daten nun die Attraktivit¨at einen Einfluss auf die Versorgungs-rate? Offensichtlich handelt es sich um Poisson-verteilte Daten, und entsprechend sind nur ganzzahlige Werte auf der y-Achse aufgetragen. Dadurch wirkt die Streuung sehr groß. Die Frage nach einer Signifikanz des Attraktivit¨atseffekts gehen wir wie folgt nach:

An diesem Beispiel wollen wir einmal den maximum likelihood -Ansatz zu Fuß durchrechnen.

F¨ur die Poisson-Verteilung hat die likelihood -Funktion folgende Form:

L(xi|λ) = λ^x¹

x₁!e^λ · λ^x²

x₂!e^λ · · · λ^xⁿ

x_n!e^λ = λ^P^xⁿ x₁! · · · xn!e^nλ Wir logarithmieren und erhalten die log-likelihood :

lnL =^X(−λ + (lnλ) · xi) − ln(^Yx_i!)

Der erste Schritt ist die Formulierung der Regressionsgleichung: y = β₀+ β₁x. Wir sehen, dass wir zwei Parameter gleichzeitig berechnen müssen (die beiden βs). Nehmen wir der einfachheitshalber zunächst an, wir wüssten, dass der y-Achsenabschnitt den Wert 4.4 hätte.

Dann wäre unsere Regressionsgleichung: y = 4.4 + β1x. Mit dieser können wir jetzt für jeden beobachteten y-Wert (d.i. stuecke) eine Wert aus der Attraktivität vorhersagen, wenn wir für β1 einen Wert vorgeben. So sind für β1 = 1 die beobachtete und vorhergesagten x-Werte:

> stuecke

[1] 3 6 8 4 2 7 6 8 10 3 5 7 6 7 5 6 7 11 8 11 13 11 7 7 6

> 4.4 + attrakt * 1

[1] 5.4 5.4 5.4 5.4 5.4 6.4 6.4 6.4 6.4 6.4 7.4 7.4 7.4 7.4 7.4 8.4 8.4 8.4 8.4 [20] 8.4 9.4 9.4 9.4 9.4 9.4

1 2 3 4 5

1.01.52.02.5

attrakt

log(stuecke)

1 2 3 4 5

24681012

attrakt

stuecke

Abbildung 8.4.: Vom Halsbandschnäppermännchen an die Brut gelieferte Anzahl Futter-stücke pro Stunde in Abhängigkeit der Attraktivität des Männchens, links mit logarithmisch dargestellten Anzahlen, recht normal. Die durchgezogenen Linien stellt das Ergebnis einer Poisson-Regression dar, links auf der link-scale, rechts rücktransformiert. Beachte, dass aus dem Regressionsgeraden mit log-link eine e-Funktion auf der normalen (=response) Skala wird. Dies mag manchmal ungewohnt erscheinen, und so werden die meisten Daten, die mittels Poisson-Regression analysiert wurden, auch als logarithmiert darge-stellt. Nichtsdestotrotz ist die rechte Abbildung genauso korrekt.

> points(seq(1, 5, by = 0.1), 4.4 + seq(1, 5, by = 0.1), type = "l")

Bei der klassichen Regression normalverteilter Daten würden wir jetzt die Residuen be-rechnen, quadrieren und aufsummieren. Für Poisson-Daten berechnen wir aber nicht die sum of squares, sondern gemäß obiger Formel die log-likelihood der Daten, wobei wir λ durch 4.4+attrakt·1ersetzen.

F¨ur jeden Datenpunkt x_i k¨onnen wir jetzt die Wahrscheinlichkeit berechnen, dass er einer Poisson-Verteilung mit einem bestimmten Mittelwert λientstammt. Diese wird inR_berechnet als dpois(x_i,λ_i). Diese logarithmieren wir und summieren sie auf. Damit erhalten wir unsere log-likelihood. Beachte, dass wir ja die beobachteten Werte mit dem log-link an das Modell koppeln!

> sum(log(dpois(stuecke, exp(1.5 + attrakt * 0.2)))) [1] -59.86768

Das Ergebnis ist stets eine negative Zahl, da ja die Wahrscheinlichkeiten zwischen 0 und 1 liegen, der log davon also negativ ist (und somit auch die Summe der logs).

Wiederholen wir dies f¨ur eine Reihe an Werte f¨ur β₁, etwa von 0.01 bis 0.5, und bilden die log-likelihood -Summen ab, so erhalten wir Abb. 8.5.

> loglik <- 1:50

> beta1 <- seq(0.01, 0.5, len = 50)

> for (i in 1:50) loglik[i] <- sum(log(dpois(stuecke, exp(1.5 + + attrakt * beta1[i]))))

> plot(beta1, loglik, type = "l", xlab = expression(beta[1]), cex.lab = 1.5)

0.0 0.1 0.2 0.3 0.4 0.5

−300−250−200−150−100−50

β1

loglik

Abbildung 8.5.: Log-likelihood der verschiedenen Werte von β₁ bei gegebenem β₀= 4.4.

Offensichtlich gibt es einen Wert für β₁, für den loglik maximal ist. Dies ist der gesuchte Wert für β₁ (in diesem Fall etwa 0.15), denn er produziert die maximale Wahrscheinlichkeit.

Entsprechend k¨onnen wir vorgehen, wenn wir den y-Achsenabschnitt berechnen wollen.

Interessant wird es, wenn wir beide Parameter gleichzeitig schätzen müssen. Das Ergebnis ist dann eine dreidimensionale Fläche, die einem Berg ähneln sollte. Beginnen wir, indem wir für Steigung und y-Achsenabschnitt 100 Werte von 0.01 bis 0.5 bzw. 0.1 bis 2 wählen, und die Poisson-likelihood für jede Kombination dieser Werte berechnen⁷. Anschließend plotten wir das Ergebnis (Abb. 8.6), einmal dreidimensional mittels persp, dann besser erkennbar zweidimensional mittels contour⁸.

> beta0 <- seq(0.1, 2, length = 100)

> beta1 <- seq(0.01, 0.5, length = 100)

> llfun <- function(x, y) {

+ sum(log(dpois(stuecke, exp(x + attrakt * y)))) + }

> loglik.m <- matrix(ncol = 100, nrow = 100)

> for (i in 1:100) { + for (j in 1:100) {

+ loglik.m[i, j] <- llfun(beta0[i], beta1[j])

+ }

> par(mfrow = c(1, 2))

> persp(beta0, beta1, loglik.m, phi = 30, theta = 90, xlab = "beta0", + ylab = "beta1", zlab = "loglik")

> contour(beta0, beta1, loglik.m, nlevels = 30, xlab = expression(beta[0]), + ylab = expression(beta[1]), cex.lab = 1.5)

7Hier ginge es mit der Funktion outer mit weniger Code, aber die for-Schleifen sind didaktisch klarer.

8Hiervon gibt es eine Variante filled.contour, die bunte Farbverl¨aufe statt Konturen benutzt.

beta0

beta1 loglik

β0

β1

0.5 1.0 1.5 2.0

0.00.10.20.30.40.5

Abbildung 8.6.: 3D- und Konturenabbildung der log-likelihood -Berechnung für die Schnäp-perdaten. Wir sehen deutlich, dass die Koeffizienten nicht unabhängig von-einander sind: je höher der Wert des einen, desto niedriger der des anderen.

F¨ur die Korrelation zwischen Achsenabschnitt und Steigung ist dies prak-tisch immer der Fall. Sorgen sollten wir uns machen, wenn zwei Faktoren, also zwei Steigungen, diese Bild aufweisen. Dann k¨onnen wir den Effekt der einen Variablen nicht von dem der anderen trennen (collinearity).

Jetzt wollen wir nat¨urlich noch die Werte f¨ur β0 und β1 haben. Um diese zu extrahieren benutzen wir die Funktion which.max:

> loglik.m[which(loglik.m == max(loglik.m))]

[1] -55.71565

> llmax <- which(loglik.m == max(loglik.m), arr.ind = T)

> round(beta0[llmax[1]], 2) [1] 1.48

> round(beta1[llmax[2]], 2) [1] 0.14

Die gesuchten Werte sind also β₀ = 1.48 und β₀ = 0.14.

Wenn wir diese Werte mit glm errechnen wollen, so m¨ussen wir nur die Fehlerverteilung als Poisson defi-nieren:

> summary(glm(stuecke ~ attrakt, poisson)) Call:

glm(formula = stuecke ~ attrakt, family = poisson) Deviance Residuals:

Min 1Q Median 3Q Max

-1.55377 -0.72834 0.03699 0.59093 1.54584 Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) 1.47459 0.19443 7.584 3.34e-14 ***

attrakt 0.14794 0.05437 2.721 0.00651 **

---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 (Dispersion parameter for poisson family taken to be 1)

Null deviance: 25.829 on 24 degrees of freedom Residual deviance: 18.320 on 23 degrees of freedom AIC: 115.42

Number of Fisher Scoring iterations: 4

Das ist doch überzeugend. Und natürlich hat der Optimierungsalgorithmus im GLM eine viel höhere Genauigkeit als unser handgestrickter grid-search.

Dieses Beispiel hat uns gezeigt, wie zwei Parameter gleichzeitig gesch¨atzt werden k¨onnen.

Wir haben dabei auch gesehen, dass die Fehler auf diesen Parametern sehr unterschiedlich sein können. Je flacher die Spitze des likelihood-Berges, desto größer ist der Fehler auf dem geschätzten Koeffizienten. In unserem Fall hatten wir eine Bergschulter; die Steigung war gut, der Achsenabschnitt schlechter zu schätzen. Wenn wir uns Abb. 8.4 anschauen, dann sehen wir, dass eine Zunahme der y-Werte mit ansteigenden x-Werten in der Tat sehr offensichtlich ist. Den genauen Schnittpunkt der Regressionsgraden mit der y-Achse hingegen können wir nicht wirklich abschätzen.

Dalam dokumen Dormann Kuehn AngewandteStatistik (Halaman 166-171)