Minimi quadrati generalizzati - DellOmodarme esercitazioni R

Una delle assunzioni del modello lineare

y = Xβ + ε

è che sia var ε = σ²I. Questa ipotesi può cadere o perché gli errori sono correlati fra loro oppure perché la varianza non è costante. Scrivendo var ε = σ²Σ, la matrice Σ esprime la relazione fra gli errori. Nel caso di varianza non costante ed errori non correlati Σ sarà diagonale, mentre per errori correlati Σ avrà anche elementi fuori diagonale diversi da zero.

Questi modelli lineari vengono trattati con la tecnica dei minimi quadrati generalizzati (Generalized Least Squares, GLS) che minimizzano la quantit`a:

ε^Tε = (y − Xβ)^TΣ⁻¹(y − Xβ) La soluzione delle equazioni normali `e ora:

βˆ = (X^TΣ⁻¹X)⁻¹X^TΣ⁻¹y

var ˆβ = (X^TΣ⁻¹X)⁻¹σ² (3.8)

Dato che si pu`o sempre scrivere Σ = SS^T con S matrice triangolare (decomposizione di Choleski) si ha:

(y − Xβ)^TS^−TS⁻¹(y − Xβ) = (S⁻¹y − S⁻¹Xβ)^T(S⁻¹y − S⁻¹Xβ) cio`e la regressione GLS `e equivalente a regredire S⁻¹X contro S⁻¹y. Infatti:

S⁻¹y = S⁻¹Xβ + S⁻¹ε → y^′= X^′β + ε^′

conduce a una nuova regressione lineare. Esaminando la varianza dei nuovi errori ε^′ si ottiene:

var ε^′= var (S⁻¹ε) = S⁻¹(var ε)S^−T = S⁻¹σ²SS^TS^−T = σ²I e quindi, per il modello trasformato, le ipotesi sugli errori sono soddisfatte.

3.4 Minimi quadrati generalizzati 35

3.4.1 Minimi quadrati pesati

Se gli errori sono scorrelati, ma la varianza non è uniforme (eteroschedasticità), la matrice Σ è dia-gonale. Se la sua forma è nota o calcolabile dai dati si utilizza la tecnica dei minimi quadrati pesati (Weighted Least Squares, WLS). Si ha quindi Σ = diag(1/w1, . . . , 1/wn) dove gli elementi wi sono detti pesi.

Esempio

Si vuole valutare se la resa di una coltivazione (in una opportuna unit`a di misura) dipenda linearmente dalla piovosit`a mensile (in mm). Ai fini dell’esperimento il campo viene diviso in 5 sottoparcelle;

mensilmente si valuta la resa di ognuna di esse. L’esperimento viene portato avanti per 10 mesi.

Si inizia l’analisi inserendo i dati relativi alla resa mensile delle sottoparcelle e delle piovosit`a mensili:

> resa1 <- c(85, 124, 104, 116, 136, 116, 97, 127, 120, 111)

> resa2 <- c(88, 127, 104, 112, 138, 116, 121, 130, 114, 111)

> resa3 <- c(87, 129, 106, 111, 128, 103, 96, 124, 122, 121)

> resa4 <- c(89, 123, 111, 110, 131, 112, 105, 146, 128, 111)

> resa5 <- c(89, 126, 103, 112, 138, 113, 112, 117, 117, 103)

> resa <- c(resa1, resa2, resa3, resa4, resa5)

> pioggia <- c(77, 110, 97, 90, 114, 107, 83, 108, 101, 98)

> p <- rep(pioggia, 5)

> gruppo <- gl(10, 1, 50) # fattore che distingue i vari mesi

La funzione gl viene usata per creare una variabile categoriale, o fattore. Essa accetta tre argomenti:

il numero n di livelli (o categorie) del fattore, il numero k di repliche di ogni categoria e la lunghezza totale del vettore da creare. Se non altrimenti specificato, il terzo argomento `e assunto di default uguale a n × k. Nell’esempio in questione il vettore gruppo `e di lunghezza 50, con i primi 10 elementi pari alla sequenza 1, 2, . . . , 10 (10 livelli con 1 ripetizione l’uno); questa sequenza viene quindi ripetuta per 5 volte fino a riempire il vettore.

Come primo passo si testa il modello lineare:

> mod <- lm(resa ~ p)

> plot(mod$fitted, rstandard(mod))

Il grafico dei residui (a sinistra in Fig. 3.7) mostra evidenti problemi di eteroschedasticit`a. Per tentare di risolverli si pu`o fittare il modello WLS, dove i pesi sono gli inversi delle varianze mensili delle rese dei campi.

> var.m <- tapply(resa, gruppo, var) # varianze mensili

> var.m

1 2 3 4 5 6 7 8 9 10

2.8 5.7 10.3 5.2 20.2 28.5 110.7 115.7 28.2 40.8

> mod1 <- lm(resa ~ p, weights=rep(var.m, 5)^-1)

> plot(mod1$fitted, rstandard(mod1))

L’opzione weights permette di specificare il peso da assegnare all’osservazione corrispondente. Si noti che essendo il vettore var.m di dimensione 10 è necessario usare la funzione rep(var.m, 5) per render-lo della lunghezza necessaria. Il grafico dei residui (a destra in Fig. 3.7) mostra che il problema di eteroschedasticità è stato risolto. Il suo particolare aspetto, in cui si notano degli andamenti caratte-ristici, lascia comunque dei dubbi sulla pianificazione dell’esperimento. Probabilmente l’introduzione di qualche altra variabile (ad esempio la temperatura) avrebbe migliorato il modello lineare.

La significativit`a del modello si controlla con la chiamata usuale:

> summary(mod1) [...]

100 110 120 130

−2−1012

mod$fitted

rstandard(mod)

90 100 110 120 130

−2−10123

mod1$fitted

rstandard(mod1)

Figura 3.7: Analisi dei residui per l’Esempio 3.4.1. A sinistra il grafico dei residui standardizzati contro i valori fittati dal modello lineare evidenzia forti problemi di eteroschedasticit`a. A destra il corrispondente grafico per il modello WLS trasformato mostra che questo problema `e stato risolto.

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 3.20830 5.71739 0.561 0.577

p 1.12229 0.06146 18.260 <2e-16 ***

Si conclude che la dipendenza della produttività dalla piovosità è molto altamente significativa. Nell’esempio appena trattato i pesi da utilizzare possono essere calcolati direttamente dai dati. Se non si hanno repliche delle osservazioni il procedimento è inattuabile e il problema di eteroschedasticità può essere risolto esattamente solo avendo ulteriori informazioni su come sono stati raccolti i dati.

Un esempio classico è una regressione di una variabile dipendente y su un predittore x in cui i valori di yi sono le medie calcolate su un gruppo di numerosità ni. Se i valori di ni non sono tutti uguali e si suppone che i gruppi abbiano tutti la stessa varianza σ² si ha: var yi = var εi = σ²/ni. Questo problema di eteroschedasticità si risolve facilmente utilizzando i pesi wi = ni, ma se l’informazione sui valori di ni non viene fornita assieme ai valori di x e y la correzione non può essere effettuata.

Talvolta l’andamento di var εi non `e noto esattamente ma si pu`o supporre che sia legato a uno dei predittori da una legge a potenza:

var ε ∝ x^tj

Nell’esempio seguente `e mostrato come trattare un caso del genere in R.

Esempio

Un impianto chimico pu`o funzionare a diverse pressioni fra 5 e 20 atm. Per verificare se la produttivit`a dell’impianto varia in modo lineare aumentando la pressione di esercizio, si raccolgono i dati inseriti nei vettori atm e produzione:

> atm <- seq(5, 20 by=0.25)

> produzione <- c(178.54, 183.44, 181.09, 194.97, 186.33, 191.28, 189.99, 194.46, + 201.42, 203.67, 221.62, 206.44, 192.92, 207.17, 202.55, 201.41, 219.50, 230.64, + 230.59, 212.51, 219.17, 218.21, 221.04, 225.08, 230.32, 229.03, 227.89, 239.62, + 240.09, 237.06, 218.57, 260.34, 262.56, 233.37, 252.79, 247.29, 248.73, 235.98, + 268.43, 256.59, 256.60, 271.11, 271.71, 253.46, 239.39, 263.35, 237.68, 292.69, + 264.90, 276.33, 269.23, 284.59, 257.04, 238.85, 212.92, 224.00, 295.38, 255.40,

3.4 Minimi quadrati generalizzati 37

80 90 100 110

90100110120130140

pioggia (mm)

resa

Figura 3.8: Regressione lineare (linea blu) e WLS (linea rossa) nel caso dell’Esempio 3.4.1.

+ 271.55, 285.69, 255.92)

Dall’osservazione del grafico dei dati in Fig. 3.9 si nota che la produzione tende a variare maggiormente per valori di pressione elevati. Si pu`o quindi supporre che valga una relazione del tipo:

var ε ∝ atm^t. (3.9)

Si inizia l’analisi con il test del modello lineare standard:

> mod <- lm(produzione ~ atm)

> summary(mod) [...]

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 161.7674 6.2589 25.85 <2e-16 ***

atm 5.7871 0.4723 12.25 <2e-16 ***

Residual standard error: 16.24 on 59 degrees of freedom Multiple R-Squared: 0.7179, Adjusted R-squared: 0.7131 F-statistic: 150.1 on 1 and 59 DF, p-value: < 2.2e-16

Il grafico dei residui (a sinistra in Fig. 3.10) mette in luce il problema di eteroschedasticit`a. Per tentare di risolverlo si pu`o usare la funzione gls della libreria nlme (parte della distribuzione standard di R):

> library(nlme)

> mod1 <- gls(produzione ~ atm, weights=varPower(form= ~ atm))

La funzione accetta diversi argomenti: oltre al modello da fittare `e possibile specificare, come in questo caso, dei pesi (opzione weights) secondo alcuni schemi predefiniti. La funzione varP ower(f orm =∼

atm) richiede che i pesi siano una potenza della variabile atm; l’algoritmo si incarica di determinare il miglior valore dell’esponente della legge a potenza. Data la scelta interna dell’algoritmo il numero fornito come stima va moltiplicato per 2 per essere conforme all’Eq.(3.9). Il fit del modello si esamina con la consueta chiamata:

5 10 15 20

180200220240260280300

atm

produzione

Figura 3.9: Grafico dei dati dell’Esempio 3.4.1. Sono mostrati il fit lineare non pesato (linea blu) e quello pesato (linea rossa).

> summary(mod1)

Generalized least squares fit by REML Model: produzione ~ atm

Data: NULL

AIC BIC logLik

490.5844 498.8945 -241.2922 Variance function:

Structure: Power of variance covariate Formula: ~atm

Parameter estimates:

power 1.349463 Coefficients:

Value Std.Error t-value p-value (Intercept) 148.86059 3.273481 45.47471 0

atm 6.94886 0.369461 18.80808 0

[...]

Residual standard error: 0.4758102

Degrees of freedom: 61 total; 59 residual

Il ricco output fornisce molte informazioni: dapprima una parte informativa sulla tecnica di fit utiliz-zata (di default la funzione utilizza la tecnica di “REstricted Maximum Likelihood” o REML), quindi viene data la stima dell’esponente della legge a potenza (in questo caso 2 ∗ 1.349463 ≃ 2.7). Infine vi

è la parte sui coefficienti e la loro significatività. Si nota che il coefficiente del predittore atm cambia sensibilmente passando da un modello all’altro. Come test finale, il grafico dei residui per il modello pesato (a destra in Fig. 3.10) evidenzia che il problema di eteroschedasticità del modello non pesato

`e stato risolto dalla tecnica GLS.

Dalam dokumen DellOmodarme esercitazioni R (Halaman 42-47)