• Tidak ada hasil yang ditemukan

manuale.0.3.pdf

N/A
N/A
Protected

Academic year: 2023

Membagikan "manuale.0.3.pdf"

Copied!
150
0
0

Teks penuh

Questa raccolta di materiale è stata scritta più volte nell'ambito delle esercitazioni svolte per il corso di Statistica (corso base) per la laurea in Statistica e Informatica per l'Impresa dell'Università degli Studi di Padova e per il corso di Statistica per la laurea in Statistica e Scienze Informatica per la Gestione Aziendale dell'Università degli Studi di Venezia, sede di Treviso. Per l'ultimo argomento, lo stesso esempio viene ripetuto più volte, utilizzando R come "calcolatrice" o utilizzando invece le funzioni proprie di R.

Introduzione

Come puoi vedere, la matrice viene riempita colonna per colonna e il numero di colonne viene calcolato come il numero di elementi diviso per il numero di righe. Come si può facilmente osservare, le misurazioni riferite ai maschi e alle femmine sono eguali. Come si può vedere dalla figura 5.3, aumentando il numero di classi si ottiene un maggiore dettaglio.

Specificando un vettore di valori nell'opzione pause= definiamo gli estremi delle classi, in questo modo specifichiamo sia la dimensione delle classi (che può essere diversa) che il numero di classi, inoltre con la probabilità= FALSO opzione otteniamo un grafico che utilizza frequenze assolute anziché frequenze. Come si può vedere dal grafico, non sembra esserci una correlazione significativa tra temperatura corporea e battiti al minuto. Il nostro interesse è indagare il numero variabile di bambini in relazione al livello di istruzione.

Definiamo due vettori, uno per il numero di figli e uno per il livello di istruzione. 56 Costruiamo Tabelle valori speciali del numero variabile di figli e poi possiamo eliminarli (Per essere precisi possiamo controllare questi pochi casi separatamente). Basta osservare questa tabella per dimostrare che esiste una correlazione tra il livello di istruzione e il numero di figli.

Per rappresentare queste quattro distribuzioni condizionali, possiamo utilizzare la funzione par(mfcol=), che specifica il numero di grafici da posizionare nella stessa finestra di grafico.

Regressione

Sigarette

La prima serie di dati che utilizziamo riguarda le caratteristiche di alcuni tipi di sigarette. Vogliamo verificare se esiste una relazione tra monossido di carbonio (variabile dipendente) e condensa (variabile esplicativa). Per un primo sguardo alla relazione tra due variabili, costruiamo un grafico che rappresenta una nuvola di punti osservati.

È anche chiaro che un'osservazione è al di fuori della nuvola dove si trovano la maggior parte dei punti. Calcoliamo ora i residui della regressione, cioè la differenza tra i valori osservati e i valori predetti dalla retta. Questo resto si riferisce al punto che abbiamo già visto fuori dalla nuvola.

Pertanto la funzione lm() richiede la variabile dipendente, nel nostro caso il monossido seguito dal simbolo ˜ e dalla variabile esplicativa. La sezione Call: contiene la funzione del modello utilizzato, in Residui: sono riportati alcuni quantili dei residui: il valore minimo, il primo quartile, la mediana, il terzo quartile e il valore massimo. Sotto l'intestazione Errore standard residuo: avere una stima della deviazione standard del termine di errore e dei gradi di libertà del modello.

Infine, abbiamo la statistica F che ci fornisce una valutazione complessiva della significatività del modello rispetto ad un modello contenente solo l'intercetta.

Grasso

Va però notato che tale modello va utilizzato con cautela a fini predittivi: forse la percentuale di grasso ha un limite fisiologico. Quindi, se si utilizza un modello di regressione lineare ed estrapoli la percentuale di grasso rispetto a valori elevati (maggiori di quelli osservati) per l’età, si corre il rischio di ottenere un valore previsto che supera questo limite fisiologico. Tuttavia è chiaro che i residui per gli uomini sono inferiori a quelli per le donne.

Sembra quindi ragionevole adattare un modello in cui si possa distinguere tra le osservazioni che si riferiscono ai maschi e quelle che si riferiscono alle femmine. La variabile sesso è sicuramente importante per descrivere la percentuale di grasso, il coefficiente di determinazione aumenta ulteriormente. Ciò deriva dal fatto che facendo semplicemente la differenza tra le medie dei due sessi, ignoriamo l'influenza dell'età.

Infine, puoi facilmente vedere dal grafico nella Figura 8-8 che abbiamo reso uguali i coefficienti angolari per uomini e donne nel nostro modello.

Energia eolica

Per comprendere il tipo di relazione tra le due variabili costruiamo un grafico dell'intensità della corrente prodotta in funzione della velocità del vento. Un'altra cosa da notare è che, all'aumentare della velocità del vento, l'intensità della corrente prodotta sembra raggiungere un asintoto. I residui hanno un andamento tutt'altro che “casuale” e mostrano che il rapporto tra l'intensità della corrente prodotta e la velocità del vento non è lineare.

Costruiamo un grafico che mostra come il modello 8.3 interpola i dati e prevede la corrente generata per valori di velocità del vento maggiori di quelli osservati. La figura mostra che il modello quadratico si adatta bene ai dati osservati, ma non tiene conto del trend. Il modello prevede che all’aumentare della velocità l’intensità della corrente generata diminuisca drasticamente.

Calcoliamo il reciproco della velocità e disegniamo un grafico che rappresenta il suo rapporto con l'intensità della corrente prodotta. Il grafico è riportato in Figura 8.12, da cui si vede che la relazione tra l'intensità della corrente prodotta e il reciproco della velocità del vento è lineare. Infine, tracciamo i residui per il modello 8.3 rispetto alla variabile esplicativa per quel modello, cioè il reciproco della velocità del vento.

In questo caso è ovvio che il modello basato sul reciproco della velocità rispetta la tendenza dell'intensità della corrente elettrica generata a raggiungere un asintoto, proprio come volevamo che accadesse.

Massa cerebrale

Come si vede il valore di β è positivo e indica che un corpo più pesante ha una massa cerebrale maggiore. Tuttavia, il taglio alto mostra come gli animali di piccola taglia vengano rappresentati in modo errato, perché secondo il modello i pesi corporei inferiori a un chilogrammo hanno una massa cerebrale di circa 200 grammi. Consideriamo ad esempio la cavia, che pesa circa un chilo e ha una massa cerebrale di 5,5 grammi, secondo il modello ha una massa cerebrale di 192 grammi.

Il grafico dei residui rispetto ai valori attesi evidenzia la presenza di alcuni residui elevati, il primo corrisponde all'elefante asiatico, il secondo si riferisce all'uomo, dove il valore atteso è pari a 250 grammi contro i 1320 osservati. questo problema, in presenza di punti di leva e per migliorare il grafico dei residui, può essere interessante analizzare una trasformazione di entrambe le variabili su scala logaritmica in base 10. Si noti infine che la somma dei residui della seconda la regressione espressa nelle variabili originali non è zero:.

Hald Cement Data

Nella Figura 8.23 ​​riportiamo il grafico dei valori predetti rispetto ai residui del primo modello, notiamo che i residui non mostrano un andamento particolare. Calcoliamo ora la correlazione tra i residui e le variabili esplicative meno la variabile presente nel modello. Questo è chiamato coefficiente di correlazione parziale e misura la dipendenza lineare che esiste tra due variabili meno un terzo.

La variabile X1 ha un coefficiente di correlazione parziale molto elevato ed è quindi la variabile che riesce a descrivere parte della variabilità della variabile dipendente che X4 non riesce a catturare. Il modello da noi individuato può essere considerato un buon modello, tuttavia le ipotesi che abbiamo fatto circa la struttura del termine di errore non sembrano essere verificate.

Spedizioni

Dal grafico di figura 8.27 notiamo che può esistere una relazione lineare, al massimo una relazione quadratica. R quadrato multiplo: 0,4286, R quadrato corretto: 0,4221 Statistica F: 65,63 su 2 e 175 gradi di libertà, valore p: 0 dove notiamo che gli unici coefficienti che possono essere considerati sicuramente diversi da zero non sono quelli relativi all'intercettazione. Dal grafico di figura 8.28 si vede come l'ipotesi di omoschedasticità formulata sul termine di errore non sia stata evidentemente verificata.

Stimiamo quindi la varianza della variabile costo rispetto al valore assunto dalla variabile distanza, ovvero calcoliamo la varianza condizionale. Costruiamo un vettore contenente la varianza condizionale corrispondente per ciascuna osservazione e definiamo il vettore dell'errore quadratico medio.

Gambar

Figura 7.13: Valori sulla diagonale della matrice di proiezione.

Referensi

Dokumen terkait

Dato che gli elementi delle matrici di dissimilarit`a non sono fra loro indipendenti, per valutare la significativit` a del test si ricorre a una procedura Monte Carlo: