Un approccio statistico di base all'analisi dei dati quantitativi
I modelli di regressione lineare vengono utilizzati per mostrare o prevedere la relazione tra due variabili o fattori . Il fattore che viene previsto (il fattore per cui l'equazione risolve ) è chiamato il variabile dipendente. I fattori che vengono utilizzati per prevedere il valore della variabile dipendente sono chiamati variabili indipendenti.
I buoni dati non sempre raccontano la storia completa. L'analisi di regressione è comunemente usata nella ricerca poiché stabilisce che esiste una correlazione tra le variabili.
Ma la correlazione non è la stessa cosa della causalità . Anche una linea in una regressione lineare semplice che si adatti bene ai punti dati potrebbe non dire qualcosa di definitivo su una relazione causa-effetto.
Nella regressione lineare semplice, ogni osservazione consiste di due valori. Un valore è per la variabile dipendente e un valore è per la variabile indipendente.
- Analisi semplice della regressione lineare La forma più semplice di un'analisi di regressione si basa sulla variabile dipendente e su una variabile indipendente. In questo semplice modello , una retta approssima la relazione tra la variabile dipendente e la variabile indipendente.
- Analisi di regressione multipla Quando due o più variabili indipendenti vengono utilizzate nell'analisi di regressione, il modello non è più un semplice lineare.
Modello di regressione lineare semplice
Il modello di regressione lineare semplice è rappresentato in questo modo: y = ( β 0 + β 1 + Ε
Con la convenzione matematica, i due fattori che sono coinvolti in una semplice analisi di regressione lineare sono indicati con x e y .
L'equazione che descrive come y è correlata a x è nota come modello di regressione . Il modello di regressione lineare contiene anche un termine di errore rappresentato da Ε o la lettera greca epsilon. Il termine di errore viene utilizzato per tenere conto della variabilità in y che non può essere spiegata dalla relazione lineare tra x e y .
Ci sono anche parametri che rappresentano la popolazione studiata. Questi parametri del modello che sono rappresentati da ( β 0+ β 1 x ).
Modello di regressione lineare semplice
La semplice equazione di regressione lineare è rappresentata in questo modo: Ε ( y ) = ( β 0 + β 1 x ).
La semplice equazione di regressione lineare è rappresentata graficamente come una linea retta.
( β 0 è l'intercetta y della linea di regressione.
β 1 è la pendenza.
Ε ( y ) è il valore medio o atteso di y per un dato valore di x .
Una linea di regressione può mostrare una relazione lineare positiva, una relazione lineare negativa o nessuna relazione. Se la linea grafica di una regressione lineare semplice è piatta (non inclinata), non esiste alcuna relazione tra le due variabili. Se la linea di regressione si inclina verso l'alto con l'estremità inferiore della linea sull'intercettazione y (asse) del grafico e l'estremità superiore della linea che si estende verso l'alto nel campo del grafico, al di fuori dell'intercetta x (asse) esiste una relazione lineare positiva . Se la linea di regressione si inclina verso il basso con l'estremità superiore della linea all'intercetta y (del grafico), e l'estremità inferiore della linea che si estende verso il basso nel campo del grafico, verso l'intercetta x (asse) esiste una relazione lineare negativa.
Equazione di regressione lineare stimata
Se i parametri della popolazione fossero noti, l'equazione di regressione lineare semplice (mostrata sotto) potrebbe essere usata per calcolare il valore medio di y per un valore noto di x .
Ε ( y ) = ( β 0 + β 1 x ).
Tuttavia, in pratica, i valori dei parametri non sono noti, quindi devono essere stimati utilizzando i dati di un campione della popolazione. I parametri della popolazione sono stimati utilizzando statistiche di esempio . Le statistiche di esempio sono rappresentate da b 0 + b 1. Quando le statistiche campionarie vengono sostituite con i parametri di popolazione, viene formata l'equazione di regressione stimata.
L'equazione di regressione stimata è mostrata sotto.
( ŷ ) = ( β 0 + β 1 x
( ŷ ) è pronunciato y cappello .
Il grafico dell'equazione di regressione semplice stimata è chiamato la linea di regressione stimata.
Il b 0 è l'intercetta y.
La b 1 è la pendenza.
Il ŷ ) è il valore stimato di y per un dato valore di x .
Nota importante: l' analisi di regressione non viene utilizzata per interpretare le relazioni causa-effetto tra le variabili. L'analisi di regressione può, tuttavia, indicare in che modo le variabili sono correlate o in che misura le variabili sono associate tra loro.
In tal modo, l'analisi di regressione tende a creare rapporti salienti che garantiscano a un ricercatore esperto di dare un'occhiata più da vicino .
Conosciuto anche come: regressione bivariata, analisi di regressione
Esempi: Il metodo dei minimi quadrati è una procedura statistica per l' utilizzo dei dati di esempio per trovare il valore dell'equazione di regressione stimata. Il metodo dei minimi quadrati fu proposto da Carl Friedrich Gauss, nato nell'anno 1777 e morto nel 1855. Il metodo dei minimi quadrati è ancora ampiamente utilizzato.
fonti:
Anderson, DR, Sweeney, DJ e Williams, TA (2003). Essentials of Statistics for Business and Economics (3 ° ed.) Mason, Ohio: Southwestern, Thompson Learning.
______. (2010). Spiegato: Analisi di regressione. Notizie del MIT.
McIntyre, L. (1994). Utilizzo dei dati di sigaretta per un'introduzione alla regressione multipla. Journal of Statistics Education, 2 (1).
Mendenhall, W. e Sincich, T. (1992). Statistica per l'ingegneria e le scienze (3a ed.), New York, NY: Dellen Publishing Co.
Panchenko, D. 18.443 Statistics for Applications, Fall 2006, Section 14, Simple Linear Regression. (Massachusetts Institute of Technology: MIT OpenCourseWare)