Il dataset di dimensioni \(n = 51\) è relativo ai 50 stati e al Distretto di Columbia negli Stati Uniti. Le variabili sono
(Fonte dei dati: Mind On Statistics, 3a edizione, Utts and Heckard).
\(i\) | Stato | Tasso di povertà | Tasso di natalità 15-17 |
---|---|---|---|
1 | Alabama | 20.1 | 31.5 |
2 | Alaska | 7.1 | 18.9 |
3 | Arizona | 16.1 | 35.0 |
4 | Arkansas | 14.9 | 31.6 |
5 | California | 16.7 | 22.6 |
6 | Colorado | 8.8 | 26.2 |
7 | Connecticut | 9.7 | 14.1 |
8 | Delaware | 10.3 | 24.7 |
9 | District_of_Columbia | 22.0 | 44.8 |
10 | Florida | 16.2 | 23.2 |
11 | Georgia | 12.1 | 31.4 |
12 | Hawaii | 10.3 | 17.7 |
13 | Idaho | 14.5 | 18.4 |
14 | Illinois | 12.4 | 23.4 |
15 | Indiana | 9.6 | 22.6 |
16 | Iowa | 12.2 | 16.4 |
17 | Kansas | 10.8 | 21.4 |
18 | Kentucky | 14.7 | 26.5 |
19 | Louisiana | 19.7 | 31.7 |
20 | Maine | 11.2 | 11.9 |
21 | Maryland | 10.1 | 20.0 |
22 | Massachusetts | 11.0 | 12.5 |
23 | Michigan | 12.2 | 18.0 |
24 | Minnesota | 9.2 | 14.2 |
25 | Mississippi | 23.5 | 37.6 |
26 | Missouri | 9.4 | 22.2 |
27 | Montana | 15.3 | 17.8 |
28 | Nebraska | 9.6 | 18.3 |
29 | Nevada | 11.1 | 28.0 |
30 | New_Hampshire | 5.3 | 8.1 |
31 | New_Jersey | 7.8 | 14.7 |
32 | New_Mexico | 25.3 | 37.8 |
33 | New_York | 16.5 | 15.7 |
34 | North_Carolina | 12.6 | 28.6 |
35 | North_Dakota | 12.0 | 11.7 |
36 | Ohio | 11.5 | 20.1 |
37 | Oklahoma | 17.1 | 30.1 |
38 | Oregon | 11.2 | 18.2 |
39 | Pennsylvania | 12.2 | 17.2 |
40 | Rhode_Island | 10.6 | 19.6 |
41 | South_Carolina | 19.9 | 29.2 |
42 | South_Dakota | 14.5 | 17.3 |
43 | Tennessee | 15.5 | 28.2 |
44 | Texas | 17.4 | 38.2 |
45 | Utah | 8.4 | 17.8 |
46 | Vermont | 10.3 | 10.4 |
47 | Virginia | 10.2 | 19.0 |
48 | Washington | 12.5 | 16.8 |
49 | West_Virginia | 16.7 | 21.5 |
50 | Wisconsin | 8.5 | 15.9 |
51 | Wyoming | 12.2 | 17.7 |
Tutta l’informazione sul modello di regressione lineare semplice è contenuta nelle seguenti statistiche \[\sum_{i=1}^n x_i= 669.00, ~~\sum_{i=1}^n y_i= 1~136.40, ~~\sum_{i=1}^n x_i^2= 9~690.44, ~~\sum_{i=1}^ny_i^2= 28~556.56, ~~ \sum_{i=1}^n x_i y_i= 16~163.14\] o, equivalentemente, le medie \[\frac{1}{51}\sum_{i=1}^n x_i= 13.1176, ~~\frac{1}{51}\sum_{i=1}^n y_i= 22.2824, ~~\frac{1}{51}\sum_{i=1}^n x_i^2= 190.0086, ~~\frac{1}{51}\sum_{i=1}^ny_i^2= 559.9325, ~~ \frac{1}{51}\sum_{i=1}^n x_i y_i= 316.9243\]
\[\begin{alignat*}{3} \bar x & = \frac 1 n \sum_{i=1}^n x_i = 13.1176 & \hat\sigma_X^2 & = \frac 1 n \sum_{i=1}^n x_i^2 - \bar x^2 = 17.936 &\\ \bar y & = \frac 1 n \sum_{i=1}^n y_i = 22.2824 & \hat\sigma_Y^2 & = \frac 1 n \sum_{i=1}^n y_i^2 - \bar y^2 = 63.4293 &\\ \text{cov}(x,y) & = \frac 1 n \sum_{i=1}^n x_iy_i -\bar x\bar y = 24.6323 & r & = \frac{\text{cov}(x,y)}{\hat\sigma_X \hat\sigma_Y } = 0.7303 &\\ \hat\beta_1 & = \frac{\text{cov}(x,y)}{\hat\sigma_X^2} = 1.3733 & \hat\beta_0 & = \bar y - \hat\beta_1\bar x = 4.2673. &\\ \hat\sigma_\varepsilon^2 & = \hat\sigma_Y^2(1-r^2)=29.6 & S_\varepsilon^2 & = \frac{n}{n-2}\hat\sigma_\varepsilon^2 = 30.8089\\ \hat\sigma_\varepsilon & = \hat\sigma_Y\sqrt{(1-r^2)}=5.4406 & \qquad S_\varepsilon & = \sqrt{\frac{n}{n-2}}\hat\sigma_\varepsilon = 5.5506\\ \end{alignat*}\]
Valutare la bontà di adattamento del modello precedente.
Soluzione
\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 24.63 }{ 4.235 \times 7.964 }= 0.7303 \\r^2&=& 0.5333 < 0.75 \end{eqnarray*}\] Il modello non si adatta bene ai dati.
Fornire una interpretazione dei parametri della retta di regressione.
Soluzione
I parametri della retta di regressione sono \(\beta_{0}\) e \(\beta_{1}\). Il primo, \(\beta_{0},\) rappresenta l’intercetta della retta, ovvero il punto in cui la retta interseca l’asse delle ordinate. Il secondo parametro, \(\beta_{1}\), rappresenta la pendenza della retta (chiamato anche coefficiente angolare), ovvero l’incremento verticale corrispondente a un incremento orizzontale unitario e coincide, perciò, con la tangente dell’angolo compreso fra la retta e l’asse delle ascisse.
In questo caso, la variazione percentuale della pressione sistolica, secondo il modello stimato, è dato da \[Y= 4.2673 + 1.3733 X\]
ossia, è composto da un quantitativo fisso di \(4.2673\) di tasso di natalità delle minorenni in un ipotetico stato a povertà zero (\(x=0\)), a cui si aggiunge un incremento di \(1.3733\) per ogni incremento unitario del tasso di povertà .
Determinare il residuo per lo stato del Colorado \(i=6\) uguale 6, ossia per \(x=6\).
\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 4.267 + 1.3733 \times 8.8 = 16.35 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 26.2 - 16.35 = 9.848 \end{eqnarray*}\]
Verificare al livello di significatività dell’1% (\(\alpha=0.05\)) l’ipotesi che l’intercetta della retta di regressione sia uguale a zero contro l’alternativa che sia diversa da zero.
Soluzione \[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1- 0.5333 )\times 63.43 \\ &=& 29.6 \\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{ 51 } { 51 -2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{ 51 } { 51 -2} \times 29.6 = 30.81 \end{eqnarray*}\]
E quindi\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 30.81 \times\left( \frac{1} { 51 } + \frac{ 13.12 ^{2}} { 51 \times 17.94 } \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{ 6.4 }\\ &=& 2.53 \end{eqnarray*}\] \(\fbox{A}\) FORMULAZIONE DELLE IPOTESI
\[\begin{cases} H_0: \beta_0 = \beta_{0;H_0}=0 \\ H_1: \beta_0 \neq \beta_{0;H_0}=0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{ 0 } - \beta_{ 0 ;H_0}} {\widehat{SE(\hat\beta_{ 0 })}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ ( 4.267 - 0 )} { 2.53 } = 1.687 \, . \end{eqnarray*}\]
\(\fbox{C}\) CONCLUSIONE
La siginficatitività è \(\alpha=0.05\), dalle tavole osserviamo \(t_{51-2;0.025}=2.0096\).
Essendo \(|t_\text{obs}|=1.6869<t_{51-2;0.025}=2.0096\) allora non rifiuto \(H_0\) al 5%.
Il \(p_{\text{value}}\) è
\[ p_{\text{value}} = P(|T_{51-2}|>|1.69|)=2P(T_{51-2}>1.69)=0.097989 \]
Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0.05 < p_\text{value}= 0.097989 \leq 0.1 \]
Verificare al livello di significatività del 5% (\(\alpha=0.01\)) l’ipotesi che la pendenza della retta di regressione sia uguale a 0 contro l’alternativa che sia diversa da 0.
Soluzione
\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1- 0.5333 )\times 63.43 \\ &=& 29.6 \\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{ 51 } { 51 -2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{ 51 } { 51 -2} \times 29.6 = 30.81 \end{eqnarray*}\]
E quindi\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{ 30.81 } { 51 \times 17.94 } = 0.0337 \\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{ 0.0337 }\\ &=& 0.1836 \end{eqnarray*}\]
\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI
\[\begin{cases} H_0: \beta_1 = \beta_{1;H_0}=0 \\ H_1: \beta_1 > \beta_{1;H_0}=0 \end{cases}\]
\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.
\[\begin{eqnarray*} \frac{\hat\beta_{ 1 } - \beta_{ 1 ;H_0}} {\widehat{SE(\hat\beta_{ 1 })}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ ( 1.373 - 0 )} { 0.1836 } = 7.481 \, . \end{eqnarray*}\]
\(\fbox{C}\) CONCLUSIONE
La siginficatitività è \(\alpha=0.01\), dalle tavole osserviamo \(t_{51-2;0.01}=2.4049\).
Essendo \(t_\text{obs}=7.4808>t_{51-2;0.01}=2.4049\) allora rifiuto \(H_0\) al 1%.
Il \(p_{\text{value}}\) è
\[ p_{\text{value}} = P(T_{51-2}>7.48)=6e-10 \]
Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0 < p_\text{value}= 6e-10 \leq 0.001 \]
Un software professionale restituisce un output del genere
modello <- lm(formula = birth_rate ~ poverty_rate,data = data_poverty)
print(modello)
##
## Call:
## lm(formula = birth_rate ~ poverty_rate, data = data_poverty)
##
## Coefficients:
## (Intercept) poverty_rate
## 4.27 1.37
summary(modello)
##
## Call:
## lm(formula = birth_rate ~ poverty_rate, data = data_poverty)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.227 -3.655 -0.041 2.497 10.515
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.267 2.530 1.69 0.098 .
## poverty_rate 1.373 0.184 7.48 0.0000000012 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.55 on 49 degrees of freedom
## Multiple R-squared: 0.533, Adjusted R-squared: 0.524
## F-statistic: 56 on 1 and 49 DF, p-value: 0.00000000119
plot(modello)