Prova di Statistica A

Esercizio 1

Su un campione di \(200\) aziende con più di 50 addetti dell’Emilia-Romagna è stato rilevato l’investimento effettuato negli ultimi 5 anni in intelligenza artificiale (espresso in milioni di euro). Di seguito è riportata la distribuzione delle frequenze percentuali:

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0 1 65
1 3 25
3 5 5
5 10 5
100

1.a (pt 3.9/31→13/103) Disegnare l’istogramma di densità percentuale.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\)
0 1 130 0.65 1 65.0
1 3 50 0.25 2 12.5
3 5 10 0.05 2 2.5
5 10 10 0.05 5 1.0
200 1.00 10

1.b (pt 1.2/31→4/103) Qual è il numero di aziende che hanno investito tra il 25-esimo e il 75-esimo percentile?

Per definizione \(\%(x_{0.25}<X<x_{0.75})=50\%\) e \(\#(x_{0.25}<X<x_{0.75})\approx0.5\times200 =100\)

1.c (pt 0.6/31→2/103) Che relazione dobbiamo aspettarci tra media, mediana e moda?

1.d (pt 0.6/31→2/103) Siano \(x_1,...,x_{10}\), \(n=10\) numeri tali che \[ \sum_{i=1}^{10} x_i = 15 \] Posto \[ g(x)=\sum_{i=1}^{10}(x_i-x)^2 \] calcolare il valore di \(x\) che minimizza \(g\).

Esercizio 2

Un processo viene svolto da due agenti AI, \(A\) e \(B\). L’agente \(A\) commette un numero di allucinazioni che è distribuito secondo una Poisson di parametro 0.05, \(X_A \sim \text{Pois}(0.05)\), mentre per l’agente \(B\) il numero di allucinazioni è distribuito secondo una Poisson di parametro 0.03, \(X_B \sim \text{Pois}(0.03)\), \(X_A\) e \(X_B\) indipendenti. Il processo finale viene considerato inconsistente se gli agenti hanno commesso almeno una allucinazione (\(X_A+X_B\ge 1\)).

2.a (pt 3.9/31→13/103) Calcolare la probabilità che il processo sia inconsistente (\(X_A + X_B\ge 1\)).

\[ X_A + X_B \sim \text{Pois}(0.05+0.03) \] \[\begin{eqnarray*} P( X_A+X_B \geq 1 ) &=& 1-P( X_A+X_B < 1 ) \\ &=& 1-\left( \frac{ 0.08 ^{ 0 }}{ 0 !}e^{- 0.08 } \right)\\ &=& 1-( 0.9231 )\\ &=& 1- 0.9231 \\ &=& 0.0769 \end{eqnarray*}\]

2.b (pt 1.2/31→4/103) Si considerino \(n=5\) ripetizioni indipendenti del processo. Per ogni ripetizione \(i\), sia \(X_i=X_A+X_B\) il numero totale di allucinazioni commesse dai due agenti nel processo \(i\).

Calcolare la probabilità che almeno uno dei 5 processi risulti inconsistente, cioè che in almeno una ripetizione si abbia \(X_i\ge 1\). (Suggerimento: l’evento complementare di “almeno uno dei 5 processi è inconsistente” è “nessuno dei 5 processi è inconsistente”)

\[\begin{eqnarray*} P(X_A + X_B \ge 1) &=& 1 - P(X_A + X_B = 0) \\ &=& 0.0769\\ P(\text{almeno una volta}) &=& 1-P(\text{nessuna volta})\\ &=& 1-(1-0.0769)^5\\ &=& 0.3297 \end{eqnarray*}\]

2.c (pt 0.6/31→2/103) Sia \(Z\sim N(0,1)\) e \(Y\sim \text{Binom}(5,0.4)\), \(Z\) e \(Y\) indipendenti. Calcolare \(E(Z-Y)\) e \(V(Z-Y)\).

essendo

\[\begin{align} E(Z) &= 0; & \qquad V(Z) & = 1\\ E(Y) &=5\times 0.4 = 2; & \qquad V(Y) & = 5\times 0.4\times(1-0.4)=1.2\\ \end{align}\]

e quindi

\[\begin{eqnarray*} E(Z-Y) &=& 0-2\\ V(Z-Y) &=& 1+1.2\\ \end{eqnarray*}\]

2.d (pt 0.6/31→2/103) Siano \(A\ne\emptyset\) e \(B\ne\emptyset\), tali che \(A\cap B = \emptyset\), \(A\) e \(B\) possono essere indipendenti? Perché?

Esercizio 3

3.a (pt 3.9/31→13/103) Un’urna contiene 1 pallina numerata con \(\fbox{0}\), 3 numerate con \(\fbox{1}\) e 1 numerata con \(\fbox{2}\). Si vince se esce \(\fbox{1}\) oppure \(\fbox{2}\) e si perde altrimenti. Si estrae 80 volte con reinserimento. Qual è la probabilità che la proporzione di vincite sia maggiore di 0.75?

Teorema del Limite Centrale (proporzione)

Siano \(X_1\),…,\(X_n\), \(n=80\) VC IID, tc \(X_i\sim\text{Ber}(\pi=0.8)\)\(,\forall i\), posto: \[ \hat\pi=\frac{S_n}n = \frac{X_1 + ... + X_n}n \] allora:\[\begin{eqnarray*} \hat\pi & \mathop{\sim}\limits_{a}& N(\pi,\pi(1-\pi)/n) \\ &\sim & N\left(0.8,\frac{0.8\cdot(1-0.8)}{80}\right) \\ &\sim & N(0.8,0.002) \end{eqnarray*}\]\[\begin{eqnarray*} P( \hat\pi > 0.75 ) &=& P\left( \frac { \hat\pi - \pi }{ \sqrt{\pi(1-\pi)/n} } > \frac { 0.75 - 0.8 }{\sqrt{ 0.002 }} \right) \\ &=& P\left( Z > -1.12 \right) \\ &=& 1-P(Z< -1.12 )\\ &=& 1-(1-\Phi( 1.12 )) \\ &=& 0.8686 \end{eqnarray*}\]

Esercizio 4

4.a (pt 0.9/31→3/103) Siano \(\hat\beta_0\), \(\hat\beta_1\) e \(\hat\sigma_\varepsilon\) gli stimatori di massima verosimiglianza di, \(\beta_0\), \(\beta_1\) e \(\sigma_\varepsilon\), del modello di regressione lineare semplice \[ y_i = \beta_0 + \beta_1 x_i +\varepsilon_i, ~\varepsilon_i\sim N(0,\sigma^2_\varepsilon),\forall i=1,...,n \] Dimostrare la consistenza di \(\hat\beta_0\).

Sappiamo che \(\hat\beta_0\) è stimatore corretto di \(\beta_0\) (teroema di Gauss-Markov): \[ E(\hat\beta_0)=\beta_0 \] Quindi, essendo corretto \[\begin{eqnarray} MSE(\hat\beta_0) &=& V(\hat\beta_0)\\ &=&\sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\qquad\text{dal formulario} \end{eqnarray}\] Siccome \[ \lim_{n\to\infty}\sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)=0 \] allora \(\hat\beta_0\) è stimatore consistente di \(\beta_0\).

4.b (pt 0.9/31→3/103) Siano \(\hat\theta_1\) e \(\hat\theta_2\) due stimatori corretti per \(\theta\), cosa significa dire che \(\hat\theta_1\) è più efficiente di \(\hat\theta_2\)?

4.c (pt 0.9/31→3/103) Definire gli errori di primo e secondo tipo di un test statistico e le relative probabilità.

Si definiscono

  • L’errore di primo tipo è l’errore che si commette scegliendo \(H_1\) quando è vera \(H_0\).
  • L’errore di secondo tipo è l’errore che si commette scegliendo \(H_0\) quando è vera \(H_1\).
Decisione
decido \(H_0\) decido \(H_1\)
stato di natura \(H_0\) \(1-\alpha\) \(\alpha\)
stato di natura \(H_1\) \(\beta\) \(1-\beta\)

\[\alpha=P(\text{Errore I tipo})=P(\text{Decidere $H_1$};H_0)\]

\[\beta=P(\text{Errore II tipo})=P(\text{Decidere $H_0$};H_1)\]

  • \(\alpha\) è il livello di significatività del test, \(\alpha\) è la probabilità di scegliere \(H_1\) quando invece è vera \(H_0\).
  • \(\beta\) è la probabilità di scegliere \(H_0\) quando invece è vera \(H_1\).

4.d (pt 0.9/31→3/103) In un sondaggio su 160 persone è stato chiesto il livello di utilizzo di strumenti di Intelligenza Artificiale (Basso, Medio, Alto) e l’opinione sul loro impatto nel mondo del lavoro (Favorevole, Contrario).

Livello di utilizzo
Basso Medio Alto
Opinione
Favorevole 30 10 35
Contrario 20 40 25

Eseguito il test del \(\chi^2\) per verificare l’indipendenza tra il livello di utilizzo degli strumenti di AI e l’opinione sul loro impatto nel mondo del lavoro, si ottiene un \(p_\text{value}=0.00002588\). Possiamo concludere che il livello di utilizzo e l’opinione sul loro impatto nel mondo del lavoro sono indipendenti? Perché?

Essendo \(p_\text{value}=0.00002588<0.001\) il test è estremamente significativo, si rifiuta l’indipendenza tra il livello di utilizzo e l’opinione sull’impatto ad un livello di significatività inferiore all’1 per mille.

Esercizio 5

In uno studio su \(n=50\) municipalità dell’Unione Europea, sono stati analizzati il tasso di disoccupazione giovanile (in percentuale, \(X\)) e la disponibilità di aree verdi urbane (in metri quadrati per abitante, \(Y\)).

Si sono osservate le seguenti statistiche: \[\begin{align*} \sum_{i=1}^n x_i &= 498, &\sum_{i=1}^n x_i^2 &= 5025.18 & \\ \sum_{i=1}^n y_i &= 1289.27, &\sum_{i=1}^n y_i^2 &= 36923.54 &\sum_{i=1}^n x_iy_i &= 12393.43. \end{align*}\]

5.a (pt 3.9/31→13/103) Per la regione \(R\) si è osservato \(x_R=10.6\) e \(y_R=24.48\), stimare il modello di regressione dove \(Y\) viene spiegata da \(X\) e calcolare il residuo per la regione \(R\).

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{ 50 } 498 = 9.96 \\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{ 50 } 1289.27 = 25.79 \\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{ 50 } 5025 - 9.96 ^2= 1.302 \\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{ 50 } 36924 - 25.7854 ^2= 73.58 \\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{ 50 } 12393 - 9.96 \cdot 25.7854 = -8.954 \\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{ -8.954 }{ 1.302 } = -6.877 \\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 25.79 - (-6.8771) \times 9.96 = 94.28 \end{eqnarray*}\]\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 94.28 + (-6.8771) \times 10.6 = 21.38 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 24.48 - 21.3841 = 3.098 \end{eqnarray*}\]

5.b (pt 1.2/31→4/103) Determinare la percentuale di varianza spiegata dal modello.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ -8.954 }{ 1.141 \times 8.578 }= -0.9148 \\ r^2&=& 0.8368 > 0.75 \end{eqnarray*}\]

Il modello si adatta bene ai dati.

Il modello spiega il \(83.68\%\) della variabilità totale della \(Y\).

5.c (pt 3.9/31→13/103) Testare l’ipotesi che \(\beta_1 = -5\) contro l’alternativa che sia diverso, per \(\alpha=0.1,0.05,0.01,0.001\) e dare una valutazione approssimativa del \(p_\text{value}\) (ad esempio il \(p_\text{value}\) è minore di 0.001, compreso tra 0.05 e tra 0.01, ecc.).

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \beta_1 = \beta_{1;H_0}=-5.5 \\ H_1: \beta_1 \neq \beta_{1;H_0}=-5.5 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1- 0.8369 )\times 73.58 \\ &=& 12.01 \\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{ 50 } { 50 -2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{ 50 } { 50 -2} \times 12.01 = 12.51 \end{eqnarray*}\]

E quindi\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{ 12.51 } { 50 \times 1.302 } = 0.1921 \\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{ 0.1921 }\\ &=& 0.4383 \end{eqnarray*}\]

\[\begin{eqnarray*} \frac{\hat\beta_{ 1 } - \beta_{ 1 ;H_0}} {\widehat{SE(\hat\beta_{ 1 })}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ ( -6.877 - -5.5 )} { 0.4383 } = -3.142 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\alpha=0.1, 0.05, 0.01, 0.001\) e quindi \(\alpha/2=0.05, 0.025, 0.005, 0.0005\)

I valori critici sono

\(t_{50-2;0.05}=1.6772\); \(t_{50-2;0.025}=2.0106\); \(t_{50-2;0.005}=2.6822\); \(t_{50-2;0.0005}=3.5051\)

Siccome \(2.6822<|t_\text{obs}|=3.1416<3.5051\), quindi rifiuto \(H_0\) all’1%,

\(0.001<p_\text{value}<0.01\), molto significativo \(\fbox{**}\).

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(|T_{50-2}|>|-3.14|)=2P(T_{50-2}>3.14)=0.002877 \]

Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0.001 < p_\text{value}= 0.002877 \leq 0.01 \]

5.d (pt 0.6/31→2/103) Perché, nel modello stimato al punto 5a, una previsione per \(x=10\) è più precisa di una previsione per \(x=100\)?

5.e (pt 0.6/31→2/103) Se in un modello di regressione lineare \(\hat\beta_1 =0\) quanto vale \(r\)?

5.f (pt 0.6/31→2/103) In un modello di regressione lineare, cosa comporta \(r=-1\)?

Prova di Statistica B

Esercizio 1

Su un campione di \(150\) aziende con più di 50 addetti dell’Emilia-Romagna è stato rilevato l’investimento effettuato negli ultimi 5 anni in intelligenza artificiale (espresso in milioni di euro). Di seguito è riportata la distribuzione delle densità percentuali:

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(h_j\)
0 1 30.0
1 2 40.0
2 6 5.0
6 10 2.5

1.a (pt 3.9/31→13/103) Calcolare il valore approssimativo della mediana.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\)
0 1 45 0.3 1 30.0
1 2 60 0.4 1 40.0
2 6 30 0.2 4 5.0
6 10 15 0.1 4 2.5
150 1.0 10

\[\begin{eqnarray*} p &=& 0.5 , \text{essendo }F_{ 2 }= 0.7 > 0.5 \Rightarrow j_{ 0.5 }= 2 \\ x_{ 0.5 } &=& x_{\text{inf}; 2 } + \frac{ { 0.5 } - F_{ 1 }} {f_{ 2 }} \cdot b_{ 2 } \\ &=& 1 + \frac {{ 0.5 } - 0.3 } { 0.4 } \cdot 1 \\ &=& 1.5 \end{eqnarray*}\]

1.b (pt 1.2/31→4/103) Qual è il numero approssimativo di aziende che hanno investito più di 3 milioni di euro?

\[\begin{eqnarray*} \%(X> 3 ) &=& ( 6 - 3 )\times h_{ 3 }+ f_{ 4 }\times 100 \\ &=& ( 3 )\times 5 + ( 0.1 )\times 100 \\ &=& 0.25 \times(100)\\ \#(X> 3 ) &\approx& 38 \end{eqnarray*}\]

1.c (pt 0.6/31→2/103) Sapendo che le media è pari a \(2.4\) e considerata la mediana calcolata al punto 1.a, che forma avrà l’istogramma di densità?

1.d (pt 0.6/31→2/103) L’investimento medio è pari a \(\bar x=2.4\), mentre la varianza è pari a \(\sigma^2=5.1\). Se ogni impresa aumentasse il proprio investimento di un milione di euro, quanto varrebbero la media e la varianza dei dati così trasformati?

\[ \bar y= 3.4 ~~~~~~~~ \sigma^2_Y= 5.1 \]

Esercizio 2

Un processo viene svolto da due agenti AI in sequenza, prima \(A\) e poi \(B\). Il tempo impiegato dall’agente \(A\), misurato in secondi, è distribuito secondo una Normale con media 8 e varianza 1, \(X_A \sim N(8,1)\), mentre il tempo impiegato dall’agente \(B\) è distribuito secondo una Normale con media 10 e varianza 3, \(X_B \sim N(10,3)\), con \(X_A\) e \(X_B\) indipendenti. Il processo finale viene considerato troppo lento se il tempo complessivo supera 22 secondi.

2.a (pt 3.9/31→13/103) Calcolare la probabilità che il processo sia troppo lento (\(P(X_A+X_B>22)\)).

\[ X=X_A + X_B \sim N(8+10,1+3) \] \[\begin{eqnarray*} P( X > 22 ) &=& P\left( \frac { X - \mu }{ \sigma } > \frac { 22 - 18 }{\sqrt{ 4 }} \right) \\ &=& P\left( Z > 2 \right) \\ &=& 1-P(Z< 2 )\\ &=& 1-\Phi( 2 ) \\ &=& 0.0228 \end{eqnarray*}\]

2.b (pt 1.2/31→4/103) Calcolare \(P(X_A + X_B\le 23|X_A + X_B> 22)\).

\[ X=X_A + X_B \sim N(8+10,1+3) \]

\[\begin{eqnarray*} P(X\le 23|X> 22) &=& \frac{P(X\le 23\cap X> 22)}{P(X> 22)}\\ &=& \frac{P(22<X\le 23)}{P(X> 22)}\\ &=& \frac{0.9938-0.9772}{0.0228}\\ &=& 0.727 \end{eqnarray*}\]

2.c (pt 0.6/31→2/103) Siano \(X_1\sim \text{Ber}(0.5)\), \(X_2\sim \text{Ber}(0.5)\) e \(X_3\sim \text{Ber}(0.5)\), 3 Bernoulli indipendenti. Come si distribuisce \(X=X_1+X_2+X_3\)?

\[ X_1+X_2+X_3 \sim \text{Binom}(3,0.5) \]

2.d (pt 0.6/31→2/103) Siano \(A\) e \(B\) due eventi, tali che \(P(B|A)=0.5\), \(P(B|\bar A)=0.4\) e \(P(A)=0.3\), calcolare \(P(B)\).

\[\begin{eqnarray*} P(B) &=& P(B|A)P(A)+P(B|bar A)P(\bar A)\\ &=& 0.5\times 0.3+ 0.4\times(1-0.3)\\ &=& 0.43 \end{eqnarray*}\]

Esercizio 3

3.a (pt 3.9/31→13/103) Un’urna contiene 1 pallina numerata con \(\fbox{0}\), 3 numerate con \(\fbox{1}\) e 1 numerata con \(\fbox{2}\). Si vince se esce \(\fbox{1}\) oppure \(\fbox{2}\) e si perde altrimenti. Si estrae 80 volte con reinserimento. Qual è la probabilità di vincere meno di 60 volte?

Teorema del Limite Centrale (somma di Bernoulli)

Siano \(X_1\),…,\(X_n\), \(n=80\) VC IID, tc \(X_i\sim\text{Ber}(\pi=0.8)\)\(,\forall i\), posto: \[ S_n = X_1 + ... + X_n \] allora:\[\begin{eqnarray*} S_n & \mathop{\sim}\limits_{a}& N(n\pi,n\pi(1-\pi)) \\ &\sim & N(80\cdot0.8,80\cdot0.8\cdot(1-0.8)) \\ &\sim & N(64,12.8) \end{eqnarray*}\]\[\begin{eqnarray*} P( S_n < 60 ) &=& P\left( \frac { S_n - n\pi }{ \sqrt{n\pi(1-\pi)} } < \frac { 60 - 64 }{\sqrt{ 12.8 }} \right) \\ &=& P\left( Z < -1.12 \right) \\ &=& 1-\Phi( 1.12 ) \\ &=& 0.1314 \end{eqnarray*}\]

Esercizio 4

4.a (pt 0.9/31→3/103) Siano \(\hat\beta_0\), \(\hat\beta_1\) e \(\hat\sigma_\varepsilon\) gli stimatori di massima verosimiglianza di, \(\beta_0\), \(\beta_1\) e \(\sigma_\varepsilon\), del modello di regressione lineare semplice \[ y_i = \beta_0 + \beta_1 x_i +\varepsilon_i, ~\varepsilon_i\sim N(0,\sigma^2_\varepsilon),\forall i=1,...,n \] Dimostrare la consistenza di \(\hat\beta_1\).

Sappiamo che \(\hat\beta_1\) è stimatore corretto di \(\beta_1\) (teorema di Gauss-Markov): \[ E(\hat\beta_1)=\beta_1 \] Quindi, essendo corretto \[\begin{eqnarray} MSE(\hat\beta_1) &=& V(\hat\beta_1)\\ &=&\frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \qquad \text{dal formulario} \end{eqnarray}\] Siccome \[ \lim_{n\to\infty}\frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}}=0 \] allora \(\hat\beta_1\) è stimatore consistente di \(\beta_1\).

4.b (pt 0.9/31→3/103) Siano \(\hat\theta_1\) e \(\hat\theta_2\) due stimatori non corretti per \(\theta\), cosa significa dire che \(\hat\theta_1\) è più efficiente di \(\hat\theta_2\)?

4.c (pt 0.9/31→3/103) Si consideri il seguente sistema d’ipotesi: \[ \begin{cases} H_0:\theta=\theta_0\\ H_1:\theta>\theta_0 \end{cases} \]

Posta con \(T\) la VC statistica test e con \(t_\text{obs}\) il valore osservato della statistica test, definire il \(p_\text{value}\) del test.

Il \(p_\text{value}\) è la probabilità, se fosse vera \(H_0\) di avere un campione ancora più favorevole ad \(H_1\) di quello che abbiamo osservato, in altre parole ci dice quanto è raro il campione sotto ipotesi \(H_0\). In simboli, nel caso di un test unilaterale destro \[ p_\text{value} = P(T>t_\text{obs}) \]

4.d (pt 0.9/31→3/103) In un sondaggio su 273 lavoratori è stato chiesto il livello di formazione ricevuta sull’uso degli strumenti di Intelligenza Artificiale (Basso, Medio, Alto) e la valutazione della propria preparazione rispetto ai cambiamenti tecnologici nel lavoro (Adeguata, Insufficiente).

Livello di formazione
Basso Medio Alto
Preparazione
Adeguata 18 32 45
Insufficiente 40 40 98

Eseguito il test del \(\chi^2\) per verificare l’indipendenza tra il livello di formazione sugli strumenti di AI e la valutazione della preparazione rispetto ai cambiamenti tecnologici, si ottiene un \(p_\text{value}=0.1344\). Possiamo concludere che il livello di formazione ricevuta e la propria valutazione rispetto alla propria preparazione sono indipendenti? Perché?

Essendo \(p_\text{value}=0.1344>0.1\) il test non è significativo, non si rifiuta l’indipendenza tra il livello di utilizzo e l’opinione sull’impatto per nessun livello di significatività.

Esercizio 5

In uno studio su \(n=50\) municipalità dell’Unione Europea, sono stati analizzati il tasso di disoccupazione giovanile (in percentuale, \(X\)) e il numero di posti a sedere in teatro e cinema per abitante (\(Y\)).

Si sono osservate le seguenti statistiche: \[\begin{align*} \sum_{i=1}^n x_i &= 500.4, &\sum_{i=1}^n x_i^2 &= 5047.02 & \\ \sum_{i=1}^n y_i &= 114.68, &\sum_{i=1}^n y_i^2 &= 263.79 &\sum_{i=1}^n x_iy_i &= 1151.3. \end{align*}\]

5.a (pt 3.9/31→13/103) Per la regione \(R\) si è osservato \(x_R=10.5\) e \(y_R=2.19\), stimare il modello di regressione dove \(Y\) viene spiegata da \(X\) e calcolare il residuo per la regione \(R\).

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{ 50 } 500.4 = 10.01 \\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{ 50 } 114.68 = 2.294 \\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{ 50 } 5047 - 10.008 ^2= 0.7803 \\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{ 50 } 263.8 - 2.2936 ^2= 0.0152 \\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{ 50 } 1151 - 10.008 \cdot 2.2936 = 0.07166 \\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{ 0.07166 }{ 0.7803 } = 0.09183 \\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 2.294 - 0.0918 \times 10.008 = 1.375 \end{eqnarray*}\]\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 1.375 + 0.0918 \times 10.5 = 2.339 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 2.192 - 2.3388 = -0.1471 \end{eqnarray*}\]

5.b (pt 1.2/31→4/103) Determinare la percentuale di varianza spiegata dal modello.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 0.07166 }{ 0.8834 \times 0.1233 }= 0.658 \\ r^2&=& 0.4329 < 0.75 \end{eqnarray*}\]

Il modello non si adatta bene ai dati.

Il modello spiega il \(43.29\%\) della variabilità totale della \(Y\).

5.c (pt 3.9/31→13/103) Testare l’ipotesi che \(\beta_0 = 1\) contro l’alternativa che sia maggiore, per \(\alpha=0.1,0.05,0.01,0.001\) e dare una valutazione approssimativa del \(p_\text{value}\) (ad esempio il \(p_\text{value}\) è minore di 0.001, compreso tra 0.05 e tra 0.01, ecc.).

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \beta_0 = \beta_{0;H_0}=1 \\ H_1: \beta_0 \neq \beta_{0;H_0}=1 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1- 0.433 )\times 0.0152 \\ &=& 0.0086 \\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{ 50 } { 50 -2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{ 50 } { 50 -2} \times 0.0086 = 0.009 \end{eqnarray*}\]

E quindi\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 0.009 \times\left( \frac{1} { 50 } + \frac{ 10.01 ^{2}} { 50 \times 0.7803 } \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{ 0.0232 }\\ &=& 0.1523 \end{eqnarray*}\]
\[\begin{eqnarray*} \frac{\hat\beta_{ 0 } - \beta_{ 0 ;H_0}} {\widehat{SE(\hat\beta_{ 0 })}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ ( 1.375 - 1 )} { 0.1524 } = 2.458 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\alpha=0.1, 0.05, 0.01, 0.001\) e quindi \(\alpha/2=0.05, 0.025, 0.005, 0.0005\)

I valori critici sono

\(t_{50-2;0.05}=1.6772\); \(t_{50-2;0.025}=2.0106\); \(t_{50-2;0.005}=2.6822\); \(t_{50-2;0.0005}=3.5051\)

Siccome \(2.0106<|t_\text{obs}|=2.4579<2.6822\), quindi rifiuto \(H_0\) al 5%,

\(0.01<p_\text{value}<0.05\), significativo \(\fbox{*}\).

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(|T_{50-2}|>|2.46|)=2P(T_{50-2}>2.46)=0.017637 \]

Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0.01 < p_\text{value}= 0.017637 \leq 0.05 \]

5.d (pt 0.6/31→2/103) Che differenza c’è tra interpolazione ed estrapolazione?

5.e (pt 0.6/31→2/103) Se in un modello di regressione \(\hat\beta_1 <0\) che segno avrà \(r\)?

5.f (pt 0.6/31→2/103) Cosa significa dire che \(r^2\) è invariante ai cambiamenti di scala?

Significa che se \(V=a+bY\) e \(W=c+dX\) allora \(r^2_{VW}=r^2_{XY}\).

Prova di Statistica C

Esercizio 1

Su un campione di \(200\) aziende con più di 50 addetti dell’Emilia-Romagna è stato rilevato l’investimento effettuato negli ultimi 5 anni in intelligenza artificiale (espresso in milioni di euro). Di seguito è riportata la distribuzione delle frequenze cumulate:

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(F_j\)
0 2 0.10
2 3 0.50
3 7 0.95
7 15 1.00

1.a (pt 3.9/31→13/103) Individuare la classe modale.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\)
0 2 20 0.10 2 5.00
2 3 80 0.40 1 40.00
3 7 90 0.45 4 11.25
7 15 10 0.05 8 0.62
200 1.00 15

1.b (pt 1.2/31→4/103) Qual è il numero approssimativo di aziende che hanno investito tra il 15-esimo e il 25-esimo percentile?

Per definizione \(\%(x_{0.15}<X<x_{0.25})=10\%\) e \(\#(x_{0.15}<X<x_{0.25})\approx0.1\times200 =20\)

1.c (pt 0.6/31→2/103) Sapendo che le media è pari a \(3.9\) e considerata la mediana calcolata al punto 1.a, che forma avrà l’istogramma di densità?

1.d (pt 0.6/31→2/103) L’investimento medio è pari a \(\bar x=3.9\), mentre la SD è pari a \(\sigma=2.2\). Se ogni impresa aumentasse il proprio investimento del 10%, quanto varrebbero la media e la SD dei dati così trasformati?

\[ \bar y= 4.29 ~~~~~~~~ \sigma_Y= 2.42 \]

Esercizio 2

Un processo è svolto da \(n=5\) agenti AI, ogni agente commette un’allucinazione con probabilità \(\pi=0.25\). Sia \(X_i\) la VC che vale 1 se l’agente \(i\) ha commesso un’allucinazione e vale 0 altrimenti: \[ P(X_i = 1) = 0.25, \qquad i =1,...,5 \] e sia \[ X=X_1+...+X_5 \] la VC che conta il numero di allucinazioni su 5 agenti.

2.a (pt 3.9/31→13/103) Calcolare la probabilità che il processo abbia al massimo un’allucinazione (\(P(X\le 1)\)).

\[ X=X_1 + ... + X_5 \sim \operatorname{Binom}(5;0.25) \] \[\begin{eqnarray*} P( X \leq 1 ) &=& \binom{ 5 }{ 0 } 0.25 ^{ 0 }(1- 0.25 )^{ 5 - 0 }+\binom{ 5 }{ 1 } 0.25 ^{ 1 }(1- 0.25 )^{ 5 - 1 } \\ &=& 0.2373+0.3955 \\ &=& 0.6328 \end{eqnarray*}\]

2.b (pt 1.2/31→4/103) Calcolare \(P(X\le 1|X\le 2)\).

\[ X=X_1 + ... + X_5 \sim \operatorname{Binom}(5;0.25) \]

\[\begin{eqnarray*} P(X\le 1|X\le 2) &=& \frac{P(X\le 1\cap X\le 2)}{P(X\le 2)}\\ &=& \frac{P(X\le 1)}{P(X\le 2)}\\ &=& \frac{0.6328}{0.8965}\\ &=& 0.7059 \end{eqnarray*}\]

2.c (pt 0.6/31→2/103) Siano \(Z\sim N(0,1)\), \(X\sim \chi^2_2\) e \(Y\sim \chi^2_5\), \(X\), \(Y\) e \(Z\) indipendenti. Come si distribuisce \[ \frac{Z}{X+Y}\sim~~? \]

\[ X+Y \sim \chi^2_{2+5} \] e quindi \[ \frac{Z}{X+Y}\sim t_7 \]

2.d (pt 0.6/31→2/103) Siano \(A\) e \(B\) due eventi tali che \(P(B)=0.5\) e \(P(A)=0.6\), \(A\) e \(B\) possono essere incompatibili? Perché?

No, perché se lo fossero avremmo che \(P(A\cap B)=0\) e di conseguenza \[ P(A\cup B)= P(A)+P(B)=0.5+0.6> 1 \] che è impossibile.

Esercizio 3

3.a (pt 3.9/31→13/103) Un’urna contiene 1 pallina numerata con \(\fbox{0}\), 3 numerate con \(\fbox{1}\) e 1 numerata con \(\fbox{2}\). Si estrae 80 volte con reinserimento. Qual è la probabilità che la somma delle 80 palline sia inferiore a 75?

\[\begin{eqnarray*} \mu &=& \frac 1{ 5 }( 0 + 1 + 1 + 1 + 2 )= 1 \\ \sigma^2 &=& \frac 1{ 5 }( 0 ^2+ 1 ^2+ 1 ^2+ 1 ^2+ 2 ^2 )-( 1 )^2= 0.4 \end{eqnarray*}\] Teorema del Limite Centrale (somma VC qualunque)

Siano \(X_1\),…,\(X_n\), \(n=80\) VC IID, tc \(E(X_i)=\mu=1\) e \(V(X_i)=\sigma^2=0.4,\forall i\), posto: \[ S_n = X_1 + ... + X_n \] allora:\[\begin{eqnarray*} S_n & \mathop{\sim}\limits_{a}& N(n\mu,n\sigma^2) \\ &\sim & N(80\cdot1,80\cdot0.4) \\ &\sim & N(80,32) \end{eqnarray*}\]\[\begin{eqnarray*} P( S_n < 75 ) &=& P\left( \frac { S_n - n\mu }{ \sqrt{n\sigma^2} } < \frac { 75 - 80 }{\sqrt{ 32 }} \right) \\ &=& P\left( Z < -0.88 \right) \\ &=& 1-\Phi( 0.88 ) \\ &=& 0.1894 \end{eqnarray*}\]

Esercizio 4

4.a (pt 0.9/31→3/103) Siano \(\hat\beta_0\), \(\hat\beta_1\) e \(\hat\sigma_\varepsilon\) gli stimatori di massima verosimiglianza di, \(\beta_0\), \(\beta_1\) e \(\sigma_\varepsilon\), del modello di regressione lineare semplice \[ y_i = \beta_0 + \beta_1 x_i +\varepsilon_i, ~\varepsilon_i\sim N(0,\sigma^2_\varepsilon),\forall i=1,...,n \] Sapendo che: \[ V(\hat\sigma_\varepsilon)=\frac{2(n-2)}{n^2}\sigma_\varepsilon^4 \] Dimostrare la consistenza di \(\hat\sigma_\varepsilon^2\).

Sappiamo che \(\hat\sigma_\varepsilon^2\) non è stimatore corretto di \(\sigma_\varepsilon^2\) \[ E(\hat\sigma_\varepsilon^2)=\frac{n}{n-2} \sigma_\varepsilon^2 \] ma è corretto asintoticamente \[ \lim_{n\to \infty} E(\hat\sigma_\varepsilon^2)=\lim_{n\to \infty}\frac{n}{n-2} \sigma_\varepsilon^2=\sigma_\varepsilon^2 \] E quindi \[ \lim_{n\to \infty} B^2(\hat\sigma_\varepsilon^2)=\lim_{n\to \infty} (\hat\sigma_\varepsilon^2-\sigma_\varepsilon^2)^2 = 0 \] e siccome \[ \lim_{n\to \infty} V(\hat\sigma_\varepsilon^2)=\frac{2(n-2)}{n^2}\sigma_\varepsilon^4=0 \] allora \[\begin{eqnarray} \lim_{n\to \infty}MSE(\hat\sigma_\varepsilon^2) &=& \lim_{n\to \infty}V(\hat\sigma_\varepsilon^2)+B^2(\hat\sigma_\varepsilon^2)\\ &=& 0 + 0 = 0 \end{eqnarray}\] e quindi \(\hat\sigma_\varepsilon^2\) è stimatore consistente di \(\sigma_\varepsilon^2\).

4.b (pt 0.9/31→3/103) Sia \(\hat\theta\) lo stimatore di massima verosimiglianza per \(\theta\), indicare la sua distribuzione asintotica.

4.c (pt 0.9/31→3/103) Definire un intervallo di confidenza al 95% per un generico parametro \(\theta\).

4.d (pt 0.9/31→3/103) Una moneta, che non sappiamo se è perfetta oppure no, viene lanciata 100 volte. Abbiamo osservato 34 volte testa su 100 lanci. Posto \(\pi\) la probabilità che la moneta mostri testa, si è testato \[ \begin{cases} H_0:\pi=\frac 12\\ H_1:\pi\ne\frac 12 \end{cases} \] ed è risultato \(p_\text{value}=0.0014\). Possiamo concludere che la moneta sia truccata? Perché?

Esercizio 5

In un’indagine sulla penetrazione dell’intelligenza artificiale (IA) nel mondo del lavoro sono state indagate 75 aziende con oltre i 50 dipendenti della regione Lombardia. L’indagine ha mostrato che 45 aziende su 75 hanno integrato i loro processi produttivi con sistemi IA.

5.a (pt 0.9/31→3/103) Costruire un intervallo di confidenza al 95 % per la proporzione di aziende che in Lombardia integrano i loro processi con l’IA.

\(1-\alpha =0.95\) e quindi \(\alpha=0.05\rightarrow \alpha/2=0.025\)

\[ \hat\pi = \frac{S_n}n = \frac{ 45 }{ 75 }= 0.6 \]

\[\begin{eqnarray*} Idc: & & \hat\pi \pm z_{\alpha/2} \times \sqrt{\frac{\hat\pi(1-\hat\pi)}{n}} \\ & & 0.6 \pm 1.96 \times \sqrt{\frac{ 0.6 (1- 0.6 )}{ 75 }} \\ & & 0.6 \pm 1.96 \times 0.05657 \\ & & [ 0.4891 , 0.7109 ] \end{eqnarray*}\]

5.b (pt 3.0/31→10/103) Un’indagine analoga, condotta sul territorio nazionale, ha mostrato che la proporzione di aziende che integrano l’IA nei loro processi è pari 0.55. Testare l’ipotesi che la proporzione di aziende che usano le IA nella regione Lombardia sia uguale a quella del resto d’Italia contro l’alternativa che sia maggiore. Risolvere con il \(p_\text{value}\) e confrontarlo per \(\alpha = 0.1,\ 0.05,\ 0.01,\ 0.001\).

Test \(Z\) per una proporzione

La stima \[\hat\pi=\frac { 45 } { 75 }= 0.6 \]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \pi = \pi_0=0.55 \\ H_1: \pi > \pi_0=0.55 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(Z\) Test Binomiale per \(n\) grande: \(\Rightarrow\) z-Test.

\[\begin{eqnarray*} \frac{\hat\pi - \pi_{0}} {\sqrt {\pi_0(1-\pi_0)/\,n}}&\sim&N(0,1)\\ z_{\text{obs}} &=& \frac{ ( 0.6 - 0.55 )} {\sqrt{ 0.55 (1- 0.55 )/ 75 }} = 0.8704 \,. \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(Z>0.87)=0.192044 \]

\[ 0.1 < p_\text{value}= 0.192044 \leq 1 \]

Non rifiuto \(H_0\) a nessun livello di significatività,

\(p_\text{value}>0.1\), non significativo

Esercizio 6

In uno studio su \(n=50\) municipalità dell’Unione Europea, sono stati analizzati il numero di centraline per la ricarica delle auto elettriche per chilometro quadrato (X) e una misura della qualità dell’aria espressa in opportuna scala (Y).

Si sono osservate le seguenti statistiche: \[\begin{align*} \sum_{i=1}^n x_i &= 497.7, &\sum_{i=1}^n x_i^2 &= 5123.67 & \\ \sum_{i=1}^n y_i &= 113.92, &\sum_{i=1}^n y_i^2 &= 262.03 &\sum_{i=1}^n x_iy_i &= 1151.85. \end{align*}\]

6.a (pt 3.9/31→13/103) Per la regione \(R\) si è osservato \(x_R=10.1\) e \(y_R=2.24\), stimare il modello di regressione dove \(Y\) viene spiegata da \(X\) e calcolare il residuo per la regione \(R\).

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{ 50 } 497.7 = 9.954 \\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{ 50 } 113.92 = 2.278 \\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{ 50 } 5124 - 9.954 ^2= 3.391 \\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{ 50 } 262 - 2.2784 ^2= 0.04949 \\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{ 50 } 1152 - 9.954 \cdot 2.2784 = 0.3578 \\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{ 0.3578 }{ 3.391 } = 0.1055 \\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 2.278 - 0.1055 \times 9.954 = 1.228 \end{eqnarray*}\]\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 1.228 + 0.1055 \times 10.1 = 2.294 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 2.238 - 2.2938 = -0.05583 \end{eqnarray*}\]

6.b (pt 1.2/31→4/103) Determinare la percentuale di varianza spiegata dal modello.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 0.3578 }{ 1.842 \times 0.2225 }= 0.8733 \\ r^2&=& 0.7627 > 0.75 \end{eqnarray*}\]

Il modello si adatta bene ai dati.

Il modello spiega il \(76.27\%\) della variabilità totale della \(Y\).

6.c (pt 0.6/31→2/103) Definire gli outliers e i punti di leva.

6.d (pt 0.6/31→2/103) Se in un modello di regressione \(\hat\beta_1 >0\) che segno avrà \(r\)?

6.e (pt 0.6/31→2/103) Cosa significa quando \(r^2=0\)?

Prova di Statistica 1

Esercizio 1

Su un campione di \(200\) aziende con più di 50 addetti dell’Emilia-Romagna è stato rilevato l’investimento effettuato negli ultimi 5 anni in intelligenza artificiale (espresso in milioni di euro). Di seguito è riportata la distribuzione delle frequenze percentuali:

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0 1 65
1 3 25
3 5 5
5 10 5
100

1.a (pt 3.9/31→13/103) Disegnare l’istogramma di densità percentuale.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\)
0 1 130 0.65 1 65.0
1 3 50 0.25 2 12.5
3 5 10 0.05 2 2.5
5 10 10 0.05 5 1.0
200 1.00 10

1.b (pt 1.2/31→4/103) Qual è la percentuale di aziende che hanno investito tra il 20-esimo e il 75-esimo percentile?

Per definizione \(\%(x_{0.2}<X<x_{0.75})=55\%\) e \(\#(x_{0.2}<X<x_{0.75})\approx0.55\times200 =110\)

1.c (pt 0.6/31→2/103) Che relazione dobbiamo aspettarci tra media, mediana e moda?

1.d (pt 0.6/31→2/103) Siano \(x_1,...,x_{5}\), \(n=5\) numeri tali che \[ \sum_{i=1}^{5} x_i = 15 \] Posto \[ g(x)=\sum_{i=1}^{5}(x_i-x)^2 \] calcolare il valore di \(x\) che minimizza \(g\).

Esercizio 2

Un processo viene svolto da due agenti AI, \(A\) e \(B\). L’agente \(A\) commette un numero di allucinazioni che è distribuito secondo una Poisson di parametro 0.05, \(X_A \sim \text{Pois}(0.05)\), mentre per l’agente \(B\) il numero di allucinazioni è distribuito secondo una Poisson di parametro 0.03, \(X_B \sim \text{Pois}(0.03)\), \(X_A\) e \(X_B\) indipendenti. Il processo finale viene considerato inconsistente se entrambi gli agenti hanno commesso almeno una allucinazione (\(X_A\ge 1\cap X_B\ge 1\)).

2.a (pt 3.9/31→13/103) Calcolare la probabilità che il processo sia inconsistente \(P(X_A\ge 1\cap X_B\ge 1)\).

\[\begin{eqnarray*} P( X_A \geq 1 ) &=& 1-P( X_A < 1 ) \\ &=& 1-\left( \frac{ 0.05 ^{ 0 }}{ 0 !}e^{- 0.05 } \right)\\ &=& 1-( 0.9512 )\\ &=& 1- 0.9512 \\ &=& 0.0488 \end{eqnarray*}\] \[\begin{eqnarray*} P( X_B \geq 1 ) &=& 1-P( X_B < 1 ) \\ &=& 1-\left( \frac{ 0.03 ^{ 0 }}{ 0 !}e^{- 0.03 } \right)\\ &=& 1-( 0.9704 )\\ &=& 1- 0.9704 \\ &=& 0.0296 \end{eqnarray*}\] \[\begin{eqnarray} P(X_A\ge 1\cap X_B\ge 1) &=& P(X_A\ge 1)P( X_B\ge 1)\\ &=& 0.0488\cdot 0.0296\\ &=& 0.0014 \end{eqnarray}\]

2.b (pt 1.2/31→4/103) Si considerino \(n=5\) ripetizioni indipendenti del processo. Per ogni ripetizione \(i\), sia la VC che vale \(X_i=1\) se \(X_A\ge 1\cap X_B\ge 1\) è vera e vale zero altrimenti.

Calcolare la probabilità che almeno uno dei 5 processi risulti inconsistente, cioè che in almeno una ripetizione si abbia \(X_i = 1\). (Suggerimento: l’evento complementare di “almeno uno dei 5 processi è inconsistente” è “nessuno dei 5 processi è inconsistente”)

\[\begin{eqnarray*} P(X_A\ge 1\cap X_B\ge 1) &=& 0.0014\\ P(\text{almeno una volta}) &=& 1-P(\text{nessuna volta})\\ &=& 1-(1-0.0014)^5\\ &=& 0.0072 \end{eqnarray*}\]

2.c (pt 0.6/31→2/103) Sia \(Z\sim N(0,1)\) e \(Y\sim \text{Pois}(5.4)\), \(Z\) e \(Y\) indipendenti. Calcolare \(E(Z-Y)\) e \(V(Z-Y)\).

essendo

\[\begin{align} E(Z) &= 0; & \qquad V(Z) & = 1\\ E(Y) &=5.4 ; & \qquad V(Y) & = 5.4\\ \end{align}\]

e quindi

\[\begin{eqnarray*} E(Z-Y) &=& 0-5.4\\ V(Z-Y) &=& 1+5.4\\ \end{eqnarray*}\]

2.d (pt 0.6/31→2/103) Siano \(A\ne\emptyset\) e \(B\ne\emptyset\), tali che \(P(A|B)>0\), \(A\) e \(B\) possono essere incompatibili? Perché?

Esercizio 3

3.a (pt 3.9/31→13/103) Un’urna contiene 1 pallina numerata con \(\fbox{0}\), 3 numerate con \(\fbox{1}\) e 1 numerata con \(\fbox{2}\). Si vince se esce \(\fbox{1}\) oppure \(\fbox{2}\) e si perde altrimenti. Si estrae 80 volte con reinserimento. Qual è la probabilità che la proporzione di vincite sia maggiore di 0.75?

Teorema del Limite Centrale (proporzione)

Siano \(X_1\),…,\(X_n\), \(n=80\) VC IID, tc \(X_i\sim\text{Ber}(\pi=0.8)\)\(,\forall i\), posto: \[ \hat\pi=\frac{S_n}n = \frac{X_1 + ... + X_n}n \] allora:\[\begin{eqnarray*} \hat\pi & \mathop{\sim}\limits_{a}& N(\pi,\pi(1-\pi)/n) \\ &\sim & N\left(0.8,\frac{0.8\cdot(1-0.8)}{80}\right) \\ &\sim & N(0.8,0.002) \end{eqnarray*}\]\[\begin{eqnarray*} P( \hat\pi > 0.75 ) &=& P\left( \frac { \hat\pi - \pi }{ \sqrt{\pi(1-\pi)/n} } > \frac { 0.75 - 0.8 }{\sqrt{ 0.002 }} \right) \\ &=& P\left( Z > -1.12 \right) \\ &=& 1-P(Z< -1.12 )\\ &=& 1-(1-\Phi( 1.12 )) \\ &=& 0.8686 \end{eqnarray*}\]

Esercizio 4

4.a (pt 0.9/31→3/103) Siano \(\hat\beta_0\), \(\hat\beta_1\) e \(\hat\sigma_\varepsilon\) gli stimatori di massima verosimiglianza di, \(\beta_0\), \(\beta_1\) e \(\sigma_\varepsilon\), del modello di regressione lineare semplice \[ y_i = \beta_0 + \beta_1 x_i +\varepsilon_i, ~\varepsilon_i\sim N(0,\sigma^2_\varepsilon),\forall i=1,...,n \] Scrivere il \(MSE\) di \(\hat\beta_0\).

Sappiamo che \(\hat\beta_0\) è stimatore corretto di \(\beta_0\) (teroema di Gauss-Markov): \[ E(\hat\beta_0)=\beta_0 \] Quindi, essendo corretto \[\begin{eqnarray} MSE(\hat\beta_0) &=& V(\hat\beta_0)\\ &=&\sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\qquad\text{dal formulario} \end{eqnarray}\]

4.b (pt 0.9/31→3/103) Siano \(\hat\theta_1\) e \(\hat\theta_2\) due stimatori corretti per \(\theta\), cosa significa dire che \(\hat\theta_1\) è più efficiente di \(\hat\theta_2\)?

4.c (pt 0.9/31→3/103) Definire gli errori di primo e secondo tipo di un test statistico e le relative probabilità.

Si definiscono

  • L’errore di primo tipo è l’errore che si commette scegliendo \(H_1\) quando è vera \(H_0\).
  • L’errore di secondo tipo è l’errore che si commette scegliendo \(H_0\) quando è vera \(H_1\).
Decisione
decido \(H_0\) decido \(H_1\)
stato di natura \(H_0\) \(1-\alpha\) \(\alpha\)
stato di natura \(H_1\) \(\beta\) \(1-\beta\)

\[\alpha=P(\text{Errore I tipo})=P(\text{Decidere $H_1$};H_0)\]

\[\beta=P(\text{Errore II tipo})=P(\text{Decidere $H_0$};H_1)\]

  • \(\alpha\) è il livello di significatività del test, \(\alpha\) è la probabilità di scegliere \(H_1\) quando invece è vera \(H_0\).
  • \(\beta\) è la probabilità di scegliere \(H_0\) quando invece è vera \(H_1\).

4.d (pt 0.9/31→3/103) In un sondaggio su 160 persone è stato chiesto il livello di utilizzo di strumenti di Intelligenza Artificiale (Basso, Medio, Alto) e l’opinione sul loro impatto nel mondo del lavoro (Favorevole, Contrario).

Livello di utilizzo
Basso Medio Alto
Opinione
Favorevole 30 10 35
Contrario 20 40 25

Eseguito il test del \(\chi^2\) per verificare l’indipendenza tra il livello di utilizzo degli strumenti di AI e l’opinione sul loro impatto nel mondo del lavoro, si ottiene un \(p_\text{value}=0.00002588\). Possiamo concludere che il livello di utilizzo e l’opinione sul loro impatto nel mondo del lavoro sono indipendenti? Perché?

Essendo \(p_\text{value}=0.00002588<0.001\) il test è estremamente significativo, si rifiuta l’indipendenza tra il livello di utilizzo e l’opinione sull’impatto ad un livello di significatività inferiore all’1 per mille.

Esercizio 5

In uno studio su \(n=50\) municipalità dell’Unione Europea, sono stati analizzati il tasso di disoccupazione giovanile (in percentuale, \(X\)) e la disponibilità di aree verdi urbane (in metri quadrati per abitante, \(Y\)).

Si sono osservate le seguenti statistiche: \[\begin{align*} \sum_{i=1}^n x_i &= 498, &\sum_{i=1}^n x_i^2 &= 5025.18 & \\ \sum_{i=1}^n y_i &= 1289.27, &\sum_{i=1}^n y_i^2 &= 36923.54 &\sum_{i=1}^n x_iy_i &= 12393.43. \end{align*}\]

5.a (pt 3.9/31→13/103) Per la regione \(R\) si è osservato \(x_R=10.6\) e \(y_R=24.48\), stimare il modello di regressione dove \(Y\) viene spiegata da \(X\) e calcolare il residuo per la regione \(R\).

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{ 50 } 498 = 9.96 \\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{ 50 } 1289.27 = 25.79 \\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{ 50 } 5025 - 9.96 ^2= 1.302 \\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{ 50 } 36924 - 25.7854 ^2= 73.58 \\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{ 50 } 12393 - 9.96 \cdot 25.7854 = -8.954 \\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{ -8.954 }{ 1.302 } = -6.877 \\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 25.79 - (-6.8771) \times 9.96 = 94.28 \end{eqnarray*}\]\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 94.28 + (-6.8771) \times 10.6 = 21.38 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 24.48 - 21.3841 = 3.098 \end{eqnarray*}\]

5.b (pt 1.2/31→4/103) Determinare la percentuale di varianza spiegata dal modello.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ -8.954 }{ 1.141 \times 8.578 }= -0.9148 \\ r^2&=& 0.8368 > 0.75 \end{eqnarray*}\]

Il modello si adatta bene ai dati.

Il modello spiega il \(83.68\%\) della variabilità totale della \(Y\).

5.c (pt 3.9/31→13/103) Testare l’ipotesi che \(\beta_1 = -5\) contro l’alternativa che sia diverso, per \(\alpha=0.1,0.05,0.01,0.001\) e dare una valutazione approssimativa del \(p_\text{value}\) (ad esempio il \(p_\text{value}\) è minore di 0.001, compreso tra 0.05 e tra 0.01, ecc.).

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \beta_1 = \beta_{1;H_0}=-5 \\ H_1: \beta_1 \neq \beta_{1;H_0}=-5 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1- 0.8369 )\times 73.58 \\ &=& 12.01 \\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{ 50 } { 50 -2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{ 50 } { 50 -2} \times 12.01 = 12.51 \end{eqnarray*}\]

E quindi\[\begin{eqnarray*} V(\hat\beta_{1}) &=& \frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ \widehat{V(\hat\beta_{1})} &=& \frac{S_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \\ &=& \frac{ 12.51 } { 50 \times 1.302 } = 0.1921 \\ \widehat{SE(\hat\beta_{1})} &=& \sqrt{ 0.1921 }\\ &=& 0.4383 \end{eqnarray*}\]

\[\begin{eqnarray*} \frac{\hat\beta_{ 1 } - \beta_{ 1 ;H_0}} {\widehat{SE(\hat\beta_{ 1 })}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ ( -6.877 - -5 )} { 0.4383 } = -4.282 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Siccome \(H_1\) è bilaterale, considereremo \(\alpha/2\), anziché \(\alpha\)

\(\alpha=0.1, 0.05, 0.01, 0.001\) e quindi \(\alpha/2=0.05, 0.025, 0.005, 0.0005\)

I valori critici sono

\(t_{50-2;0.05}=1.6772\); \(t_{50-2;0.025}=2.0106\); \(t_{50-2;0.005}=2.6822\); \(t_{50-2;0.0005}=3.5051\)

Siccome \(|t_\text{obs}|=4.2823>3.5051\), quindi rifiuto \(H_0\) sotto all’1‰,

\(p_\text{value}<0.001\), estremamente significativo \(\fbox{***}\).

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(|T_{50-2}|>|-4.28|)=2P(T_{50-2}>4.28)=0.000088 \]

Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0 < p_\text{value}= 0.000088 \leq 0.001 \]

5.d (pt 0.6/31→2/103) Perché, nel modello stimato al punto 5a, è più affidabile una previsione per \(x=10\) o per \(x=0\)? Perché?

5.e (pt 0.6/31→2/103) Se in un modello di regressione \(r =0\) quanto vale \(\hat\beta_1\)?

5.f (pt 0.6/31→2/103) Cosa significa dire che \(r\) è invariante ai cambiamenti di scala?

Significa che se \(V=a+bY\) e \(W=c+dX\) allora \(r_{VW}=\operatorname{sign}(b\times c) r_{XY}\).

Prova di Statistica 2

Esercizio 1

Su un campione di \(150\) aziende con più di 50 addetti dell’Emilia-Romagna è stato rilevato l’investimento effettuato negli ultimi 5 anni in intelligenza artificiale (espresso in milioni di euro). Di seguito è riportata la distribuzione delle densità percentuali:

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(h_j\)
0 1 30.0
1 2 40.0
2 6 5.0
6 10 2.5

1.a (pt 3.9/31→13/103) Calcolare il valore approssimativo della mediana.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\)
0 1 45 0.3 1 30.0
1 2 60 0.4 1 40.0
2 6 30 0.2 4 5.0
6 10 15 0.1 4 2.5
150 1.0 10

\[\begin{eqnarray*} p &=& 0.5 , \text{essendo }F_{ 2 }= 0.7 > 0.5 \Rightarrow j_{ 0.5 }= 2 \\ x_{ 0.5 } &=& x_{\text{inf}; 2 } + \frac{ { 0.5 } - F_{ 1 }} {f_{ 2 }} \cdot b_{ 2 } \\ &=& 1 + \frac {{ 0.5 } - 0.3 } { 0.4 } \cdot 1 \\ &=& 1.5 \end{eqnarray*}\]

1.b (pt 1.2/31→4/103) Qual è la percentuale approssimativa di aziende che hanno investito meno di 3 milioni di euro?

\[\begin{eqnarray*} \%(X< 3 ) &=& f_{ 1 }\times 100+f_{ 2 }\times 100 +( 3 - 2 )\times h_{ 3 } \\ &=& ( 0.3 )\times 100+( 0.4 )\times 100 +( 1 )\times 5 \\ &=& 0.75 \times(100) \\ \#(X< 3 ) &\approx& 112 \end{eqnarray*}\]

1.c (pt 0.6/31→2/103) Sapendo che le media è pari a \(2.4\) e considerata la mediana calcolata al punto 1.a, che forma avrà l’istogramma di densità?

1.d (pt 0.6/31→2/103) Cosa significa dire che la media aritmetica gode della proprietà associativa?

Significa che

Esercizio 2

Un processo viene svolto da due agenti AI in parallelo, \(A\) e \(B\). Il tempo impiegato da ciascun agente, misurato in secondi, è distribuito secondo una Normale con media 7 e varianza 2, \(X_A \sim N(7,2)\), \(X_B \sim N(7,2)\), con \(X_A\) e \(X_B\) indipendenti. Il processo finale viene considerato troppo lento se almeno uno dei due agenti impiega più di 10 secondi, cioè se \(\{X_A> 10\} \cup \{X_B>10\}\).

2.a (pt 3.9/31→13/103) Calcolare la probabilità che il processo sia troppo lento (\(\{X_A> 10\} \cup \{X_B>10\}\)).

\[\begin{eqnarray*} P( X_A > 10 ) &=& P\left( \frac { X_A - \mu_A }{ \sigma_A } > \frac { 10 - 8 }{\sqrt{ 1 }} \right) \\ &=& P\left( Z > 2 \right) \\ &=& 1-P(Z< 2 )\\ &=& 1-\Phi( 2 ) \\ &=& 0.0228 \end{eqnarray*}\]\[\begin{eqnarray*} P( X_B > 10 ) &=& P\left( \frac { X_B - \mu_B }{ \sigma_B } > \frac { 10 - 7 }{\sqrt{ 2 }} \right) \\ &=& P\left( Z > 2.12 \right) \\ &=& 1-P(Z< 2.12 )\\ &=& 1-\Phi( 2.12 ) \\ &=& 0.017 \end{eqnarray*}\] \[ P(\{X_A> 10\} \cup \{X_B>10\})=P(\{X_A> 10\})P(\{X_B>10\})=0.0045 \]

2.b (pt 1.2/31→4/103) Calcolare \(P(X_A \le 10|X_A > 8)\).

\[\begin{eqnarray*} P(X_A\le 10|X_A> 8) &=& \frac{P(X_A\le 10\cap X_A> 8)}{P(X_A> 8)}\\ &=& \frac{P(8<X_A\le 10)}{P(X> 8)}\\ &=& \frac{0.9332-0.6915}{0.3085}\\ &=& 0.7835 \end{eqnarray*}\]

2.c (pt 0.6/31→2/103) Siano \(X_1\sim \text{Pois}(0.5)\), \(X_2\sim \text{Pois}(0.5)\) e \(X_3\sim \text{Pois}(0.5)\), 3 Poisson indipendenti. Come si distribuisce \(X=X_1+X_2+X_3\)?

\[ X_1+X_2+X_3 \sim \text{Pois}(3\times 0.5) \]

2.d (pt 0.6/31→2/103) Siano \(A\) e \(B\) due eventi, tali che \(P(A|B)=0.5\), \(P(A|\bar B)=0.4\) e \(P(B)=0.3\), calcolare \(P(A)\).

\[\begin{eqnarray*} P(A) &=& P(A|B)P(B)+P(A|bar B)P(\bar B)\\ &=& 0.5\times 0.3+ 0.4\times(1-0.3)\\ &=& 0.43 \end{eqnarray*}\]

Esercizio 3

3.a (pt 3.9/31→13/103) Un’urna contiene 1 pallina numerata con \(\fbox{0}\), 3 numerate con \(\fbox{1}\) e 1 numerata con \(\fbox{2}\). Si vince se esce \(\fbox{1}\) oppure \(\fbox{2}\) e si perde altrimenti. Si estrae 80 volte con reinserimento. Qual è la probabilità di vincere meno di 60 volte?

Teorema del Limite Centrale (somma di Bernoulli)

Siano \(X_1\),…,\(X_n\), \(n=80\) VC IID, tc \(X_i\sim\text{Ber}(\pi=0.8)\)\(,\forall i\), posto: \[ S_n = X_1 + ... + X_n \] allora:\[\begin{eqnarray*} S_n & \mathop{\sim}\limits_{a}& N(n\pi,n\pi(1-\pi)) \\ &\sim & N(80\cdot0.8,80\cdot0.8\cdot(1-0.8)) \\ &\sim & N(64,12.8) \end{eqnarray*}\]\[\begin{eqnarray*} P( S_n < 60 ) &=& P\left( \frac { S_n - n\pi }{ \sqrt{n\pi(1-\pi)} } < \frac { 60 - 64 }{\sqrt{ 12.8 }} \right) \\ &=& P\left( Z < -1.12 \right) \\ &=& 1-\Phi( 1.12 ) \\ &=& 0.1314 \end{eqnarray*}\]

Esercizio 4

4.a (pt 0.9/31→3/103) Siano \(\hat\beta_0\), \(\hat\beta_1\) e \(\hat\sigma_\varepsilon\) gli stimatori di massima verosimiglianza di, \(\beta_0\), \(\beta_1\) e \(\sigma_\varepsilon\), del modello di regressione lineare semplice \[ y_i = \beta_0 + \beta_1 x_i +\varepsilon_i, ~\varepsilon_i\sim N(0,\sigma^2_\varepsilon),\forall i=1,...,n \] Scrivere il \(MSE\) di \(\hat\beta_1\).

Sappiamo che \(\hat\beta_1\) è stimatore corretto di \(\beta_1\) (teorema di Gauss-Markov): \[ E(\hat\beta_1)=\beta_1 \] Quindi, essendo corretto \[\begin{eqnarray} MSE(\hat\beta_1) &=& V(\hat\beta_1)\\ &=&\frac{\sigma_{\varepsilon}^{2}} {n \hat{\sigma}^{2}_{X}} \qquad \text{dal formulario} \end{eqnarray}\]

4.b (pt 0.9/31→3/103) Siano \(\hat\theta_1\) e \(\hat\theta_2\) due stimatori non corretti per \(\theta\), cosa significa dire che \(\hat\theta_1\) è più efficiente di \(\hat\theta_2\)?

4.c (pt 0.9/31→3/103) Si consideri il seguente sistema d’ipotesi: \[ \begin{cases} H_0:\theta=\theta_0\\ H_1:\theta>\theta_0 \end{cases} \]

Posta con \(T\) la VC statistica test e con \(t_\text{obs}\) il valore osservato della statistica test, definire il \(p_\text{value}\) del test.

Il \(p_\text{value}\) è la probabilità, se fosse vera \(H_0\) di avere un campione ancora più favorevole ad \(H_1\) di quello che abbiamo osservato, in altre parole ci dice quanto è raro il campione sotto ipotesi \(H_0\). In simboli, nel caso di un test unilaterale destro \[ p_\text{value} = P(T>t_\text{obs}) \]

4.d (pt 0.9/31→3/103) In un sondaggio su 273 lavoratori è stato chiesto il livello di formazione ricevuta sull’uso degli strumenti di Intelligenza Artificiale (Basso, Medio, Alto) e la valutazione della propria preparazione rispetto ai cambiamenti tecnologici nel lavoro (Adeguata, Insufficiente).

Livello di formazione
Basso Medio Alto
Preparazione
Adeguata 18 32 45
Insufficiente 40 40 98

Eseguito il test del \(\chi^2\) per verificare l’indipendenza tra il livello di formazione sugli strumenti di AI e la valutazione della preparazione rispetto ai cambiamenti tecnologici, si ottiene un \(p_\text{value}=0.1344\). Possiamo concludere che il livello di formazione ricevuta e la propria valutazione rispetto alla propria preparazione sono indipendenti? Perché?

Essendo \(p_\text{value}=0.1344>0.1\) il test non è significativo, non si rifiuta l’indipendenza tra il livello di utilizzo e l’opinione sull’impatto per nessun livello di significatività.

Esercizio 5

In uno studio su \(n=50\) municipalità dell’Unione Europea, sono stati analizzati il tasso di disoccupazione giovanile (in percentuale, \(X\)) e il numero di posti a sedere in teatro e cinema per abitante (\(Y\)).

Si sono osservate le seguenti statistiche: \[\begin{align*} \sum_{i=1}^n x_i &= 500.4, &\sum_{i=1}^n x_i^2 &= 5047.02 & \\ \sum_{i=1}^n y_i &= 114.68, &\sum_{i=1}^n y_i^2 &= 263.79 &\sum_{i=1}^n x_iy_i &= 1151.3. \end{align*}\]

5.a (pt 3.9/31→13/103) Per la regione \(R\) si è osservato \(x_R=10.5\) e \(y_R=2.19\), stimare il modello di regressione dove \(Y\) viene spiegata da \(X\) e calcolare il residuo per la regione \(R\).

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{ 50 } 500.4 = 10.01 \\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{ 50 } 114.68 = 2.294 \\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{ 50 } 5047 - 10.008 ^2= 0.7803 \\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{ 50 } 263.8 - 2.2936 ^2= 0.0152 \\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{ 50 } 1151 - 10.008 \cdot 2.2936 = 0.07166 \\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{ 0.07166 }{ 0.7803 } = 0.09183 \\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 2.294 - 0.0918 \times 10.008 = 1.375 \end{eqnarray*}\]\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 1.375 + 0.0918 \times 10.5 = 2.339 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 2.192 - 2.3388 = -0.1471 \end{eqnarray*}\]

5.b (pt 1.2/31→4/103) Determinare la percentuale di varianza spiegata dal modello.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 0.07166 }{ 0.8834 \times 0.1233 }= 0.658 \\ r^2&=& 0.4329 < 0.75 \end{eqnarray*}\]

Il modello non si adatta bene ai dati.

Il modello spiega il \(43.29\%\) della variabilità totale della \(Y\).

5.c (pt 3.9/31→13/103) Testare l’ipotesi che \(\beta_0 = 1\) contro l’alternativa che sia maggiore, per \(\alpha=0.1,0.05,0.01,0.001\) e dare una valutazione approssimativa del \(p_\text{value}\) (ad esempio il \(p_\text{value}\) è minore di 0.001, compreso tra 0.05 e tra 0.01, ecc.).

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \beta_0 = \beta_{0;H_0}=1 \\ H_1: \beta_0 > \beta_{0;H_0}=1 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(T\) Test su un coefficiente di regressione: \(\Rightarrow\) t-Test.

\[\begin{eqnarray*} \hat{\sigma_\varepsilon}^2&=&(1-r^2)\hat\sigma_Y^2\\ &=& (1- 0.433 )\times 0.0152 \\ &=& 0.0086 \\ S_\varepsilon^2 &=& \frac{n} {n-2} \hat{\sigma_\varepsilon}^2\\ &=& \frac{ 50 } { 50 -2} \hat{\sigma_\varepsilon}^2 \\ &=& \frac{ 50 } { 50 -2} \times 0.0086 = 0.009 \end{eqnarray*}\]

E quindi\[\begin{eqnarray*} V(\hat\beta_{0}) &=& \sigma_{\varepsilon}^{2} \left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\\ \widehat{V(\hat\beta_{0})} &=& S_{\varepsilon}^{2}\left( \frac{1} {n} + \frac{\bar{x}^{2}} {n \hat{\sigma}^{2}_{X}} \right)\ \\ &=& 0.009 \times\left( \frac{1} { 50 } + \frac{ 10.01 ^{2}} { 50 \times 0.7803 } \right)\\ \widehat{SE(\hat\beta_{0})} &=& \sqrt{ 0.0232 }\\ &=& 0.1523 \end{eqnarray*}\]
\[\begin{eqnarray*} \frac{\hat\beta_{ 0 } - \beta_{ 0 ;H_0}} {\widehat{SE(\hat\beta_{ 0 })}}&\sim&t_{n-2}\\ t_{\text{obs}} &=& \frac{ ( 1.375 - 1 )} { 0.1524 } = 2.458 \, . \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Consideriamo \(\alpha=0.1, 0.05, 0.01, 0.001\)

I valori critici sono

\(t_{50-2;0.1}=1.2994\); \(t_{50-2;0.05}=1.6772\); \(t_{50-2;0.01}=2.4066\); \(t_{50-2;0.001}=3.2689\)

Siccome \(2.4066<t_\text{obs}=2.4579<3.2689\), quindi rifiuto \(H_0\) all’1%,

\(0.001<p_\text{value}<0.01\), molto significativo \(\fbox{**}\).

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(T_{50-2}>2.46)=0.008819 \]

Attenzione il calcolo del \(p_\text{value}\) con la \(T\) è puramente illustrativo e non può essere riprodotto senza una calcolatrice statistica adeguata.\[ 0.001 < p_\text{value}= 0.008819 \leq 0.01 \]

5.d (pt 0.6/31→2/103) Che differenza c’è tra interpolazione ed estrapolazione?

5.e (pt 0.6/31→2/103) Se in un modello di regressione \(r <0\) che segno avrà \(\hat\beta_1\)?

5.f (pt 0.6/31→2/103) In un modello di regressione lineare, cosa comporta \(r=-1\)?

Prova di Statistica 3

Esercizio 1

Su un campione di \(200\) aziende con più di 50 addetti dell’Emilia-Romagna è stato rilevato l’investimento effettuato negli ultimi 5 anni in intelligenza artificiale (espresso in milioni di euro). Di seguito è riportata la distribuzione delle frequenze cumulate:

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(F_j\)
0 2 0.10
2 3 0.50
3 7 0.95
7 15 1.00

1.a (pt 3.9/31→13/103) Individuare la classe modale.

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(n_j\) \(f_j\) \(b_j\) \(h_j\)
0 2 20 0.10 2 5.00
2 3 80 0.40 1 40.00
3 7 90 0.45 4 11.25
7 15 10 0.05 8 0.62
200 1.00 15

1.b (pt 1.2/31→4/103) Qual è la percentuale di aziende che hanno investito tra il 15-esimo e il 50-esimo percentile?

Per definizione \(\%(x_{0.15}<X<x_{0.5})=35\%\) e \(\#(x_{0.15}<X<x_{0.5})\approx0.35\times200 =70\)

1.c (pt 0.6/31→2/103) Sapendo che le media è pari a \(3.9\) e considerata la mediana calcolata al punto 1.a, che forma avrà l’istogramma di densità?

1.d (pt 0.6/31→2/103) L’investimento medio è pari a \(\bar x=3.9\), mentre la SD è pari a \(\sigma=2.2\). Se ogni impresa diminuisse il proprio investimento del 10%, quanto varrebbero la media e la SD dei dati così trasformati?

\[ \bar y= 3.51 ~~~~~~~~ \sigma_Y= 1.98 \]

Esercizio 2

Un processo è svolto da \(n=5\) agenti AI, ogni agente commette un’allucinazione con probabilità \(\pi=0.25\). Sia \(X_i\) la VC che vale 1 se l’agente \(i\) ha commesso un’allucinazione e vale 0 altrimenti: \[ P(X_i = 1) = 0.25, \qquad i =1,...,5 \] e sia \[ X=X_1+...+X_5 \] la VC che conta il numero di allucinazioni su 5 agenti.

2.a (pt 3.9/31→13/103) Calcolare la probabilità che il processo abbia almeno un’allucinazione (\(P(X\ge 1)\)).

\[ X=X_1 + ... + X_5 \sim \operatorname{Binom}(5;0.25) \] \[\begin{eqnarray*} P( X \geq 1 ) &=& 1-P( X < 1 ) \\ &=& 1-\left( \binom{ 5 }{ 0 } 0.25 ^{ 0 }(1- 0.25 )^{ 5 - 0 } \right)\\ &=& 1-( 0.2373 )\\ &=& 1- 0.2373 \\ &=& 0.7627 \end{eqnarray*}\]

2.b (pt 1.2/31→4/103) Calcolare \(P(X\ge 2|X\ge 1)\).

\[ X=X_1 + ... + X_5 \sim \operatorname{Binom}(5;0.25) \]

\[\begin{eqnarray*} P(X\ge 2|X\ge 1) &=& \frac{P(X\ge 2\cap X\ge 1)}{P(X\ge 1)}\\ &=& \frac{P(X\ge 2)}{P(X\ge 1)}\\ &=& \frac{0.3672}{0.7627}\\ &=& 2.0771 \end{eqnarray*}\]

2.c (pt 0.6/31→2/103) Siano \(Z\sim N(0,1)\), \(X\sim \chi^2_2\) e \(Y\sim \chi^2_5\), \(X\), \(Y\) e \(Z\) indipendenti. Come si distribuisce \[ Z^2+X+Y\sim~~? \]

Siccome \[ Z^2 \sim \chi^2_1 \]

allora

\[ Z^2+X+Y \sim \chi^2_{1+2+5} \]

2.d (pt 0.6/31→2/103) Siano \(A\) e \(B\) due eventi tali che \(P(A)=0.4\) e \(P(B)=0.6\), dimostrare che se \(A\) e \(B\) sono incompatibili, allora \(B=\bar A\).

No, perché se lo fossero avremmo che \(P(A\cap B)=0\) e di conseguenza \[ P(A\cup B)= P(A)+P(B)=0.5+0.6> 1 \] che è impossibile.

Esercizio 3

3.a (pt 3.9/31→13/103) Un’urna contiene 1 pallina numerata con \(\fbox{0}\), 3 numerate con \(\fbox{1}\) e 1 numerata con \(\fbox{2}\). Si estrae 80 volte con reinserimento. Qual è la probabilità che la somma delle 80 palline sia inferiore a 75?

\[\begin{eqnarray*} \mu &=& \frac 1{ 5 }( 0 + 1 + 1 + 1 + 2 )= 1 \\ \sigma^2 &=& \frac 1{ 5 }( 0 ^2+ 1 ^2+ 1 ^2+ 1 ^2+ 2 ^2 )-( 1 )^2= 0.4 \end{eqnarray*}\] Teorema del Limite Centrale (somma VC qualunque)

Siano \(X_1\),…,\(X_n\), \(n=80\) VC IID, tc \(E(X_i)=\mu=1\) e \(V(X_i)=\sigma^2=0.4,\forall i\), posto: \[ S_n = X_1 + ... + X_n \] allora:\[\begin{eqnarray*} S_n & \mathop{\sim}\limits_{a}& N(n\mu,n\sigma^2) \\ &\sim & N(80\cdot1,80\cdot0.4) \\ &\sim & N(80,32) \end{eqnarray*}\]\[\begin{eqnarray*} P( S_n < 75 ) &=& P\left( \frac { S_n - n\mu }{ \sqrt{n\sigma^2} } < \frac { 75 - 80 }{\sqrt{ 32 }} \right) \\ &=& P\left( Z < -0.88 \right) \\ &=& 1-\Phi( 0.88 ) \\ &=& 0.1894 \end{eqnarray*}\]

Esercizio 4

4.a (pt 0.9/31→3/103) Siano \(\hat\beta_0\), \(\hat\beta_1\) e \(\hat\sigma_\varepsilon\) gli stimatori di massima verosimiglianza di, \(\beta_0\), \(\beta_1\) e \(\sigma_\varepsilon\), del modello di regressione lineare semplice \[ y_i = \beta_0 + \beta_1 x_i +\varepsilon_i, ~\varepsilon_i\sim N(0,\sigma^2_\varepsilon),\forall i=1,...,n \] Sapendo che: \[ V(\hat\sigma_\varepsilon)=\frac{2(n-2)}{n^2}\sigma_\varepsilon^4 \] Scrivere il \(MSE\) di \(\hat\sigma_\varepsilon^2\).

Sappiamo che \(\hat\sigma_\varepsilon^2\) non è stimatore corretto di \(\sigma_\varepsilon^2\) \[ E(\hat\sigma_\varepsilon^2)=\frac{n}{n-2} \sigma_\varepsilon^2 \]

quindi

\[ \operatorname{Bias}(\hat\sigma_\varepsilon^2) = E(\hat\sigma_\varepsilon^2)-\sigma_\varepsilon^2 = -\frac{2}{n}\sigma_\varepsilon^2. \]

Pertanto

\[ \begin{aligned} MSE(\hat\sigma_\varepsilon^2) &= V(\hat\sigma_\varepsilon^2)+\operatorname{Bias}^2(\hat\sigma_\varepsilon^2)\\ &= \frac{2(n-2)}{n^2}\sigma_\varepsilon^4 + \left(-\frac{2}{n}\sigma_\varepsilon^2\right)^2\\ &= \frac{2(n-2)+4}{n^2}\sigma_\varepsilon^4\\ &= \frac{2}{n}\sigma_\varepsilon^4. \end{aligned} \]

Quindi:

\[ MSE(\hat\sigma_\varepsilon^2)=\frac{2}{n}\sigma_\varepsilon^4 \]

4.b (pt 0.9/31→3/103) Sia \(\hat\theta\) lo stimatore di massima verosimiglianza per \(\theta\), indicare la sua distribuzione asintotica.

4.c (pt 0.9/31→3/103) Definire un intervallo di confidenza al 95% per un generico parametro \(\theta\).

Un intervallo di confidenza al livello 95% per \(\theta\) è un intervallo costruito sui dati in modo tale che il 95% delle volte contenga il vero parametro \(\theta\). Ovvero è una coppia di statistiche \(L_1(X_1,...,X_n)<L_2(X_1,...,X_n)\) tali che \[ P([L_1(X_1,...,X_n),L_2(X_1,...,X_n)]\ni\theta)=0.95 \]

4.d (pt 0.9/31→3/103) Una moneta, che non sappiamo se è perfetta oppure no, viene lanciata 100 volte. Abbiamo osservato 34 volte testa su 100 lanci. Posto \(\pi\) la probabilità che la moneta mostri testa, si è testato \[ \begin{cases} H_0:\pi=\frac 12\\ H_1:\pi\ne\frac 12 \end{cases} \] ed è risultato \(p_\text{value}=0.0014\). Possiamo concludere che la moneta sia truccata? Perché?

Esercizio 5

In un’indagine sulla penetrazione dell’intelligenza artificiale (IA) nel mondo del lavoro sono state indagate 75 aziende con oltre i 50 dipendenti della regione Lombardia. L’indagine ha mostrato che 45 aziende su 75 hanno integrato i loro processi produttivi con sistemi IA.

5.a (pt 0.9/31→3/103) Costruire un intervallo di confidenza al 95 % per la proporzione di aziende che in Lombardia integrano i loro processi con l’IA.

\(1-\alpha =0.95\) e quindi \(\alpha=0.05\rightarrow \alpha/2=0.025\)

\[ \hat\pi = \frac{S_n}n = \frac{ 45 }{ 75 }= 0.6 \]

\[\begin{eqnarray*} Idc: & & \hat\pi \pm z_{\alpha/2} \times \sqrt{\frac{\hat\pi(1-\hat\pi)}{n}} \\ & & 0.6 \pm 1.96 \times \sqrt{\frac{ 0.6 (1- 0.6 )}{ 75 }} \\ & & 0.6 \pm 1.96 \times 0.05657 \\ & & [ 0.4891 , 0.7109 ] \end{eqnarray*}\]

5.b (pt 3.0/31→10/103) Un’indagine analoga, condotta sul territorio nazionale, ha mostrato che la proporzione di aziende che integrano l’IA nei loro processi è pari 0.55. Testare l’ipotesi che la proporzione di aziende che usano le IA nella regione Lombardia sia uguale a quella del resto d’Italia contro l’alternativa che sia maggiore. Risolvere con il \(p_\text{value}\) e confrontarlo per \(\alpha = 0.1,\ 0.05,\ 0.01,\ 0.001\).

Test \(Z\) per una proporzione

La stima \[\hat\pi=\frac { 45 } { 75 }= 0.6 \]

\(\fbox{A}\) FORMULAZIONE DELLE IPOTESI

\[\begin{cases} H_0: \pi = \pi_0=0.55 \\ H_1: \pi > \pi_0=0.55 \end{cases}\]

\(\fbox{B}\) SCELTA E CALCOLO STATISTICA-TEST, \(Z\) Test Binomiale per \(n\) grande: \(\Rightarrow\) z-Test.

\[\begin{eqnarray*} \frac{\hat\pi - \pi_{0}} {\sqrt {\pi_0(1-\pi_0)/\,n}}&\sim&N(0,1)\\ z_{\text{obs}} &=& \frac{ ( 0.6 - 0.55 )} {\sqrt{ 0.55 (1- 0.55 )/ 75 }} = 0.8704 \,. \end{eqnarray*}\]

\(\fbox{C}\) CONCLUSIONE

Il \(p_{\text{value}}\) è

\[ p_{\text{value}} = P(Z>0.87)=0.192044 \]

\[ 0.1 < p_\text{value}= 0.192044 \leq 1 \]

Non rifiuto \(H_0\) a nessun livello di significatività,

\(p_\text{value}>0.1\), non significativo

Esercizio 6

In uno studio su \(n=50\) municipalità dell’Unione Europea, sono stati analizzati il numero di centraline per la ricarica delle auto elettriche per chilometro quadrato (X) e una misura della qualità dell’aria espressa in opportuna scala (Y).

Si sono osservate le seguenti statistiche: \[\begin{align*} \sum_{i=1}^n x_i &= 497.7, &\sum_{i=1}^n x_i^2 &= 5123.67 & \\ \sum_{i=1}^n y_i &= 113.92, &\sum_{i=1}^n y_i^2 &= 262.03 &\sum_{i=1}^n x_iy_i &= 1151.85. \end{align*}\]

6.a (pt 3.9/31→13/103) Per la regione \(R\) si è osservato \(x_R=10.1\) e \(y_R=2.24\), stimare il modello di regressione dove \(Y\) viene spiegata da \(X\) e calcolare il residuo per la regione \(R\).

\[\begin{eqnarray*} \bar x &=&\frac 1 n\sum_{i=1}^n x_i = \frac {1}{ 50 } 497.7 = 9.954 \\ \bar y &=&\frac 1 n\sum_{i=1}^n y_i = \frac {1}{ 50 } 113.92 = 2.278 \\ \hat\sigma_X^2&=&\frac 1 n\sum_{i=1}^n x_i^2-\bar x^2=\frac {1}{ 50 } 5124 - 9.954 ^2= 3.391 \\ \hat\sigma_Y^2&=&\frac 1 n\sum_{i=1}^n y_i^2-\bar y^2=\frac {1}{ 50 } 262 - 2.2784 ^2= 0.04949 \\ \text{cov}(X,Y)&=&\frac 1 n\sum_{i=1}^n x_i~y_i-\bar x\bar y=\frac {1}{ 50 } 1152 - 9.954 \cdot 2.2784 = 0.3578 \\ \hat\beta_1 &=& \frac{\text{cov}(X,Y)}{\hat\sigma_X^2} \\ &=& \frac{ 0.3578 }{ 3.391 } = 0.1055 \\ \hat\beta_0 &=& \bar y - \hat\beta_1 \bar x\\ &=& 2.278 - 0.1055 \times 9.954 = 1.228 \end{eqnarray*}\]\[\begin{eqnarray*} \hat y_i &=&\hat\beta_0+\hat\beta_1 x_i=\\ &=& 1.228 + 0.1055 \times 10.1 = 2.294 \\ \hat \varepsilon_i &=& y_i-\hat y_i\\ &=& 2.238 - 2.2938 = -0.05583 \end{eqnarray*}\]

6.b (pt 1.2/31→4/103) Determinare la percentuale di varianza spiegata dal modello.

\[\begin{eqnarray*} r&=&\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}=\frac{ 0.3578 }{ 1.842 \times 0.2225 }= 0.8733 \\ r^2&=& 0.7627 > 0.75 \end{eqnarray*}\]

Il modello si adatta bene ai dati.

Il modello spiega il \(76.27\%\) della variabilità totale della \(Y\).

6.c (pt 0.6/31→2/103) Definire gli outliers e i punti di leva.

6.d (pt 0.6/31→2/103) Se in un modello di regressione \(\hat\beta_1 >0\) che segno avrà \(r\)?

6.e (pt 0.6/31→2/103) Cosa significa quando \(r^2=0\)?