Capitolo 2 Variabili Statistiche e Distribuzioni di Frequenza

La statistica si fonda sulla necessità di comprendere e descrivere fenomeni complessi in modo sistematico e universale. Per farlo, è indispensabile adottare un linguaggio rigoroso che consenta di astrarre dai dettagli specifici e lavorare direttamente sulle relazioni tra i dati. La formalizzazione non è un vezzo, ma una necessità: permette di trattare insiemi di dati di qualunque dimensione o complessità senza cambiare le regole del ragionamento.

Il linguaggio formale che utilizzeremo in questo libro è pensato per garantire una sintesi efficace e una generalizzazione immediata. Una manciata di osservazioni e un archivio di miliardi di righe possono essere analizzati con gli stessi strumenti e le stesse regole. Questa uniformità concettuale è ciò che rende il pensiero statistico potente: non ci si perde nei dettagli numerici, ma si lavora direttamente sulle proprietà e sulle trasformazioni delle strutture che i dati rappresentano.

Adottare una notazione rigorosa consente inoltre di comunicare con chiarezza e precisione. Ogni simbolo, ogni operatore ha un significato ben definito che elimina ambiguità e rende possibile il ragionamento collaborativo, indipendentemente dal contesto applicativo. La formalizzazione non è solo un linguaggio per il calcolo, ma uno strumento per pensare, per astrarre e per collegare il particolare all’universale.

Lavorare in questo modo significa concentrarsi sui concetti fondamentali, svincolandosi dalla necessità di riferirsi continuamente alla numerosità dei dati o alla loro specifica natura. È così che il linguaggio statistico diventa non solo un mezzo per analizzare, ma anche per costruire modelli e sviluppare inferenze che si applicano a fenomeni ben oltre i dati osservati.

In statistica, la scelta dei simboli gode di una flessibilità maggiore rispetto ad altre discipline come la fisica, dove molte notazioni sono rigidamente standardizzate. Questa libertà riflette la natura più applicativa e interdisciplinare della statistica, che si adatta a contesti diversi e a una grande varietà di fenomeni. Tuttavia, nel tempo, si è consolidata una notazione comune, grazie alla diffusione di libri di testo e alla pratica accademica, che offre un riferimento condiviso pur lasciando margini per piccole personalizzazioni.

In fisica, al contrario, cambiare i simboli può portare a confusione o addirittura compromettere la comprensione. Ad esempio, la costante gravitazionale universale \(G\) e la velocità della luce nel vuoto \(c\) sono simboli universalmente riconosciuti. Rinominare \(G\) con un altro simbolo, come \(k\), o \(c\) con \(v\), rischierebbe di generare fraintendimenti, poiché quei simboli sono già associati ad altri concetti fondamentali, come la costante elastica e la velocità generica di un corpo.

In statistica, invece, sebbene esistano convenzioni consolidate – come indicare una variabile casuale con una lettera maiuscola (\(X\)) e un’osservazione specifica con una minuscola (\(x_i\)) – la comunità accetta varianti ragionevoli, purché siano chiaramente definite. In questo libro, useremo una notazione che rispetta gli standard più diffusi, integrandola con piccole personalizzazioni pensate per migliorare la chiarezza e la leggibilità, senza mai perdere il rigore. Questo approccio garantisce che il linguaggio sia al tempo stesso accessibile e conforme alle convenzioni accademiche, facilitando il collegamento con altri testi e contesti di studio.

2.1 Variabili Statistiche

Una Variabile Statistica (VS) è una qualunque caratteristica osservabile sugli individui (unità statistiche) della popolazione di riferimento, che varia da individuo ad individuo.

2.1.1 Notazione di Base

  • \(\mathbf{x}=(x_1,x_2,...,x_i,...,x_n)\), etichette simboliche per i dati, il primo dato osservato, il secondo ecc.
  • \(i\), indice che conta le osservazioni nell’ordine in cui sono state osservate
    • \(i\in\{1,2,...,n\}\)
    • il primo, il secondo, … l’\(i\)-esimo, … l’\(n\)-esimo (l’ultimo)
  • \(n\), numerosità assoluta: il numero totale di individui osservati.
  • \(S_X=\{\mathrm{x}_1,...,\mathrm{x}_j,...,\mathrm{x}_K\}\), l’insieme di tutte le modalità possibili che la variabile statistica è suscettibile di assumere.
  • \(j\), indice che conta le modalità: prima, seconda, …, \(j\)-esima,…, la \(K\)-esima.
  • \(K\), numero di modalità.

Esempio 2.1 (Variabile: genere) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = M, x_2 =F, x_3 =M, x_4=F,x_5=F,x_6=F)\)
  • \(n=6\)
  • \(S_X=\{\mathrm{x}_1 = F,\mathrm{x}_2 = M\}\)
  • \(K=2\)

Esempio 2.2 (Variabile: titolo di studio) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = E, x_2 =M, x_3 =L, x_4=S,x_5=S,x_6=S, x_7=L,x_8=M,x_9=L,x_{10}=S)\)
  • \(n=10\)
  • \(S_X=\{\mathrm{x}_1 = E,\mathrm{x}_2 = M, \mathrm{x}_3=S,\mathrm{x}_4=L\}\)
  • \(K=4\)

Esempio 2.3 (Variabile: Numero di interventi di manutenzione giornalieri) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = 0, x_2 =1, x_3 =0, x_4=2,x_5=1,x_6=1, x_7=0,x_8=1,x_9=3,x_{10}=1)\)
  • \(n=10\)
  • \(S_X=\{\mathrm{x}_1 = 0,\mathrm{x}_2 = 1,\mathrm{x}_3=2,\mathrm{x}_4=3,...\}\)
  • \(K=+\infty\)

2.1.2 Ordinamento e conteggio

Se l’ordine di osservazione non è influente ai fini della conoscenza del fenomeno i dati possono essere permutati (mescolati) a piacimento, la sequenza:

\[(x_{(1)},x_{(2)},...,x_{(i)},...,x_{(n)}),\]

indica i dati riordinati, dal più piccolo, al più grande. Se i dati sono numerici l’ordinamento è univoco, se i dati sono categoriali l’ordinamento è arbitrario.

Esempio 2.4 (Continua) Continuiamo l’esempio della variabile genere discussa nell’esempio 2.1

  • \(\mathbf{x}=(x_1 = M, x_2 =F, x_3 =M, x_4=F,x_5=F,x_6=F)\)
  • \(S_X=\{\mathrm{x}_1 = F,\mathrm{x}_2 = M\}\)
  • \(x_{(1)}=F,x_{(2)}=F,x_{(3)}=F,x_{(4)}=F,x_{(5)}=M,x_{(6)}=M\)

Esempio 2.5 (Continua: codifica 0, 1) \(\phantom{.}\)

  • Variabile: genere {M -> 0,F-> 1}
  • \(\mathbf{x}=(x_1 = 0, x_2 =1, x_3 =0, x_4=1,x_5=1,x_6=1)\)
  • \(S_X=\{\mathrm{x}_1 = 0,\mathrm{x}_2 = 1\}\)
  • \(x_{(1)}=0,x_{(2)}=0,x_{(3)}=1,x_{(4)}=1,x_{(5)}=1,x_{(6)}=1\)
  • nota: nella codifica 0, 1 ha senso sommare i dati: \[x_1+x_2+x_3+x_4+x_6=4,~~\text{Numero di femmine}\]

Esempio 2.6 (Continua: Variabile titolo di studio) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = E, x_2 =M, x_3 =L, x_4=S,x_5=S,x_6=S, x_7=L,x_8=M,x_9=L,x_{10}=S)\)
  • \(S_X=\{\mathrm{x}_1 = E,\mathrm{x}_2 = M, x_3=S, x_4=L\}\)
  • \(x_{(1)}=E,x_{(2)}=M,x_{(3)}=M,x_{(4)}=S,x_{(5)}=S,x_{(6)}=S,x_{(7)}=S,x_{(8)}=L,x_{(9)}=L, x_{(10)}=L\)

Esempio 2.7 (Continua: Codifica Numerica) \(\phantom{.}\)

  • Variabile: titolo di studio {E -> 1, M -> 2, S -> 3, L -> 4}
  • \(\mathbf{x}=(x_1 = 1, x_2 = 2, x_3 = 4, x_4= 3,x_5=3,x_6=3, x_7=4,x_8=2,x_9=4,x_{10}=3)\)
  • \(S_X=\{\mathrm{x}_1 = 1,\mathrm{x}_2 = 2, x_3=3, x_4=4\}\)
  • \(x_{(1)}=1,x_{(2)}=2,x_{(3)}=2,x_{(4)}=3,x_{(5)}=3,x_{(6)}=3,x_{(7)}=3,x_{(8)}=4,x_{(9)}=4, x_{(10)}=4\)
  • ha senso sommare i dati?

La codifica numerica corretta sarebbe più complessa

\(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\) \(x_9\) \(x_{10}\) \(Tot\)
E 1 0 0 0 0 0 0 0 0 0 1
M 0 1 0 0 0 0 0 1 0 0 2
S 0 0 0 1 1 1 0 0 0 1 4
L 0 0 1 0 0 0 1 0 1 0 3

I totali di colonna hanno senso e indicano il numero di individui che ha un determinato titolo di studio.

Questa codifica è sovra abbondante infatti come per maschio e femmina possiamo contare solo un colonna di presenza 1 (è femmina) e assenza 0 (non è femmina e quindi maschio), per una variabile a 4 modalità possiamo contare solo 3, ad esempio

  • 0,0,0 elementari
  • 1,0,0 medie
  • 0,1,0 superiori
  • 0,0,1 università
\(x_1\) \(x_2\) \(x_3\) \(x_4\) \(x_5\) \(x_6\) \(x_7\) \(x_8\) \(x_9\) \(x_{10}\) \(Tot\)
M 0 1 0 0 0 0 0 1 0 0 2
S 0 0 0 1 1 1 0 0 0 1 4
L 0 0 1 0 0 0 1 0 1 0 3

Per sapere il numero persone che ha al massimo le elementari basta fare 10 (numero totale di individui) meno 2 (medie) più 4 (superiori) più 3 (laureati):

\[ 10-(2+4+3)=1~~~\text{con le elemntari} \]

Esempio 2.8 (Continua: Numero di interventi di manutenzione giornalieri) \(\phantom{.}\)

  • \(\mathbf{x}=(x_1 = 0, x_2 =1, x_3 =0, x_4=2,x_5=1,x_6=1, x_7=0,x_8=1,x_9=3,x_{10}=1)\)
  • \(S_X=\{\mathrm{x}_1 = 0,\mathrm{x}_2 = 1,\mathrm{x}_3=2,\mathrm{x}_4=3,...\}\)
  • \(x_{(1)}=0,x_{(2)}=0,x_{(3)}=0,x_{(4)}=1,x_{(5)}=1,x_{(6)}=1,x_{(7)}=1,x_{(8)}=1,x_{(9)}=2, x_{(10)}=3\)
  • ha senso sommare i dati?
  • cosa rappresenta la somma dei dati?

Esempio 2.9 (Ore uomo dedicate a interventi di manutenzione) \(\phantom{.}\)

Supponiamo di aver collezionato il numero di ore uomo (e frazioni di ora) dedicate ad ogni intervento di manutenzione L’unità statistica sarà l’intervento, \(i=1\) il primo, \(i=2\), il secondo, ecc. e assumerà un valore decimale \(x_3=3.5\) significa che la terza manutenzione ha impiegato un addetto per 3 ore e mezza.

  • \(\mathbf{x}=(x_1 = 0.4, x_2 =2.7, x_3 =3.5, x_4=1.4,x_5=4.3,x_6=4.6, x_7=0.2,x_8=1.9,x_9=3.4,x_{10}=0.1)\)
  • \(S_X=\{\mathrm{x}_1 = 0.0,\mathrm{x}_2 = 0.1,\mathrm{x}_3=0.2,\mathrm{x}_4=0.3,...\}\)
  • \(x_{(1)}=0.1, x_{(2)}=0.2, x_{(3)}=0.4, x_{(4)}=1.4, x_{(5)}=1.9, x_{(6)}=2.7, x_{(7)}=3.4, x_{(8)}=3.5, x_{(9)}=4.3, x_{(10)}=4.6\)
  • ha senso sommare i dati?
  • cosa rappresenta la somma dei dati?

2.1.3 Le unità di misura

In statistica, ogni dato è sempre espresso in una specifica unità di misura, che conferisce significato al valore numerico registrato. Le unità di misura variano in base alla natura dei dati e al fenomeno osservato, e possono includere:

  1. Conteggi: I dati che rappresentano quantità possono essere espressi in unità di conteggio, come unità singole, decine, centinaia, migliaia, ecc. Ad esempio, se registriamo il numero di visitatori in un parco in un anno, può essere più comodo esprimere 12.000 visitatori come “12 migliaia” (12 x 1000), facilitando la lettura. Analogamente, 1.200 prodotti venduti potrebbero essere espressi come “1,2 migliaia” per rendere i confronti immediati tra dati di grandezza diversa.

  2. Misure metriche: Le grandezze fisiche come la lunghezza, la massa, la capacità e la temperatura sono espresse in unità metriche, come metri, chilogrammi, e litri. Ad esempio, per confrontare il peso di vari articoli, un dato in grammi potrebbe risultare scomodo se molto elevato; per articoli pesanti, come \(12~000\) grammi, potrebbe essere più leggibile esprimere il dato in chilogrammi come 12 kg, dove 1 kg = \(1~000\) grammi. Questo cambio di unità mantiene invariato il rapporto tra le osservazioni, facilitando la comprensione e l’analisi.

  3. Misure derivate o di rapporto: Alcune unità di misura rappresentano rapporti tra grandezze, come chilometri all’ora (km/h) per la velocità, o litri per 100 chilometri (L/100 km) per il consumo di carburante. Ad esempio, se un’auto consuma 7 litri ogni 100 km, esprimere il consumo in questa unità (7 L/100 km) è più immediato e rappresentativo di un valore medio, rispetto all’uso di litri per singolo chilometro (0.07 L/km), che potrebbe risultare poco intuitivo.

  4. Misure di risultati e punteggi: In statistica, si usano spesso trasformazioni che combinano più misure per produrre un indicatore con una scala di misura propria, utile per confrontare sinteticamente informazioni complesse. Consideriamo la seguente formula generale: \[ x_i = f(a_{i1}, a_{i2}, a_{i3}, \dots) \] dove \(a_{ij}\) rappresenta le varie misure o statistiche che contribuiscono al calcolo del valore \(x_i\), cioè l’indicatore della i-esima osservazione. Per esempio, immaginiamo di voler calcolare un punteggio di idoneità per i candidati a un lavoro, basato su tre misure diverse:

    • \(a_{i1}\): esperienza in anni,
    • \(a_{i2}\): punteggio di un test tecnico (da 0 a 100),
    • \(a_{i3}\): valutazione del colloquio (da 0 a 5).

Per produrre un indicatore che misuri l’idoneità complessiva su una scala uniforme, potremmo usare una formula come: \[ x_i = 0.5 \cdot a_{i1} + 0.3 \cdot a_{i2} + 2 \cdot a_{i3} \] Questa formula pondera ciascuna misura per dare maggiore peso all’esperienza (0.5) e al colloquio (2) rispetto al test tecnico (0.3). Per il quinto candidato (\(i=5\)) con 5 anni di esperienza, un punteggio di 80 al test e una valutazione di 4 al colloquio, il punteggio di idoneità risulterebbe: \[ x_5 = 0.5 \cdot 5 + 0.3 \cdot 80 + 2 \cdot 4 = 2.5 + 24 + 8 = 34.5 \] In questo caso, il punteggio di idoneità \(x_i\) è su una scala propria, definita dalle scelte di peso e dalle unità combinate, e consente di confrontare i candidati in modo sintetico, anche se ogni componente ha un’unità di misura diversa.

2.1.4 Trasformazioni lineari

In matematica e statistica, una trasformazione lineare è un’operazione che modifica i dati mantenendo invariati i rapporti tra le osservazioni. La forma generale di una trasformazione lineare è:

\[ y_i = a + b x_i \]

dove:

  • \(x_i\) rappresenta la misura i-esima del dato originale.
  • \(a\) rappresenta uno spostamento dell’origine (traslazione), che posiziona i dati su un nuovo punto di partenza, spostando l’intero grafico verso l’alto o verso il basso.
  • \(b\) è il fattore di scala, che ridimensiona i valori, influenzando la pendenza della retta. Un fattore maggiore di 1 espande i valori, mentre uno tra 0 e 1 li contrae.

Geometricamente, il termine \(a\) trasla il grafico lungo l’asse verticale senza modificare le distanze relative tra i punti, mentre \(b\) varia la pendenza, allargando o comprimendo i dati rispetto all’origine.

2.1.4.1 Cambiamento di scala come trasformazione lineare

Un cambiamento di scala è una trasformazione lineare applicata a ogni misura i-esima del dato, che permette di adattare l’unità di misura senza alterare i rapporti tra le osservazioni. Vediamo alcuni esempi pratici.

Esempio 2.10 (Dati spese) Supponiamo di avere i dati su diverse spese in euro e di volerli esprimere in migliaia di euro per facilitare la lettura. La trasformazione è:

\[ y_i = \frac{1}{1000} \cdot x_i \]

Dove \(x_i\) è il valore in euro della misura i-esima e \(y_i\) è il valore corrispondente in migliaia di euro. Per chiarire questo concetto, prendiamo \(i=4\) con \(x_4 = 12~000\):

\[ y_4 = \frac{1}{1000} \cdot 12~000 = 12 \]

Quindi, invece di esprimere la quarta misura come \(12~000\) euro, la rappresentiamo come 12 migliaia di euro, semplificando la gestione e la comparabilità dei dati.

Esempio 2.11 (Conversione temperature) Anche la conversione da gradi Celsius (\(C\)) a gradi Fahrenheit (\(F\)) segue una trasformazione lineare, espressa come:

\[ F_i = 32 + \frac{9}{5} \cdot C_i \]

Qui, il termine 32 rappresenta uno spostamento dell’origine, poiché 0 °C corrisponde a 32 °F, mentre il fattore \(\frac{9}{5}\) espande i valori per adattarsi alla scala Fahrenheit. Ad esempio, se \(i=2\) e \(C_2 = 25\):

\[ F_2 = 32 + \frac{9}{5} \cdot 25 = 32 + 45 = 77 \]

Questa trasformazione mantiene la proporzionalità tra le temperature, adattando la scala e le unità di misura.

Le trasformazioni lineari \(y = a + bx\) mantengono le distanze relative tra i dati poiché ogni differenza tra due valori \(x_i\) e \(x_j\) viene amplificata o ridotta di un fattore costante \(b\). In altre parole, per ogni coppia di dati \(x_i, x_j\) vale la relazione:

\[ y_i - y_j = b (x_i - x_j) \]

Quindi, la proporzionalità tra le differenze dei valori originali si conserva, preservando l’ordine e la struttura relativa dei dati.

In termini più intuitivi immaginate di avere 5 punti distribuiti su una retta, rappresentati da valori numerici come coordinate lungo un asse \(x\). Se si cambia l’unità di misura (ad esempio passando da metri a centimetri) o se si decide di nascondere i numeri, la loro disposizione relativa sulla retta rimane la stessa agli occhi di chi osserva: le distanze tra i punti e l’ordine dei punti non cambiano.

Questo accade perché una trasformazione lineare del tipo \(y = a + bx\) modifica solo la scala e la posizione dell’intero sistema, ma non altera le proporzioni tra le distanze dei punti. È come osservare un disegno su un foglio: se ingrandisci o rimpicciolisci il foglio, le figure disegnate mantengono le stesse relazioni interne tra di loro.

All’occhio, quindi, i punti “restano uguali” perché la trasformazione lineare agisce uniformemente su tutti i punti, preservando le loro distanze relative e l’allineamento lungo la retta.

2.1.4.2 Rappresentazione grafica delle trasformazioni lineari

Come abbiamo visto una trasformazione lineare è data \[ y_i= a+ b\cdot x_i, \forall i =1,...,n \]

caso 1: \(a=0\), \(b<1\)

I dati si contraggono, lo zero resta invariato Per esempio: supponiamo di avere osservato (\(x_1=0, x_2=4, x_3=6, x_4=10, x_5=16\)), e fissato \(b=1/2\) \[ y_i= \frac{1}{2} \cdot x_i, \forall i = 1,...,5 \] allora (\(x_1=0, x_2=2, x_3=3, x_4=5, x_5=8\)). Geometricamente

Osserviamo che i dati si restringono, i dati originari vanno da \(0\) a \(16\), quelli trasformati da \(0\) a \(8\). Notiamo che lo zero resta invariato.

caso 2: \(a= 0\), \(b>1\)

I dati si espandono, lo zero resta invariato. Per esempio: supponiamo di avere osservato (\(x_1=0, x_2=4, x_3=6, x_4=10, x_5=16\)), e fissato \(b=2\) \[ y_i= 2\cdot x_i, \forall i = 1,...,5 \] allora (\(x_1=0, x_2=8, x_3=12, x_4=20, x_5=32\)). Geometricamente

Osserviamo che i dati si espandono, i dati originari vanno da \(0\) a \(16\), quelli trasformati da \(0\) a \(32\). Notiamo che lo zero resta invariato.

caso 3: \(a\ne 0\), \(b=1\)

Le distanze tra i dati restano invariate, lo zero cambia. Per esempio: supponiamo di avere osservato (\(x_1=0, x_2=4, x_3=6, x_4=10, x_5=16\)), e fissato \(a=+1\) \[ y_i= 1 + x_i, \forall i = 1,...,5 \] allora (\(x_1=1, x_2=5, x_3=7, x_4=11, x_5=17\)). Geometricamente

Osserviamo che i dati sono stati traslati a destra di uno, i dati originari vanno da \(0\) a \(16\), quelli trasformati da \(1\) a \(17\). Notiamo che lo zero è cambiato nella nuova scala.

caso 4: \(a\ne 0\), \(b\ne 1\)

Le distanze tra i dati restano invariate, lo zero cambia. Per esempio: supponiamo di avere osservato (\(x_1=0, x_2=4, x_3=6, x_4=10, x_5=16\)), e fissato \(a=+1\) e \(b=1/2\) \[ y_i= 3 + \frac 12 \cdot x_i, \forall i = 1,...,5 \] allora (\(x_1=3, x_2=5, x_3=6, x_4=8, x_5=11\)). Geometricamente

Osserviamo che i dati sono stati traslati a destra di uno, i dati originari vanno da \(0\) a \(16\), quelli trasformati da \(3\) a \(11\). Notiamo che lo zero è cambiato nella nuova scala.

2.1.4.3 Scelta dei coefficienti

A volte i coefficienti \(a\) e \(b\) vengono usati per modificare a piacimento il massimo e il minimo dei dati, per trasformare, ad esempio, punteggi in centesimi in punteggi in trentesimi.

Se i dati originari esistono nell’intervallo \([x_{\min},x_{\max}]\), ovvero tutti i dati \(x_{\min}\le x_i\le x_{\max}\) e vogliamo trasformarli in dati \(y_i\) tali che \(y_{\min}\le y_i\le y_{\max}\), dove \(y_{\min}\) e \(y_{\max}\) sono fissati arbitrariamente. Se imponiamo

\[ \begin{cases} y_{\text{min}} = a + b \cdot x_{\text{min}} \\ y_{\text{max}} = a + b \cdot x_{\text{max}} \end{cases} \]

Avremo: \[ b = \frac{y_{\text{max}} - y_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} \]

e quindi: \[ a = y_{\text{min}} - \frac{y_{\text{max}} - y_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} \cdot x_{\text{min}} \] in definitiva \[ y = \left( y_{\text{min}} - \frac{y_{\text{max}} - y_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} \cdot x_{\text{min}} \right) + \frac{y_{\text{max}} - y_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} \cdot x \]

Esempio 2.12 (Conversione punteggi tra 0 e 50) Supponiamo di aver somministrato un questionario con 25 domande, che assegnano punteggio \(0\) se la risposta è sbagliata, \(+1\) se la risposta è parzialmente corretta e \(+2\) se la risposta è corretta. Sia \(x_i\) la somma dei punteggi dello studente etichettato con \(i\), che potrà:

  1. sbagliarle tutte \(x_i=0\cdot 25 =0\)
  2. rispondere correttamente a tutte \(x_i=2\cdot 25 =50\).

Il punteggio originario varia in una scala tra \(0\) e \(50\).

Per trasformare il punteggio in trentesimi faremo \[ y_i = \left(0 - \left(\frac{30-0}{50-0}\right)\cdot 0\right)+\left(\frac{30-0}{50-0}\right) x_i=\frac 35x_i \]

Il nuovo punteggio varrà quindi

  1. se tutte le domande sono sbagliate \(x_i = 0 \rightarrow y_i = 0\)
  2. se tutte le domande sono corrette \(x_i = 50 \rightarrow y_i = 30\)

Il punteggio trasformato varia tra 0 e 30. Se per esempio lo studente 3 ha ottenuto il punteggio \(x_3=43\) avrà un voto in trentesimi pari a \[ y_3=\frac{30}{50}\cdot43=25.8 \]

Esempio 2.13 (Conversione punteggi tra -25 e 25) Supponiamo di aver somministrato un questionario con 15 domande, che assegnano punteggio \(-1\) se la risposta è sbagliata, \(0\) se la risposta non è data e \(+1\) se la risposta è corretta

Sia \(x_i\) la somma dei punteggi dello studente etichettato con \(i\), che potrà:

  1. sbagliarle tutte \(x_i=-1\cdot 25 =-25\)
  2. rispondere correttamente a tutte \(x_i=1\cdot 25 =25\)

Per trasformare il punteggio in trentesimi faremo \[ y_i = \left(0 - \left(\frac{30-0}{50-0}\right)\cdot (-25)\right)+\left(\frac{30-0}{50-0}\right) x_i=15+\frac 35x_i \]

Il nuovo punteggio varrà

  1. se tutte le domande sono sbagliate \(x_i = -25 \rightarrow y_i = 15+3/5\cdot(-25)=0\)
  2. se tutte le domande sono corrette \(x_i = +25 \rightarrow y_i = 15+3/5\cdot(+25)=30\)

Il punteggio trasformato varia tra 0 e 30. Se per esempio lo studente 3 ha ottenuto il punteggio \(x_3=21\) avrà un voto in trentesimi pari a \[ y_3=15+\frac{3}{5}\cdot43=27.6 \]

2.2 Distribuzione di Frequenza

La frequenza indica quanto una modalità insiste sul collettivo. Le frequenze si dividono in:

Definizione 2.1 (Frequenze Assolute) Si definiscono le \(n_j\) le frequenze assolute: il numero di individui che presentano la modalità \(j\).

Definizione 2.2 (Frequenze Relative) Si definiscono le \(f_j=n_j/n\) le frequenze relative: la proporzione di individui che presentano la modalità \(j\).

Definizione 2.3 (Frequenze Percentuali) Si definiscono le \(f_{\% j}=f_j\times 100\) le frequenze percentuali: la percentuale di individui che presentano la modalità \(j\).

Proprietà 2.1 Le proprietà della frequenze assolute(\(n_{j}\)) sono:

  • \(0\leq n_{j} \leq n, \forall j=1,...,K\),
  • \(\sum_{j=1}^{K} n_{j} = n\).

Proprietà 2.2 Le proprietà della frequenze relative (\(f_{j}\)) sono:

  • \(0\leq f_{j} \leq 1, \forall j=1,...,K\),
  • \(\sum_{j=1}^{K} f_{j} = 1\).

Proprietà 2.3 Le proprietà della frequenze percentuali (\(f_{\% j}\)) sono:

  • \(0\leq f_{\%,\, j} \leq 100, \forall j=1,...,K\),
  • \(\sum_{j=1}^{K} f_{\%,\, j} = 100\).

Definizione 2.4 (Distribuzione di Frequenza) Una distribuzione di frequenza è una tabella a cui vengono associate le modalità e le frequenze

Esempio 2.14 (Continua: Variabile: genere) \[x_{(1)}=F,x_{(2)}=F,x_{(3)}=F,x_{(4)}=F,x_{(5)}=M,x_{(6)}=M\]

\(X\) \(n_j\) \(f_j\) \(f_{\% j}\)
F \(4\) \(4/6=0.67\) \(67\%\)
M \(2\) \(2/6=0.33\) \(33\%\)
Tot \(6\) \(1.00\) \(100\%\)

Esempio 2.15 (Continua: Variabile titolo di studio) Consideriamo i 10 dati ordinati: \(x_{(1)}=E,x_{(2)}=M,x_{(3)}=M,x_{(4)}=S,x_{(5)}=S\) \(,x_{(6)}=S,x_{(7)}=S,x_{(8)}=L,x_{(9)}=L,x_{(10)}=L\) la loro tabella di frequenza è

\(X\) \(n_j\) \(f_j\) \(f_{\% j}\)
E \(1\) \(1/10=0.1\) \(10\%\)
M \(2\) \(2/10=0.2\) \(20\%\)
S \(4\) \(4/10=0.4\) \(40\%\)
L \(3\) \(3/10=0.3\) \(30\%\)
Tot \(10\) \(1.0\) \(100\%\)

2.2.1 Dati quantitativi continui

Se i dati sono quantitativi continui il numero delle modalità è spesso di gran lunga superiore al numero dei dati e non sempre è possibile fissare un limite superiore in anticipo all’osservazione dei dati. Se per esempio volessi misurare il reddito di una persona in centesimi, otterrei:

Esempio 2.16 (Variabile: Reddito mensile lordo in migliaia di euro) \(\phantom{x}\)

  • unità di rilevazione: famiglie del comune A a febbraio 2021
  • \(n=45\)
  • \(S_X=\{0.00,0.01,0.02,...,100.00,100.01,...,2000.00,...,10~000,...\}\)

Qui di seguito i dati nell’ordine in cui sono stati raccolti è sono mostrati sopra, mentre i dati riordinati sono mostrati sotto:

\[\begin{array}{crcrcrcrcr} \hline x_{1}= & 2.13 & x_{10}= & 3.08 & x_{19}= & 4.73 & x_{28}= & 7.31 & x_{37}= & 14.54 \\ x_{2}= & 0.74 & x_{11}= & 4.32 & x_{20}= & 4.36 & x_{29}= & 6.65 & x_{38}= & 10.52 \\ x_{3}= & 1.17 & x_{12}= & 4.76 & x_{21}= & 3.27 & x_{30}= & 8.17 & x_{39}= & 17.59 \\ x_{4}= & 0.27 & x_{13}= & 4.78 & x_{22}= & 4.09 & x_{31}= & 7.12 & x_{40}= & 10.84 \\ x_{5}= & 2.89 & x_{14}= & 4.13 & x_{23}= & 4.36 & x_{32}= & 7.03 & x_{41}= & 16.04 \\ x_{6}= & 0.03 & x_{15}= & 4.19 & x_{24}= & 4.06 & x_{33}= & 9.59 & x_{42}= & 12.30 \\ x_{7}= & 1.72 & x_{16}= & 3.73 & x_{25}= & 3.17 & x_{34}= & 9.04 & x_{43}= & 19.67 \\ x_{8}= & 2.29 & x_{17}= & 3.71 & x_{26}= & 8.10 & x_{35}= & 7.70 & x_{44}= & 16.05 \\ x_{9}= & 2.62 & x_{18}= & 4.18 & x_{27}= & 5.16 & x_{36}= & 11.07 & x_{45}= & 16.40 \\ \hline x_{(1)}= & 0.03 & x_{(10)}= & 3.08 & x_{(19)}= & 4.19 & x_{(28)}= & 7.03 & x_{(37)}= & 10.84 \\ x_{(2)}= & 0.27 & x_{(11)}= & 3.17 & x_{(20)}= & 4.32 & x_{(29)}= & 7.12 & x_{(38)}= & 11.07 \\ x_{(3)}= & 0.74 & x_{(12)}= & 3.27 & x_{(21)}= & 4.36 & x_{(30)}= & 7.31 & x_{(39)}= & 12.30 \\ x_{(4)}= & 1.17 & x_{(13)}= & 3.71 & x_{(22)}= & 4.36 & x_{(31)}= & 7.70 & x_{(40)}= & 14.54 \\ x_{(5)}= & 1.72 & x_{(14)}= & 3.73 & x_{(23)}= & 4.73 & x_{(32)}= & 8.10 & x_{(41)}= & 16.04 \\ x_{(6)}= & 2.13 & x_{(15)}= & 4.06 & x_{(24)}= & 4.76 & x_{(33)}= & 8.17 & x_{(42)}= & 16.05 \\ x_{(7)}= & 2.29 & x_{(16)}= & 4.09 & x_{(25)}= & 4.78 & x_{(34)}= & 9.04 & x_{(43)}= & 16.40 \\ x_{(8)}= & 2.62 & x_{(17)}= & 4.13 & x_{(26)}= & 5.16 & x_{(35)}= & 9.59 & x_{(44)}= & 17.59 \\ x_{(9)}= & 2.89 & x_{(18)}= & 4.18 & x_{(27)}= & 6.65 & x_{(36)}= & 10.52 & x_{(45)}= & 19.67 \\ \hline \end{array}\]

Come si osserva aver rimesso in ordine i dati non ci aiuta a capire la distribuzione del fenomeno.

2.2.2 Raggruppamenti in Classi

L’idea è quella di raggruppare i dati in intervalli contigui e procedere alla rappresentazione in distribuzione di frequenza. In tabella 2.1 vediamo a sinistra troppe poche classi, al centro troppe, mentre a destra vediamo che il numero delle classi e la loro ampiezza variabile rende più leggibile la distribuzione dei dati.

Tabella 2.1: A sinistra abbiamo troppe poche classi, si perde troppa variabilità. Al centro sono state scelte troppe classi, non si coglie la distribuzone. A destra infine le classi sono state scelte ad hoc per rappresentare al meglio i dati cercando un compromesso tra sintesi e ricchezza dei dati.
\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0 5 55.56
5 20 44.44
100.00
\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0.0 2.5 15.56
2.5 5.0 40.00
5.0 7.5 11.11
7.5 10.0 11.11
10.0 12.5 8.89
12.5 15.0 2.22
15.0 17.5 6.67
17.5 20.0 4.44
100.00
\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_{j\%}\)
0 3 20.00
3 5 35.56
5 10 22.22
10 20 22.22
100.00

2.2.3 Frequenze Cumulate

Definizione 2.5 (Frequenze cumulate) Si definisce frequenza cumulata \(F_j\) la somma di tutte le \(f\) fino a \(j\), \[ F_j = f_1 + f_2 + ... + f_j \]

Notiamo che:

  • \(F_1 = f_1\)
  • \(F_2= f_1+f_2=F_1+f_2\)
  • \(F_3= f_1+f_2+f_3=F_2+f_3\)
  • \(F_j= f_1+f_2+...+f_j=F_{j-1}+f_j\)
  • \(F_K= f_1+f_2+...+f_K=1\)

ovvero \(F_j=f_1+...+f_j\) cumula tutte le frequenze dalla 1 alla \(j\).

Esempio 2.17 (Continua: Variabile titolo di studio) \(\phantom{.}\)

\(n_j\) \(f_j\) \(F_j\)
E 1 0.1 0.1
M 2 0.2 0.3
S 4 0.4 0.7
U 3 0.3 1.0

E si legge: \(F_1=0.1\) ci dice che il 10% del collettivo in esame ha come massimo titolo ha non più delle elementari. \(F_1=0.3\) ci dice che il 30% del collettivo ha come massimo titolo ha non più delle medie. \(F_4=0.7\) ci dice che il 30% del collettivo ha come massimo titolo ha non più delle superiori e \(F_5=1\) che il 100% del collettivo ha, al massimo, la laurea.

Esempio 2.18 (Continua: Reddito) \(\phantom{.}\)

\([\text{x}_j,\) \(\text{x}_{j+1})\) \(f_j\) \(F_j\)
0 3 0.20 0.20
3 5 0.36 0.56
5 10 0.22 0.78
10 20 0.22 1.00
1.00

E si legge: \(F_1=0.21\) ci dice che il 20% del collettivo in esame guadagna al massimo 3 (mila euro); alternativamente leggiamo che il 20% del collettivo non guadagna più di 3 (mila euro). \(F_2=0.56\) ci dice che il 56% del collettivo guadagna al massimo 5. \(F_2=0.56\) ci dice che il 56% del collettivo guadagna al massimo 5 (mila euro); il 56% non guadagna più di 5 (mila euro). \(F_3=0.78\) ci dice che il 78% del collettivo guadagna 10 (mila euro); il 78% non guadagna più di 10 (mila euro). E infine il 100% del collettivo guadagna al massimo 20 (mila euro).

2.3 Rappresentazioni Grafiche

Diversi grafici statistici consentono di leggere in modo visivo una tabella di frequenza. Le frequenze vengono rappresentate come barre verticali -orizzontali- (diagramma a barre), o come angoli di una circonferenza (diagramma a torta).

Esempio 2.19 (Continua: Variabile titolo di studio) Consideriamo i 10 dati ordinati: \(x_{(1)}=E,x_{(2)}=M,x_{(3)}=M,x_{(4)}=S,x_{(5)}=S\) \(,x_{(6)}=S,x_{(7)}=S,x_{(8)}=L,x_{(9)}=L,x_{(10)}=L\) e la loro tabella di frequenza

\(X\) \(n_j\) \(f_j\) \(f_{\% j}\)
E \(1\) \(1/10=0.1\) \(10\%\)
M \(2\) \(2/10=0.2\) \(20\%\)
S \(4\) \(4/10=0.4\) \(40\%\)
L \(3\) \(3/10=0.3\) \(30\%\)
Tot \(10\) \(1.0\) \(100\%\)

Un diagramma a barre verticali trasforma le frequenze (assolute o relative) nelle altezze dei rettangoli

Mentre un diagramma a torta rappresenta le frequenze come spicchi della circonferenza e ovvero in angoli con una proporzione. Sia \(\alpha_j\) l’angolo dello spicchio \(j\) in corrispondenza della modalità \(j\), allora \[ \alpha_j : 360°=n_j:n \] da cui si ricava facilmente che l’angolo di ogni spicchio è \[ \alpha_j =f_j \cdot 360° \] o, in radianti \[ \theta_j =f_j \cdot 2\pi \]

Grafico a torta

Figura 2.1: Grafico a torta

Attenzione la terza dimensione è inutile, non ha interpretazione fenomenica e rischi di non fare cogliere l’angolatura giusta.

Attenzione alla terza dimensione

Figura 2.2: Attenzione alla terza dimensione

2.4 Istogramma di Densità

È grafico che rappresenta rettangoli contigui la cui area è la frequenza e la base è l’intervallo di raggruppamento. Usiamo il simbolo \(b_j\) per denotare l’ampiezza della base del rettangolo, l’altezza dei rettangoli viene chiamata densità.

Definizione 2.6 (Densità di Frequenza) Si definisce la densità di frequenza della classe \(j\) il rapporto tra la frequenza e l’ampiezza della classe. \[h_j = Const.\times \frac {f_j} {b_j}\] dove \(Const.\) è una costante numerica e \(b_j=\text{x}_{j+1}-\text{x}_{j}\).

Se \(Const.=1\) si ottiene l’istogramma di densità relativa, la somma delle aree dei rettangoli è 1. Se \(Const.=n\) si ottiene l’istogramma di densità assoluta, la somma delle aree dei rettangoli è \(n\). Se \(Const.=100\) si ottiene l’istogramma di densità percentuale, la somma delle aree dei rettangoli è 100. Per comodità tutti gli esempi si riferiscono all’istogramma di densità percentuale.

Tabella 2.2: Tabella 2.3: Come ricavare le quantità necessarie per calcolare l’istogramma di densità percentuale
\([\text{x}_j\), \(\text{x}_{j+1})\) \(n_j\) \(f_j=\frac{n_j}{n}\) \(b_j=\text{x}_{j+1}-\text{x}_{j}\) \(h_j=100\times\frac{f_j}{b_j}\)
\([\text{x}_1=0\), \(\text{x}_{2}=3)\) \(n_1=9\) \(f_1=\frac {n_1} n =\frac 9{45}=0.20\) \(b_1=3-0=3\) \(h_1=100\times\frac{0.20}{3}=6.67\)
\([\text{x}_2=3\), \(\text{x}_{3}=5)\) \(n_2=16\) \(f_2=\frac {n_2} n =\frac {16}{45}=0.36\) \(b_2=5-3=2\) \(h_2=100\times\frac{0.36}{2}=17.78\)
\([\text{x}_3=5\), \(\text{x}_{4}=10)\) \(n_3=10\) \(f_3=\frac {n_3} n =\frac {10}{45}=0.22\) \(b_3=10-5=5\) \(h_3=100\times\frac{0.22}{5}=4.44\)
\([\text{x}_4=10\) \(\text{x}_{5}=20)\) \(n_4=10\) \(f_4=\frac {n_4} n =\frac {10}{45}=0.22\) \(b_4=20-10=10\) \(h_4=100\times\frac{0.22}{10}=2.22\)

Esempio 2.20 La tabella 2.2 mostra passo, passo lo sviluppo del calcolo. La figura 2.3 la corrispondente rappresentazione grafica.

Rappresentazione grafica dell'istogramma di densità percentuale, l'area di ogni rettangolo corrisponde alla frequenza percentuale della classe, rappresentata sull'asse delle ascisse

Figura 2.3: Rappresentazione grafica dell’istogramma di densità percentuale, l’area di ogni rettangolo corrisponde alla frequenza percentuale della classe, rappresentata sull’asse delle ascisse

2.5 La Funzione di Ripartizione

Se i dati sono quantitativi continui raggruppati in classi, la Funzione di Ripartizione della VS \(X\) è la funzione che misura l’area dell’istogramma di densità (le aree sommano ad 1) dal più piccolo dei dati \(x_{(0)}\) fino ad un \(x\) qualunque. Se nel caso dell’esempio precedente scegliessimo \(x=7.2\), graficamente vedremmo la figura 2.4. Notiamo innanzitutto che:

\[\begin{eqnarray*} F(\text{x}_1)&=& 0\\ F(\text{x}_2) &=& F_1\\ F(\text{x}_3) &=& F_2\\ \vdots~~~ && \vdots\\ F(\text{x}_j) &=& F_{j-1}\\ \vdots~~~ && \vdots\\ F(\text{x}_{K+1}) &=& 1 \end{eqnarray*}\]

Rappresentazione grafica della Funzione di Ripartizione di $X$ valutata nel punto $7.2$, $F(7.2)$ è l'area da 0 a 7.2 dell'istogramma.

Figura 2.4: Rappresentazione grafica della Funzione di Ripartizione di \(X\) valutata nel punto \(7.2\), \(F(7.2)\) è l’area da 0 a 7.2 dell’istogramma.

Nel nostro caso \(F(7.2)\) è la comma delle frequenze fino a 5 più l’area del rettangolo di base \((7.2-5)\) e altezza \(h_3=4.4444/100\), ovvero \[\begin{eqnarray*} F(7.2) &=& f_1+f_2+\frac{(7.2-5)}{100}\times4.4444 \\ &=& F_2 +2.5\times0.0444\\ &=& 0.6533 \end{eqnarray*}\] Se per esempio ci interessasse sapere, in modo approssimato, che percentuale e quanti individui che guadagno meno di 7.2 (mila euro) al mese, basta moltiplicare \(F(7.2)\) per 100 e per \(n\), rispettivamente. \[\begin{eqnarray*} \%(X<7.2) &=& 100\times F(7.2) \\ &=& 65.3333\% \\ \#(X<7.2) &=& 45\times F(7.2) \\ &=& 29.4 \end{eqnarray*}\] Dove \(\%(X<7.2)\) significa la percentuale approssimata di dati minori di 7.2 e dove \(\#(X<7.2)\) significa il numero approssimato di dati minori di 7.2.

Se per esempio sono interessato alla percentuale (o al numero) di dati compresi tra 2.4 e 7.2 osservo che \[\begin{eqnarray*} \%(2.4<X<7.2) &=& 100\times (F(7.2)-F(2.4)) \\ F(2.4) &=& \frac{2.4-0}{100}\times6.6667 \\ &=&0.16\\ \%(2.4<X<7.2) &=& 100\times (0.6533-0.16) \\ &=& 49.3333. \end{eqnarray*}\] Infatti calcolare l’area tra 2.4 e 7.2 equivale a calcolare l’area fino a 7.2, l’area fino a 2.4 e sottrarle.

Più in generale la funzione di ripartizione cumula l’area dal più piccolo degli \(\text{x}\) fino al più grande.

\[\begin{eqnarray*} F(x) &=& 0 \quad \text{per ogni } x\le \text{x}_1\\ F(x) &=& F(\text{x}_{j^*-1}) + \frac{x-\text{x}_{j^*}}{100}h_{j^*}\\ F(x) &=& 1 \quad \text{per ogni } x\ge \text{x}_{K+1}\\ \end{eqnarray*}\]

dove \(j^*\) è la classe che contiene \(x\). Se la volessimo rappresentare graficamente, nel nostro esempio sarebbe così:

2.6 L’inversa della Funzione di Ripartizione

La funzione di ripartizione è una funziona che crescente che vale zero quando \(x\) è il più piccolo dei dati e vale uno quando \(x\) è il più grande dei dati. \[ F:S_X\to [0,1] \] Definiamo \(Q=F^{-1}\) la funzione inversa: \[ Q:[0,1]\to S_X \] ed è tale che \[ Q(p)=x_p:F(x_p)=p, 0\le p\le 1 \]

2.7 Indicatori Sintetici di Centralità e di Variabilità

Un indicatore è un numero che sintetizza una caratteristica del fenomeno collettivo. Esempi di indicatori sono: il massimo del fenomeno, il minimo del fenomeno, la media del fenomeno, la modalità più ricorrente, ecc.

Gli indicatori di centralità sintetizzano l’intero fenomeno in un numero. Indicatori di che osserveremo centralità sono:

  • La media aritmetica (variabili quantitative) nella sezione 3.1
  • La mediana (variabili quantitative e variabili qualitative ordinate) nella sezione 4.1
  • La moda (ogni tipo di variabile) nella sezione 4.4

La media aritmetica è una media analitica perché dipende dal valore che la variabile assume sulle unità. Mediana e Moda sono invece medie lasche perché dipendono dall’ordinamento dei dati.

Gli indicatori di variabilità misurano lo scostamento del fenomeno oggetto di studio dall’indicatore di centralità. Vedremo:

  • La varianza 3.2 e la standard deviation nella sezione 3.3
  • Lo scarto interquartile nella sezione 4.3