Osservo 100 persone → 53 hanno l’allele APOE \(\varepsilon4\) → com’è composta
l’urna?
Estraggo 10 palline da un’urna e 10 dall’altra → 6 sono vincenti
dalla prima e 4 dalla seconda → le due urne sono uguali?
Osservo 100 anziani con l’Alzheimer e 100 anziani senza → 49 su 100
tra chi ha l’Alzheimer ha l’allele APOE \(\varepsilon4\), 32 su 100 tra chi non ha
l’Alzheimer ha l’allele APOE \(\varepsilon4\) → i due gruppi sono
uguali?
Dalla probabilità all’inferenza
Esistono diversi approcci filosofico/concettuali
Dipende dalla definizione di probabilità
La probabilità in senso frequentista:
La probabilità vera esiste ma è incognita
Il vero \(\pi\) di un’urna esiste
ma è incognito
La probabilità si applica solo agli esperimenti ripetibili (come le
estrazioni)
\(\pi\) non è oggetto di estrazione
casuale, non posso usare la probabilità per descrivere la mia
incertezza
La probabilità non basta: per fare inferenza servono nuovi concetti
→ statistica classica
La probabilità in senso soggettivista:
La probabilità è un modo per modellare l’incertezza soggettiva
Qualsiasi cosa ignota può essere trattata come aleatoria
Siccome \(\pi\) è incognito lo
modello come una VC
La probabilità contiene anche l’inferenza statistica → statistica
bayesiana
Statistica Classica vs Statistica Bayesiana
Statistica Classica
È il più diffusa nelle applicazioni e nelle discipline
scientifiche
È storicamente consolidata (Fisher, Neyman, Pearson…)
Resta il termine di confronto per ogni alternativa
Statistica Bayesiana
È ancora emergente nelle applicazioni
È dibattuta perché introduce elementi soggettivi in modo
esplicito
È spesso studiata in contrapposizione alla statistica classica, in
corsi più avanzati
Estende e generalizza i risultati della statistica classica
Campione e Campionamento
Tutta l’inferenza parte dall’osservazione di un campione
Il campione è al fonte principale di informazione
Rappresenta (idealmente) qualcosa di più grande
Campioni Casuali
La casualità nella selezione garantisce generalizzabilità
Senza casualità: rischio di distorsione sistematica
La probabilità permette di misurare l’incertezza
Inferenza da popolazioni finite
Popolazioni chiuse, elencabili (es. censimenti)
Necessario un registro completo della popolazione
Richiede disegno campionario, strumenti di rilevazione, controllo
qualità
Tipica delle statistiche ufficiali (ISTAT, Eurostat, OCSE)
Esempi di indagini su popolazioni finite
Forze di lavoro (ISTAT): tasso di occupazione, 77 000
famiglie/trim.
Consumi delle famiglie (ISTAT): diario spese, 30 000
famiglie/anno
EU-SILC (Eurostat/ISTAT): redditi e disuguaglianze, >20 000
famiglie
PISA (OCSE): competenze studenti quindicenni, 11 000 studenti/3
anni
PIAAC (OCSE): competenze adulti 16-65 anni, 5 000 individui
TALIS (OCSE): condizioni di lavoro degli insegnanti, 3 000
insegnanti
Inferenza da popolazioni infinite
Popolazioni non enumerate, concettualmente infinite
I dati sono realizzazioni di una variabile aleatoria
Si adotta un approccio modellistico probabilistico
Esempi di popolazioni non enumerate
I consumatori abituali degli spaghetti Barilla
Le aziende con un gestionale più vecchio di 10 anni
Le formiche presenti in una foresta tropicale
I malati di diabete nel mondo
Esempi di inferenza da popolazioni infinite
Processi fisici e ambientali (es. temperatura, inquinanti)
Produzione industriale (pezzi futuri)
Eventi ripetibili (click, richieste a server)
Inferenza non parametrica e parametrica
Non parametrica: osservazioni IID, nessuna ipotesi sulla
distribuzione
Parametrica: ipotesi su una famiglia di distribuzioni
Scelta = compromesso tra flessibilità e precisione