00 28/04/2015 20:34

parte 4


La risposta, ovviamente, è: ‘dipende da quanto si vuole che sia accurata tale stima’. Ogni calcolo statistico reca sempre con se un ‘errore’, dove l’errore non è inteso nell’accezione comune (= sbaglio), ma è una tolleranza entro la quale si deve ‘leggere’ il risultato. L'errore di cui parliamo è di solito espresso in quota percentuale (errore percentuale), come le altre grandezze in gioco.

Nel nostro esempio, se si riuscisse effettivamente a porre a tutti i napoletani (circa un milione) la domanda dell’indagine, e nell’ipotesi (anch’essa non realistica, cosa di cui faremo cenno in seguito) che le risposte siano tutte veritiere, si avrebbe un margine di errore percentuale dello 0%: il risultato è esatto e attendibile al di là di ogni dubbio. Se all’opposto ponessimo la domanda ad un solo abitante di Napoli, indipendentemente dalla risposta, avremmo un margine di errore del 100%: è ovvio che il suo parere non sarebbe statisticamente rappresentativo di quello di tutti i suoi compaesani, e, di fatto, il risultato è inutilizzabile.

Che accade in tutti i casi intermedi? Che margine di errore si ottiene nell’intervistare cento, duecento, mille, diecimila, cinquecentomila napoletani e nell’assimilare il risultato alla reale percentuale cittadina di apprezzamento del sushi?

Esistono diverse formule che permettono di calcolare questo margine di errore. Una delle più comuni è la seguente:

[IMG]http://i62.tinypic.com/2i8eyci.png[/IMG]


La matematica è notoriamente poco amata, anche da parte di persone coltissime, e soprattutto lo è quella che fa uso più di simboli che di numeri; ma qualche parola di spiegazione è indispensabile (ovviamente semplificheremo il più possibile le questioni in gioco).

Questa formula, come si diceva di largo utilizzo, stima un margine di errore al 95%. Questa percentuale è detta anche intervallo di confidenza: il risultato infatti è ‘fidato’ perché possiamo essere ragionevolmente sicuri (al 95%, appunto) che esso rispecchi la realtà anche per quella parte di popolazione che non abbiamo intervistato. (Come vedremo, per ‘risultato’ non intendiamo però un singolo numero, quanto piuttosto un intervallo di valori). (NOTA 1)


Le due variabili che compaiono a destra sono:

1) PR, che rappresenta la percentuale che risulta dal sondaggio.

2) N, che è la numerosità del campione.


Ad esempio, se si applicasse questa formula al caso del sondaggio PEW, otterremmo:

- N = 211 (intervistati testimoni di Geova)
- PR = 9% (percentuale di testimoni di Geova laureati rilevata dal PEW. Si tenga presente che nella formula le percentuali sono espresse in frazione unitaria: 9% = 0,09)

Ne risulta un margine di errore di circa 4% (0,038). NOTA 2.


Questo ci dice che, se si prende per buono questo margine e il modo in cui è stato valutato, la percentuale dei laureati USA non è esattamente del 9%, ma è in un intervallo compreso fra il 5% ed il 13% (9 ± 4%) NOTA 3.

Da notare che tutti i valori compresi in questo intervallo hanno analoga verosimiglianza: l’elemento centrale dell’intervallo (9%), come vedremo meglio nella successiva sezione, ha sì una probabilità maggiore degli altri, ma non li domina in una misura statisticamente rilevante. Ergo, i laureati TdG americani potrebbero essere del 5%, come del 9%, come del 13%, praticamente con la stessa probabilità. Per capire questo punto, si supponga di estrarre a caso da un sacchetto di fagioli contenente 100 fagioli bianchi, 99 fagioli neri e 99 fagioli rossi: esiste una probabilità di poco maggiore che il fagiolo estratto sia bianco, ma le tre possibilità sono di fatto quasi equivalenti. NOTA 4


Vediamo ora che cosa dichiara lo stesso PEW a proposito dell’errore con il quale dev’essere considerata la "famigerata" statistica del 9%.



_____________________________________________________________

NOTA 1: Il concetto di intervallo di confidenza è molto importante, dato che in teoria, intervistare anche un campione numericamente elevato di persone potrebbe portare a risultati errati. Ad esempio, supponiamo che a Napoli solo cinquemila persone amino il sushi (è nota la devozione che i partenopei hanno per la propria, storica tradizione culinaria!) e che l’intervistatore, per un caso incredibilmente sfortunato, ‘peschi a caso’ proprio in questo sottoinsieme: gli risulterebbe una percentuale di gradimento "napoletano" del sushi del 100%.

Chiaramente ciò è irrealistico; meno lo sarebbe invece supporre che l’insieme di intervistati non sia rappresentativo della realtà, e per qualche “errore di campionamento” (es.: condurre il questionario solo fra gli strati più elevati della società, che sono di norma meno refrattari alla cucina etnica) una percentuale di essi molto elevata, anche se non del 100%, risponderà di sì. Questa stima risulta contraria all’esperienza diretta, la quale porterebbe a ritenere che la percentuale cercata, per le ragioni esposte, sia relativamente bassa (si tratta cioè di un sondaggio a tesi).



NOTA 2: sul sito surveysystem.com è presente un semplice automa con il quale ci si può 'divertire' (in mancanza di svaghi migliori!) a calcolare in automatico il sample size needed (dimensionamento del campione) in funzione del confidence interval (margine di errore desiderato) e di una data popolazione. Il livello di confidenza può essere fissato al 95%, come nel caso dei calcoli PEW, o al 99%.

Ecco ad esempio la maschera del calcolatore con i dati di input 7 (margine di errore desiderato) e 1.000.000 (popolazione, una buona approssimazione sia del nostro esempio napoletano che del numero di testimoni di Geova americani). Ne viene fuori 196: in queste ipotesi è sufficiente un campione di meno di 200 interviste. Il margine di errore può essere inserito sia in forma di frazione unitaria (0,07) che nel più comune formato percentuale (7), dato che l'automa non distingue fra i due casi.

[IMG]http://i59.tinypic.com/5c0q9y.png[/IMG]

Nella pagina non sono specificate le formule usate dall'automa, e i valori dei parametri in gioco risultano differenti da quelli da noi ricavati nell'articolo; ma il calcolatore va benissimo per un'analisi di massima del fenomeno.

Nell'immagine che segue abbiamo riportato una tabella con la variabilità del campione richiesto per un margine di errore variante tra l'1 ed il 10%, ed il relativo andamento grafico interpolato. Ad esempio, se si desidera un margine di errore dell'1%, occorre intervistare oltre 9500 persone. Al ridursi delle pretese sulla precisione della stima (asse orizzontale: aumenta il margine di errore), diminuisce sensibilmente la dimensione dell'insieme delle interviste che è necessario condurre.

[IMG]http://i60.tinypic.com/2qlako9.png[/IMG]

Una ulteriore maschera della stessa pagina permette di valutare, dopo aver fissato la stima percentuale (nel nostro caso: ratio laureati USA testimoni di Geova secondo il PEW = 9%), la decrescita dell'errore percentuale all'aumentare del campione. La tabella ed il grafico che seguono sono ottenuti da questa seconda maschera. Per avere un margine di errore come quello ottenuto per i cattolici (1,5%), occorrerebbe secondo questo calcolatore un campione di 1400 persone (penultima riga della tabella, in grassetto), superiore di quasi 1200 unità a quello, esiguo, sul quale il PEW ha ottenuto le sue più diverse conclusioni.

[IMG]http://i61.tinypic.com/34pct3k.jpg[/IMG]



NOTA 3: peraltro nulla vieta di applicare l’errore individualmente alle due componenti (6% graduate, 3% post graduate), ottenendo margini di errore rispettivamente del 3% e del 2%, e di comporre i due risultati in uno solo. Ciò porta ad un valore massimo di laureati superiore di un punto percentuale a quello valutato: 14% invece di 13%. In questa economia, considerando gli estremi superiori degli intervalli di variabilità che sono quasi equiprobabili al valore centrale, il 6% di graduate può aumentare fino 9% (6% + margine di errore del 3%) ed il 3% dei post-graduate può aumentare fino al 5%. Sommando le due componenti, abbiamo un valore massimo plausibile per numero di laureati americani tdG del 14% (9+5). L’operazione anzidetta è lecita, perché le due componenti graduate e post-graduate appartengono ad insiemi ad intersezione vuota. Nel seguito tuttavia rinunceremo a questa vantaggiosa alternativa, facendo sempre l'assunto di applicare il margine alla somma delle due componenti.


NOTA 4: per i lettori non a digiuno di teoria della probabilità, nel caso in esame la concentrazione può essere raffigurata ricorrendo a grafici non dissimili dalle ben note campane di Gauss utilizzate per le concentrazioni normali. Nel grafico che segue (che è puramente qualitativo),

- il diagramma rosso corrisponde ad una distribuzione nella quale lo scostamento intorno al valore percentuale centrale, che qui è la media dei laureati secondo il PEW (ad esempio il 16% nel caso dei cattolici), è basso e la fluttuazione intorno alla media risulta contenuta, rendendo molto probabili - come si evince dal valore in ordinata, del 90% - ed equiprobabili fra loro, i valori di questo intervallo (14,5% - 17,5%) e poco probabili tutti i valori esterni allo stesso.

- il diagramma azzurro descrive il fenomeno per cui, come avviene per le stime PEW sui testimoni di Geova, il margine di errore è elevato. Ciò crea una zona di incertezza molto estesa (colorata in GIALLINO) nella quale un'ampia gamma di valori risultano equiprobabili (dall'1 al 17% nel caso dei testimoni di Geova), oltre che poco probabili in assoluto (valori in ordinata intorno al 20%).


[IMG]http://i61.tinypic.com/2ldhy11.png[/IMG]

[Modificato da EverLastingLife 02/05/2015 19:01]