Sondaggi elettorali e metodo scientifico. Piovono percentuali - varieventuali

Tempo di elezioni, tempo di sondaggi elettorali.

Dal 29 aprile 2023 e fino alla chiusura delle operazioni di voto – ai sensi dell’art. 15, comma 2, della delibera AGCOM n. 87/23/CONS, secondo quanto previsto dall’art. 8, comma 1, della legge 22 febbraio 2000, n. 28 – è vietato rendere pubblici o, comunque, diffondere i risultati di sondaggi demoscopici sull’esito delle elezioni e sugli orientamenti politici e di voto degli elettori. Tale divieto si estende anche alle manifestazioni di opinione o a quelle rilevazioni che, per le modalità di realizzazione e diffusione, possono comunque influenzare l’elettorato.

Ogni qualvolta c’è una consultazione elettorale vengono effettuati dei sondaggi che a 2 settimane dal voto, però, non possono essere resi pubblici per non influenzare il voto stesso, ma i sondaggi hanno davvero il potere di spostare voti?

Forse gli indecisi potrebbero in base alle previsioni decidere chi votare ed essendo gli indecisi una categoria sempre più numerosa il divieto sembrerebbe avere un senso, ma questa ipotesi di influenza parla più di una scienza della comunicazione che di una scienza di raccolta dati, perché i sondaggi elettorali non seguono strettamente il metodo scientifico.

Qual è la procedura con la quale vengono effettuati?
Un sondaggio per essere affidabile deve avere un errore del 3% in un intervallo di confidenza del 95%, che significa che ci deve essere il 95% di possibilità che i risultati siano entro i 3 punti percentuali del risultato finale del voto.

E come si può raggiungere questo risultato?
Si sarebbe portati a pensare che più persone intervisto e più il risultato sarà affidabile, ma in realtà si è riscontrato che esiste un numero sotto il quale l’errore è sicuramente maggiore del 3% e sopra il quale l’errore non scende significativamente sotto il 3.
Quel numero è 1000 ed è indipendente dalla grandezza del numero di popolazione che si vuole indagare, è valido per esempio per una città di 10mila abitanti, come per una di 5milioni.
Analizzando i dati ottenuti in passato si è quindi giunti al numero 1000, ma a questo punto bisogna procedere a selezionare il campione da intervistare in modo che sia rappresentativo e qui inizia a vacillare il metodo rendendolo sempre meno scientifico.
Perché è chiaro che se si intervistano 900 elettori di sinistra, 50 di destra e 50 di centro il risultato, seppur sulla base di 1000 interviste risulterà falso perché il campione sarà distorto.

A tal proposito viene spesso citato un episodio riguardande l’elezione del presidente degli USA nel 1936: la rivista Literary Digest intervistò più di 2milioni di persone estratte dal registro automobilistico e dall’elenco telefonico. Dai risultati ottenuti concluse che le elezioni sarebbero state vinte dal repubblicano Landon.
Contemporaneamente uno statistico, George Gallup, intervistò un numero più esiguo di persone, circa 50mila, e predisse la vittoria del democratico Roosvelt.
Vinse Roosvelt e Gallup dimostrò che più del numero di intervistati conta il modo in cui questi vengono selezionati per essere rappresentativi dell’intero elettorato, infatti la Literary Digest selezionando gli intervistati dal registro automobilistico e dall’elenco telefonico finì ad avere nel campione un numero di repubblicani molto maggiore rispetto ai democratici in quanto i primi generalmente più abbienti dei secondi erano i maggiori possessori di auto e apparecchi telefonici.
Questo episodio è stato fondamentale per fondare uno dei princìpi saldi del sondaggio elettorale:
la dimensione del campione statistico è meno importante rispetto alla sua composizione.

La composizione del campione deve essere casuale (dipendente dal caso) e probabilistica (per ciascun campione la probabilità di essere scelto deve essere diversa da zero, permettendo così l’inferenza, ovvero la generalizzazione dei risultati).

Dall’episodio del 1936 in poi i sondaggi elettorali vennero quindi eseguiti con il metodo delle quote il quale tiene conto della diversità di genere, di appartenenza geografica, di censo, di istruzione e di età.
Questo metodo non è basato sulla teoria statistica e le proporzioni di queste variabili nella popolazione danno le quote da applicare al campione. Questa è una fase arbitraria, non ci sono criteri universali e ogni società demoscopica ha i suoi metodi per creare i campioni rappresentativi
Un buon sondaggio prevede dalle 3 alle 6 quote, numeri maggiori non abbatterebbero significativamente la percentuale di errore sotto il 3%, ma aumenterebbe soltanto la complessità del sondaggio e il suo costo, fino ad arrivare al paradosso di avere un campione delle dimensioni della popolazione.
Stabilite le quote del campione si procede con le interviste che possono avvenire tramite telefono con operatore o messaggi registrati (CATI)¹, via internet (CAWI)¹ o cellulare (CAMI)¹, o di persona (CAPI)¹ metodo ormai meno utilizzato.
Le persone vengono scelte quindi a caso dagli elenchi telefonici o di email.
Il numero da selezionare sarà ovviamente maggiore di 1000 perché non tutti risponderanno o saranno rappresentativi, per esempio in un caso per ottenere 810 interviste sono stati recuperati 11mila contatti (misto telefonici ed email) .

Cosa sucede dopo aver raccolto le risposte delle interviste?
La prima cosa da fare è verificare se le quote sono state rispettate, ma difficilmente ogni quota sarà completata e quindi chi svolge il sondaggio deve procedere in modo da riequilibrare le interviste mancanti nelle quote incomplete.
Mi spiego se le quote richieste per gli under 30 dovevano essere 150, ma si hanno solo 120 interviste queste dovranno pesare come 150 e per far questo bisognerà ponderare il risultato e per farlo ogni società di sondaggio sceglie un metodo secondo la propria esperienza e filosofia, come per esempio valutare i risultati precedenti di sondaggi effettuati sullo stesso argomento. In questa fase è chiaro come il sondaggio si allontani dal metodo scientifico e perché le variazioni settimanali di zero virgola siano poco significativi. A questo proposito Youtrend.it (sito che consiglio di seguire) utiliza la Supermedia (utilizando risultati di diverse società demoscopiche) che “non è una semplice media aritmetica dei sondaggi che vengono pubblicati. È una media “ragionata”, cioè con diversi tipi di ponderazione, che serve a restituire un quadro quanto più realistico possibile delle intenzioni di voto.” Dove non risultano interessanti le variazioni settimanali, ma le tendenze del medio periodo.

In Italia esistono molte società di sondaggi, almeno una dozzina, rispetto al numero presente in altre nazioni simili (Francia 3, USA 5): una di queste è un operatore internazionale IPSOS, altre sono di dimensioni medie e importanti solo sul nostro territorio come per esempio l’Istituto Piepoli e Demos e altre sono società ad unico committente che non significa meno professionali, ma probabilmente più generose nella ponderazione con le percentuali del proprio committente.

A questo punto è chiaro perché a due settimane dalle elezioni viene impedita la divulgazione dei risultati dei sondaggi, la porzione di ponderazione è importante, aleatoria e potrebbe essere interpretata come veritiera e per questo usata per orientare gli indecisi per esempio.
In realtà i sondaggi cercano di descrivere una realtà complessa e pertanto dovrebbero essere utilizzati con molta prudenza, e il loro utilizzo attiene più alla scienza della comunicazione che a quella dei dati proprio per l’uso che se ne fa, soprattutto dai media e dai partiti elettorali.
@zia_mi

¹ CATI: Computer-Assisted Telephone Interviewing
CAWI: Computer-Assisted Web Interviewing
CAMI: Computer-Assisted Mobile Interviewing
CAPI: Computer-Assisted Personal Interviewing