Correlazioni Eur04-Cam06-Cam08 (Eur09 a breve)

« Older Newer »

sborgus

Posted on 21/4/2009, 03:29

CITAZIONE (M(a)rco @ 21/4/2009, 04:16)

Dite anche di contare un settimo partito?
Secondo me 6 son già sufficienti.

Ditemi voi.

p.s.: grazie Salvo

Di niente, stavo giusto pensando a come mi sarei trastullato nottetempo ora che ho abbandonato le torte di excel.

Direi in ogni caso che 6 partiti bastano, o comunque quelli che hai preso sono quelli giusti.

M(a)rco

Posted on 22/4/2009, 02:26

Appena Salvo mi manda il suo file inizio con l'analisi su tutte e tre le tornate.

Animamigrante

Posted on 22/4/2009, 07:16

Ah, nel caso a qualcuno fosse venuto il dubbio (naaaaaaaaaaaaaaaaaah...

), Euro04 son già state fatte.

M(a)rco

Posted on 22/4/2009, 11:36

Ho gia' preparato il codicillo matlab con una sezione dedicata alla simulazione montecarlo da implementare se ho tempo. Per inciso, le distribuzioni di voto entro le province nel tempo seguono gamma, t o lognormale. Giusto per la cronaca. Per testarle, rinormalizzate i campioni entro una provincia ( formuletta: voti/somma(voti)), fittate con distribuzioni teoriche campione e vedrete il risultato.

Le correlazioni avviso sin da ora che sono infingarde, perche'

1. per EUR04 mancano alcune province e quindi le province che negli anni successivi si distaccano possono inficiare la correlazione. Stabilire quindi quanto siano stabili le nuove province per avere un quadro piu' corretto.
2. la lega al sud non si presenta (se non in EUR04 con percentuali prossime allo zero). Al Nord percio' la correlazione e' piu' precisa perche' tiene conto di un partito in piu'. Se si trova una provincia quindi da Rimini in su mi sento piu' tranquillo.

Ci son province che sballano totalmente, al nord, centro come al sud. Alcune hanno correlazione 0.7...della serie, votiamo a cazzo di cane. Interessanti invece i grafici di correlazione tra le liste (statter plot): Ulivo-Lega, PDL-Lega, PD-PDL le piu' significative. UDC il partito piu' stabile tra i grandi.

Quindi trattero' due analisi separate: 1) per il nord fino a Rimini 2) da Rimini in giu'. Rimini e' lo spartiacque che ho considerato vedendo i dati.

Sto anche valutando se ripesare le 3 tornate secondo un parametro che dipenda dal periodo in cui si sono svolte le elezioni. Penso a qualcosa tipo il grado di cedimento del csx rispetto a quello del cdx nel tempo. Vedro'.

p.s.: avessimo le disponibilita' economiche sul sito costruirei un database mysql con tutti questi files che stiamo catalogando ed analizzando.

sborgus

Posted on 22/4/2009, 13:35

Marco ho finito CAM06, te lo sto mandando su pvt.

Sorry for the late.

M(a)rco

Posted on 22/4/2009, 15:33

Ragazzi, volete capire al volo cosa voglia dire un sistema che sta tendendo al bipartitismo?

Guardate qua e capirete (non potevo crederci, ho rifatto i conticini più volte ed alla fine mi sono arreso all'evidenza)

Sarà interessante vedere se con EUR09 il trend continuerà come per le due CAM.

M(a)rco

Posted on 23/4/2009, 04:29

Uff, è stata dura ma un primo risultato l'ho ottenuto.

1. Considerato per il momento le prime 46 province (fino a Rimini), laddove la Lega ha ottenuto percentuali accettabili.

2. Calcolato le dispersioni per ogni provincia rispetto al dato nazionale, per le tre elezioni (EUR04, CAM06, CAM08).

3. Calcolato i valori medi di dispersione per elezione, per partito e per provincia

4. un po' di statistica noiosa che non vi sto a spiegare ora (se volete sono a disposizione)

5. stabilito 5 livelli di confidenza per il mio modello

range_mean = [0.01 0.015 0.02 0.025 0.05]

All'1% di confidenza, la provincia di Imperia è risultata la più stabile su tutte e tre le tornate

Valor medio di dispersione su tutte e tre le elezioni

0.00202610518199

STD

0.07164950001413

Valor medio di dispersione per Elezione

0.05285748394918 0.03314163771819 -0.07992080612139

STD

0.28469688582648 0.25475958390901 0.22200439547277

In questo file .xls troverete tutti i valori, partito per partito, per le 3 elezioni

http://www.fileshost.com/download.php?id=53A78D291

Qui invece il fit lineare per le variazioni tra modello e dati reali.

A prima vista sembra un fit bruttino: se fate attenzione ai valori degli scarti noterete che parliamo di centesimi...

Per concludere questa prima analisi:

sebbene i valori della provincia di Imperia comparati con quelli nazionali per ogni elezione siano piuttosto discordanti, ciò che importa in questa analisi è il grado di stabilità della provincia rispetto agli scarti percentuali nel corso degli anni.
Imperia ha passato il test secondo le confidenze che ho stabilito.

Edited by M(a)rco - 23/4/2009, 06:55

M(a)rco

Posted on 23/4/2009, 05:50

Qui invece la proiezione basandomi sul mio modello per Eur09

Proiezione dispersione media tra i risultati di Imperia-Nazionale.

-0.13076

A questo vanno applicati i pesi per i vari partiti.

Per le proiezioni sui partiti però ho bisogno di un vostro parere "statistico-politico":

il PD compare solo in CAM08, mentre prima c'era l'Ulivo. Brutalmente li considero equiparabili e perciò proietto come se fossero lo stesso partito oppure avete in mente dei correttivi da applicare?

Stessa cosa per la sinistra arcobaleno.

Per il momento io ho calcolato gli accorpamenti brutali (Ulivo=PD, PDL=FI+AN, SA=RC)

Mi vengono fuori questi correttivi, rispettivamente per

PD-PDL-Lega-UDC-RC

8.05587449539734 -9.80928536793131 -0.95800567999969 0.34431073892623 0.90195892303443

con queste STD

1.47865025148016 1.78399172855160 0.39862108075056 1.28640938625853 0.29282453742599 0.39862108075056

Usandoli retroattivamente su Imperia, ottengo i valori che ho inserito in questo file

http://www.fileshost.com/download.php?id=941C3C9B1

Graficamente potete vedere tutto qui con i relativi scarti (mod = 'Modello')

Questa è la conclusione della prima tornata per questo modello. Ho già in mente alcune correzioni per migliorare gli scarti, che già così a vista mi sembrano buoni.

Edited by M(a)rco - 23/4/2009, 07:22

M(a)rco

Posted on 23/4/2009, 06:38

Per la cronaca le altre province secondo i livelli di confidenza

1.5%
'Imperia'

2%
'Trieste'
'Imperia'

2.5%
'Alessandria'
'Trieste'
'Imperia'

5%
'Torino'
'Alessandria'
'Vercelli'
'Gorizia'
'Trieste'
'Genova'
'Imperia'
'Savona'
'Parma'

Quindi, regione più stabile ---- Liguria

Veh, comunque creare modelli per le elezioni italiane è da follia, perchè mutano sempre i partiti, coalizioni.
Ci credo che nei paesi anglosassoni hanno modelli molto efficienti: son capaci tutti a creare modelli per 3 partiti...
Non parliamo poi degli USA, basta applicare la distribuzione binomiale, rosso o nero con lo 0 (tipo Perot) che fa da disturbatore in alcuni stati.

M(a)rco

Posted on 23/4/2009, 08:28

Le modifiche che voglio apportare sono correttivi dinamici ai pesi relativi per partito. Ovvero, stabilire quale sia il trend per ogni partito, crescente o decrescente, quindi applicare una media pesata e poi testare con un fittino lineare ogni peso.

Trovando ancora una o due province per il nord (trieste ed alessandria le papabili) ed un paio per il centro-sud (lucca quasi certamente e forse potenza), mediamo il tutto e con i vostri accorgimenti per gli accorpamenti dei partiti dovremmo avere un modellino discreto da applicare.

M(a)rco

Posted on 24/4/2009, 11:21

Ho avuto alcune idee per rendere il modello più calibrato. Vediamo se riesco a spiegarmi decentemente.

Questo è un esempio per la provincia di Torino. Ho accorpato FI e AN in PDL, Ulivo con PD e RC metà SA. Inizio con questa provincia altrimenti vi confondo solo le idee.

Nella colonna di sinistra, per ogni partito, il segno di ogni dispersione. Se negativo, si sottostima il partito, se positivo si sovrastima rispetto al dato nazionale. In questo modo si capisce qualitativamente se la provincia è stabile nel trend di stima nel corso delle 3 elezioni.

Nella colonna di destra, per ogni partito, il trend di stima cumulativo. Se > 0 si sovrastima, se <0 si sottostima. Se le barre tendono a salire, il trend di sovrastima è crescente, altrimenti è decrescente oppure oscilla. Per ogni partito poi la percentuale di sottostima per ogni elezione nella macroregione a cui appartiene la provincia (Sino a Rimini considero Nord, in quanto le percentuali della Lega sono ancora in linea con il dato nazionale)

Perchè sto facendo ciò? Perchè inizialmente ho guardato al valor medio della dispersione per elezione e poi su tutte e 3 elezioni. Tuttavia mi sono reso conto di alcuni dettagli non trascurabili:

cosa intendiamo per stabilità di una provincia?

1. la provincia rispecchia i dati nazionali (caso più unico che raro, vale al limite per un singolo partito, ma certamente non per tutti. La lega rompe spesso i coglioni in questo)
2. Benchè non rappresentativa, la provincia può essere stabile se sovrastima o sottostima allo stesso modo (qui su tutti i partiti, visto che non ci possiamo permettere di monitorare 10 province a seconda del singolo partito). Si ricava perciò un trend medio, pesato rispetto al partito in questione.

I pesi, per le 3 elezioni (EUR04, CAM06, CAM08) sono i seguenti

Fi-AN-PDL = 0.4032 0.4267 0.4346
Ulivo-PD = 0.3865 0.3700 0.3856
Lega = 0.0618 0.0542 0.0964
UDC = 0.0732 0.0800 0.0654
RC-SA = 0.0753 0.0691 0.0179

3. Il trend di stima può essere crescente o decrescente: alcune province tendono a mostrare un andamento di sottostima o sovrastima in salita o discesa (questo è ciò che chiamo stima dinamica)

Es.: nel caso di Torino
PDL: sottostima con trend in crescita (valor assoluto)
PD: sovrastima in crescita
Lega: debolmente oscillante
UDC: sottostima in crescita (valor assoluto)
RC = sovrastima in crescita

4. Alcune invece tendono a mostrare oscillazione, e poichè abbiamo una serie storica di sole 3 elezioni è difficile stabilire cosa faranno in EUR09. Tendo perciò a scartare le province con oscillazioni troppo marcate e mi limito a quello omodirezionali.

Cosa se ne deduce da tutto ciò per il modello di proiezione?

Inizialmente ho considerato Imperia come provincia con il miglior valor medio di dispersione su tutte e 3 le elezioni entro un margine dell'1% di confidenza. Tuttavia, e qui sta il punto, non è detto che questo renda la provincia più stabile. Infatti, basta avere in un'elezione una sottostima di -10, in un'altra elezione una sovrastima di +10 e nella terza sostanziale azzeramento che il valor medio risulta 0. Le oscillazione sono una brutta gatta da pelare con solo 3 dati da cui estrapolare un quarto.
A parer mio questo non è molto indicativo, o meglio, non mi assicura al 100%.
E' forse preferibile una provincia che sovrastimi o sottostimi, anche di +30, ma che lo faccia in modo costante, oppure che lo faccia con un trend costante di crescita o decrescita.

Es.: Torino sottostima in modo costante il PDL e sovrastima in modo costante il PD. Questo è un buon segno di stabilità generale. La lega è più o meno stabile e questo mi rincuora. Al Nord, per ovvi motivi c'è un 75% circa che la lega sia sottostimata. Non mi aspettavo però che ci fosse un 85% di probabilità di sottostima in CAM08 per il PDL (probabilità in fortissima crescita per di più). Può essere anche una sottostima lieve, ma in tanto c'è.
Notare che al Nord, PD e SA in CAM08 hanno la STESSA probabilità al millesimo di essere sovrastimate. Ma mentre per la SA il trend è oscillante, per il PD è in aumento. Brutto segno.

Perciò voglio rivedere i miei conti per stabilire se con questo metodo si riesce ad ottenere una proiezione più corretta.
Certo di conti ce ne sono uno strafottio e 1/2 da fare (aritmetici e statistici), ma se il tempo è dalla mia parte penso che ne valga la pena, specie per un modello futuro di proiezione del TP su scala provinciale. Non pensavo ci sarebbe voluto tutto questo tempo però.

M(a)rco

Posted on 30/4/2009, 12:18

Qui tutte le province fino a Rimini (46), aggiungendo nella terza colonna anche i valori di dispersione per partito nelle 3 elezioni.

Ho usato anche dei correttivi per le elezioni CAM06 e EUR04, aggiungendo i partiti che nel 08 fecero parte di PDL, PD e SA.

http://www.fileshost.com/download.php?id=9B8D0DBF1

Sto valutando ora come trattare le dispersioni per ottenere province le più stabili.

Abbiate pazienza per i risultati finali.

M(a)rco

Posted on 30/4/2009, 19:18

E finalmente i dati delle altre 63 province non contenenti i dati della Lega (solo PDL, PD, UDC e SA), cioè da Rimini in giù, isole comprese.

Stessa metodologia: noterete alcune province senza grafici. Sono le province che in EUR04 non erano presenti e perciò le ho trascurate.

http://www.fileshost.com/download.php?id=12AD8D611

M(a)rco

Posted on 30/4/2009, 20:31

Primo Metodo

Tirando una paio di somme: usando il metodo dei valori medi di dispersione, sono giunto a questa conclusione.

Centro-Sud, confidenza del 2% (a fianco il valor-medio-dispersione)

'Siena ' 0.0147
'Prato' 0.0113
'Benevento' -0.0026
'Salerno' -0.0147
'Potenza' -0.0124
'Reggio Calabria' 0.0082
'Vibo Valentia' 0.0121
'Caltanissetta' 0.0135
'Sassari' 0.0097
'Oristano' -0.0060
'Olbia-Tempio' -0.0118

Centro-Nord, confidenza 5%

'Torino' 0.0302
'Alessandria' 0.0208
'Vercelli' 0.0315
'Trento' 0.0468
'Gorizia' 0.0370
'Trieste' -0.0174
'Genova' -0.0383
'Imperia' 0.0020
'Savona' -0.0281
'Parma' 0.0377

Per ottenere i risultati, procedere in questo modo

1a. Prendete i dati provinciali di EUR04, CAM06 e CAM08
1b. divideteli per (valor-medio-dispersione + 1)
2. Osservate la differenza con i dati della provincia (sono molto vicini...bingo!)
3. Sottraete i dati così calcolati con quelli nazionali (facendo attenzione ad associare i partiti giusti)
4. fate la media delle differenze e quelli sono i pesi da utilizzare
5. a voler fare i sottili, potete fare una regressione lineare ed utilizzare il dato che vi darebbe il fit se prolungaste la retta di un valore (cioè EUR09)

Appena riesco, vi riporto i conti anche per il Secondo Metodo, ovvero quello dei trend di stima (ci sono più parametri da considerare di quello che pensassi).

laurentius

Posted on 2/5/2009, 13:01

Interessante. Resta da capire come applicare questo metodo la sera delle elezioni, visto che tempo che finiscano di scrutinare le province e si sanno già bene o male i dati definitivi.

29 replies since 16/4/2009, 08:07 484 views