ForumCommunity

Analisi statistiche

« Older   Newer »
  Share  
M(a)rco
view post Posted on 5/4/2009, 19:33




No, nessun calcolo complesso, specie perchè excel fa (quasi) tutto per voi. Voi dovete solo metterci l'interpretazione del valore ottenuto.

Datevi perciò una ripassata veloce a quegli argomenti che vi ho segnalato. Wikipedia va più che bene, specie se usate quella inglese, che è più completa per quanto riguarda gli esempi.

Il concetto di fondo che emergerà in queste analisi è che le distribuzioni NON saranno Gaussiane (a campana), ma saranno asimmetriche (terzo momento) e molto "piccate" (quarto momento). Nelle distro Gaussiane pure l'asimmetria è uguale a zero mentre il picco è uguale a 3.

Non è difficile da comprendere il perchè: non ci possono essere valori negativi, quindi si parte da zero fino a 100 (se usiamo percentuali), perciò il valore medio sarà spostato verso sinistra rispetto al 50% (mediana teorica in una distribuzione perfettamente Gaussiana). Difficile che un partito prenda più del 50%. Quindi, la distribuzione assume una forma asimettrica, ovvero più panciuta verso destra o sinistra a seconda dei casi. Solitamente verso sinistra.

Tuttavia, e questo è un altro particolare che le distro politiche hanno, le code risultano "belle panciute". In una distro Gaussiana, le code (ovvero i casi estremi) contano per poco peso percentuale. Nelle contese politiche contano e molto. Un caso su tutti: le elezioni falsate, laddove vi sono voti di scambio per esempio (ho trattato nel coordinamento tecnico il caso Napoli). Si vede come i casi estremi pesano molto più che in una distro a campana pura. Si chiamano in gergo "fat tails".

Per quanto riguarda la varianza (o deviazione standard): essa calcola la dispersione intorno al valore medio. In pratica, quanto è probabile che un valore sia più o meno vicino al valore medio calcolato. Per darvi un'idea, in una distribuzione Gaussiana, valori tra + o - 1 deviazione standard sono raccolti intorno al ~66% di tutto il campione. Nelle distribuzioni di voto questo non si verifica quasi mai.

Se avete problemi, chiedete e vi sarà dato. In fondo, ripassare statistica serve sempre.
 
Top
laurentius
view post Posted on 5/4/2009, 19:37




CITAZIONE (M(a)rco @ 5/4/2009, 19:35)
Consiglio di creare un foglio excel per tornata elettorale.
Manteniamo inalterato il formato e cambiamo solo i soggetti in questione.

Trovo, personalmente, fogli troppo grandi un po' dispersivi e di difficile consultazione.

Se riusciamo poi a trovare un programma per colorare province, comuni e regioni in funzione delle percentuali abbiamo tutti gli strumenti grafici da cui partire per l'analisi statistica vera e propria.

A tal proposito, quale livello di "metodi statistici" avete? Ripeto, basta qualcosa di un po' più che basilare per i momenti (medie, varianze, correlazioni e covarianze) e per i test (chi quadro, massima verosimiglianza e magari t-student).



Dove hai comprato il libro Lollo?

da Feltrinelli libri e musica in p.za CLN, però non so se avevano altre copie... cmq puoi ordinarlo sia lì sia alle librerie.coop in p.za castello, ho chiesto e diceva che in 2-3 giorni dovrebbe arrivare.
 
Top
M(a)rco
view post Posted on 5/4/2009, 19:39




Ottimo. Son passato alla libreria coop domenica scorsa. Appunto: catalogazione libri a dir poco scandalosa, specie nel piano sotterraneo, laddove uniscono tutte le scienze sociali in ordine alfabetico, con doppia fila per scaffale...
Trovare un libro risulta impresa titanica.

Ci ritorno domani allora.
 
Top
laurentius
view post Posted on 6/4/2009, 09:24




CITAZIONE (M(a)rco @ 5/4/2009, 20:39)
Ottimo. Son passato alla libreria coop domenica scorsa. Appunto: catalogazione libri a dir poco scandalosa, specie nel piano sotterraneo, laddove uniscono tutte le scienze sociali in ordine alfabetico, con doppia fila per scaffale...
Trovare un libro risulta impresa titanica.

Ci ritorno domani allora.

In realtà molti testi di politica sono al primo piano, dove c'è anche la storia. Comunque nel sotterraneo c'è una sala enorme piena di libri dalla filosofia alla sociologia, un po' confusa la cosa. :ph34r:
 
Top
view post Posted on 6/4/2009, 09:48
Avatar

Senior Member

Group:
Member
Posts:
18,564
Location:
Brindisi

Status:


ricordo che molto è stato fatto dal sottoscritto qui:

https://termometropolitico.forumcommunity.net/?t=15536268

nell'ultima pagina ci sono i dati dei principali partiti in tutti i comuni
 
Top
laurentius
view post Posted on 6/4/2009, 23:31




wow hotdog! mi sa che con te dovremo lavorare al progetto archivio elettorale...
 
Top
M(a)rco
view post Posted on 7/4/2009, 01:25




Hot Dog

a te funzionano i link a questo post?

http://termometropolitico.forumcommunity.n...268&p=157864814

Concordo con Lollo sul tuo aiuto. Se vuoi collaborare, ne saremmo lieti.


Quelle mappe sarebbero utilissime nel sito.
 
Top
view post Posted on 7/4/2009, 05:39
Avatar

Senior Member

Group:
Member
Posts:
18,564
Location:
Brindisi

Status:


rieccoli, togliendo un po' di cose inutili sono riuscito a mettere tutto insieme in due files:

http://termometropolitico.forumcommunity.n...msg&id=21697816
http://termometropolitico.forumcommunity.n...msg&id=21697817

il primo file riguarda i primi 4000 comuni con la maggiore differenza tra PDL+LEGA/MPA e PD+IDV, il secondo gli altri 3900 e passa, sono esclusi Val D'Aosta e Alto Adige. La prima colonna indica la regione in cui è situato il comune, la seconda indica la provincia, la terza il comune, la quarta il numero di abitanti, la quinta la percentuale di PDL+LEGA/MPA, la sesta la percentuale di PD+IDV, la settima e l'ottava le percentuali di altri partiti quando questi superano il 10%; poi con Excel uno può facilmente ordinare tutto per provincia o per numero di abitanti o per qualunque cosa voglia. Per una collaborazione futura fatemi sapere

Edited by HOTDOG. - 7/4/2009, 08:18
 
Top
M(a)rco
view post Posted on 8/4/2009, 16:14




Hotdog, da parte mia puoi già iniziare a lavorare con noi ORA.

Sarebbe utile secondo me trasferire sul sito tutte le mappe che avevi creato a ridosso delle POL08. E sarebbe molto utile farlo anche una volta ottenuti i dati per le EUR09.

 
Top
M(a)rco
view post Posted on 12/4/2009, 03:18




Vorrei solo ricapitolare.

Mi ripetete chi vuol fare parte del gruppo "Analisi Statistica"?

Di lavoro ce n'è un tot e sarebbe buona cosa iniziare a coordinarci.

Come ho già detto a Sborgus per pvt, il progetto che ho in mente al momento si divide in 2 parti

  1. catalogare in un formato standardizzato i dati dei 5 principali partiti per provincia, per tornata elettorale

  2. trovare le correlazioni (ed altre diavolerie) interne ed esterne delle serie storiche.


Partiremo a ritroso, iniziando dalle POL08 ed useremo i dati del ministero degli interni

http://elezionistorico.interno.it/index.php

Purtroppo non sono compresi i dati seggio per seggio. Per quelli dovremo chiedere alle province, sperando che ce li diano. Ma questo può essere fatto in un secondo momento.

In pratica, sul sito del TP creeremmo un database completo, pubblico, con tutte le analisi che di volta in volta tireremo fuori (ovviamente quelle più interessanti). Credo sia un lavoro utile ed interessante, oltrechè in grado di rendere il TP un punto di riferimento per tutti coloro i quali si interessano di questo argomento.

Se ci fate caso, solo POCHISSIMI comuni (province non ne parliamo) dispongono di un database decente. Il TP potrebbe realmente diventare uno standard di analisi statistico-poltica nazionale.

Suggerimenti/Idee sul progetto son BEN graditi.
 
Top
laurentius
view post Posted on 14/4/2009, 09:39




Allora, io non ho ben capito che cosa dovremmo fare.

Come si sa per il momento non abbiamo abbastanza soldi per inserire l'archivio elettorale interattivo sul sito, quindi quella è una cosa che metteremo più avanti. Certo, non è inutile lavorare già ora sulla sistemazione dei dati delle elezioni passate.

Secondo me sarebbe meglio limitarsi alla Camera, visto che è il dato politico più indicativo.

Quanto al resto, i dati seggio per seggio sono a disposizione solo dei comuni (e non tutti ne rendono facile l'accesso...). In ogni caso, considerato che in Italia ci sono 60 mila seggi, vorrebbe dire dover trattare 1.500.000 dati (60.000x5x5) solo contando le Politiche dal '94 in avanti. Quindi il lavoro non è poco.
 
Top
M(a)rco
view post Posted on 14/4/2009, 09:53




Rispondo alle domande.

1. il primo lavoro che ho in mente di fare è correlare solo le province con i dati forniti dal ministero degli interni. Trattiamo i primi 4-6 partiti e vediamo come nel corso del tempo ogni provincia si discosta dai dati nazionali. Non abbiamo i dati seggio per seggio, ma in linea di massima dovrebbe già essere un lavoro interessante.
In questo modo otterremo un quadro generale delle province più stabili. Questo, in futuro, ci permetterà di tener d'occhio solo alcune di esse quando avremo le risorse adatte per seguire elezioni su scala nazionale.

2. I dati seggio per seggio iniziamo ad averli, di volta in volta, per i centri più importanti (per ora io ho roma, milano, napoli e torino). Potremmo puntare ad avere i dati archiviati per i centri con una popolazione superiore ai 100K abitanti. Non so quante città siano, ma credo una ventina, occhio e croce.

3. Possiamo certamente scegliere di trattare al momento solo Camera. Io al momento mi sto concentrando sulle europee, ma finito il lavoro per le due tornate 1999-2004 possiamo passare a Camera Pol06-Pol08.

4. Questione sito: io ho in mente qualcosa di statico. Una sezione in cui segnalare i link diretti ai dati degli archivi elettorali e nel contempo fornire i tabulati .xls dei nostri lavori, compresi i grafici. Il tutto sempre se abbiamo qualche mega di spazio hosting. Non serve alla fine molto di più, specie se convertiamo tutto in formato .csv o .zip.

5. la mole di dati non è un grosso problema. Già con il mio portatile riesco a trattare senza troppi problemi matrici da qualche centinaio di migliaia di dati. Con un pc con ram da 4gb e con matlab si possono trattare senza troppi problemi matrici fino a 6milioni di dati.
Il grosso problema, almeno per me, è avere uno standard di archiviazione unico, in modo tale da lanciare una sola volta lo script che creo. Ecco perchè sottolineo l'importanza di creare almeno per il TP un unico e chiaro sistema di archiviazione dati. I dati che raccogliamo sono sempre catalogati in modi differenti e la cosa, almeno per me, fa perdere un sacco di tempo inutile perchè devo riscrivere tutte le volte i codici (almeno 300 righe).
Già con le prime 4 città, trattiamo circa un decimo di tutti i seggi sparsi sul territorio italiano, quindi non è che siamo così messi male.
 
Top
l'infame
view post Posted on 14/4/2009, 13:55




io ribadisco la disponibilità a partecipare,sappiate però che potrò cominciare a raccogliere dati solo fra una settimana.Ad ogni modo,dobbiamo raccogliere tutti gli stessi dati,o magari ognuno si occupa solo di alcune province?
 
Top
laurentius
view post Posted on 14/4/2009, 14:19




CITAZIONE (M(a)rco @ 14/4/2009, 10:53)
Rispondo alle domande.

1. il primo lavoro che ho in mente di fare è correlare solo le province con i dati forniti dal ministero degli interni. Trattiamo i primi 4-6 partiti e vediamo come nel corso del tempo ogni provincia si discosta dai dati nazionali. Non abbiamo i dati seggio per seggio, ma in linea di massima dovrebbe già essere un lavoro interessante.
In questo modo otterremo un quadro generale delle province più stabili. Questo, in futuro, ci permetterà di tener d'occhio solo alcune di esse quando avremo le risorse adatte per seguire elezioni su scala nazionale.

2. I dati seggio per seggio iniziamo ad averli, di volta in volta, per i centri più importanti (per ora io ho roma, milano, napoli e torino). Potremmo puntare ad avere i dati archiviati per i centri con una popolazione superiore ai 100K abitanti. Non so quante città siano, ma credo una ventina, occhio e croce.

3. Possiamo certamente scegliere di trattare al momento solo Camera. Io al momento mi sto concentrando sulle europee, ma finito il lavoro per le due tornate 1999-2004 possiamo passare a Camera Pol06-Pol08.

4. Questione sito: io ho in mente qualcosa di statico. Una sezione in cui segnalare i link diretti ai dati degli archivi elettorali e nel contempo fornire i tabulati .xls dei nostri lavori, compresi i grafici. Il tutto sempre se abbiamo qualche mega di spazio hosting. Non serve alla fine molto di più, specie se convertiamo tutto in formato .csv o .zip.

5. la mole di dati non è un grosso problema. Già con il mio portatile riesco a trattare senza troppi problemi matrici da qualche centinaio di migliaia di dati. Con un pc con ram da 4gb e con matlab si possono trattare senza troppi problemi matrici fino a 6milioni di dati.
Il grosso problema, almeno per me, è avere uno standard di archiviazione unico, in modo tale da lanciare una sola volta lo script che creo. Ecco perchè sottolineo l'importanza di creare almeno per il TP un unico e chiaro sistema di archiviazione dati. I dati che raccogliamo sono sempre catalogati in modi differenti e la cosa, almeno per me, fa perdere un sacco di tempo inutile perchè devo riscrivere tutte le volte i codici (almeno 300 righe).
Già con le prime 4 città, trattiamo circa un decimo di tutti i seggi sparsi sul territorio italiano, quindi non è che siamo così messi male.

1. Questo è interessante, e anche di realizzazione piuttosto facile.

2. Le città con più di 100mila abitanti sono 45, da Piacenza in su. Non è immediato farsi dare i dati di 45 comuni; e per quali consultazioni? Pol 08? Pol 06? Eur 04? Amministrative?

3. Sì, va bene

4. Un archivio statico da solo secondo me non è appetibile, ci vogliono entrambe le cose. Cioè un archivio statico e una mappa interattiva che peschi da quell'archivio.

5. Sì, ma il problema è inserire quei milioni di dati manualmente nel nostro archivio.
 
Top
Animamigrante
view post Posted on 14/4/2009, 14:51




I dati dell'affluenza a livello provinciale per le Politiche 2008, percentuale a parte, non esistono. Niente numeri assoluti, niente schede nulle, niene schede bianche. O almeno non sul sito dell'Interno. O almeno io non li ho trovati.
 
Top
58 replies since 2/4/2009, 14:30   918 views
  Share