13 luglio 2009

DD4D - Data Designed for Decisions


Con un po' di ritardo ecco qualche considerazione su DD4D, la conferenza Data Designed for Decision, che si è tenuta a Parigi lo scorso Giugno, curata dall' Organisation for Economic Co-operation and Development (OECD) e dall' International Institute for Information Design (IIID).

Il programma era vasto ed articolato in tre sessioni:
  • Policy, Community and Tools , il 18 Giugno, chairman Enrico Giovannini
  • Organisation, Simplification, Visualisation , il 19 Giugno, chairman Wes Ervin
  • Understanding and Empowerment , il 20 Giugno, chairman Wes Ervin

Gli oratori erano circa 50 e provenienti da 20 nazioni, gli iscritti erano poco più di 200 e provenienti da tutto il mondo, la presenza italiana e dell'Istat in particolare era fra le più numerose.

Organizzazione Num.
OECD 20
Academy of Fine Arts in Krakow 7
ISTAT 6
Politecnico di Milano 5
University of Reading 5
Wayne State University 5
BeGraphic.com 3
Open Society Institute 3
University of Calgary 3
Altri 149

Si è parlato di molte cose, anche di argomenti che forse avevano meno a che fare con l'utilizzo dei dati a supporto delle decisioni, ma il risultato finale è stato decisamente soddisfacente. Sostanzialmente si è fatto il punto sullo stato dell'arte in tema di visualizzazione e utilizzo dei dati, statistici e non, da parte di cittadini, politici e decision maker in genere.

Mi soffermerò, in questo ed in prossimi post, su alcuni applicativi disponibili sul web (alcuni già conosciuti) che hanno riscosso parecchio successo in platea.


Il primo e più famoso è GAPMINDER di Hans Rosling, che presenta due modalità di visualizzazione: Chart e Map.
In modalità Chart si può scegliere la variabile da usare in ascisse (es. figli per donna) e quella da usare in ordinate (es. aspettativa di vita alla nascita), il risultato viene mostrato tramite una bolla. La dimensione di ogni bolla del grafico è proporzionale ad una terza variabile (es. popolazione totale).
I dataset di riferimento delle variabili considerate nell'esempio sono a livello nazionale e hanno una certa profondità storica (nell'esempio sono ritenuti affidabili dal 1950 in poi), in maniera tale da poter animare la variazione nel tempo dei relativi dati (tasto Play in basso a sinistra).
Di tutte le variabili considerate sono disponibili i dataset in formato Google Spreadsheet.



Nella modalità Chart è anche possibile selezionare una o più nazioni nella colonna a destra, in maniera tale da poter seguire la traiettoria della relativa bolla nel corso del tempo.



Facendo clik su una certa bolla (e quindi su un certo anno), vengono evidenziati i valori delle variabili in quell'anno: nel 2007 (o meglio fra il 2005 e il 2010) il numero medio di bambini per donna è 1,39 e l'aspettativa di vita è di 81 anni.

Nella modalità Map si può scegliere un'unica variabile e quello che si modifica, al passare degli anni, è la dimensione delle bolle.





Quest'ultimo è un diagramma a bolle classico, meno comunicativo del precedente.

Il motore di visualizzazione di Gapminder (come si vede dal logo in basso a destra) è stato recentemente acquisito da Google che l'ha integrato fra i widget che fanno parte di Google Spreadsheet, con il nome di Google Motion.

Abbiamo già avuto modo di mostrare un esempio di funzionamento di Google Motion durante i seminari "L'innovazione nella statistica ufficiale" del ForumPA 2009, queste di seguito sono due schermate relative ai dati Istat sulle previsioni di crescita della popolazione residente fino al 2050 (fonte: demo.istat.it).





Come si può vedere, fermando ad esempio il tempo al 2040, la popolazione residente totale sarà costituita da oltre 62 milioni di persone, di cui circa 10 milioni saranno stranieri.

Il widget Google Motion ed il relativo dataset di queste visualizzazioni sono disponibili all'indirizzo:
https://spreadsheets.google.com/ccc?key=rzGgxnv2hM0TBH0OgnHuVNw&hl=it

Potete copiarlo e modificarlo a piacimento, ma sopratutto potete far pratica con uno strumento che in pochi anni è diventato un classico della visualizzazione dati.

30 giugno 2009

Criteri di valutazione degli investimenti ICT

Trattare temi di matematica finanziaria all’interno di un blog dedicato all’IT potrebbe sembrare fuori contesto. Tuttavia sono molti i casi in cui ci si trova a dover valutare soluzioni tecnologiche non solo dal punto di vista tecnico ma anche economico e di convenienza dell’investimento. Un primo semplice caso potrebbe riguardare l’ipotesi di sostituzione di un vecchio server. Ci si troverà nella condizione di dover scegliere tra due soluzioni mutuamente esclusive:

  • prorogare i contratti di manutenzione e sopportare costi maggiori dovuti alla maggiore probabilità di guasto ed al rispetto del grado di disponibilità desiderata
  • acquistare un nuovo server, sfruttare la garanzia del costruttore, sopportare i costi di installazione e porting delle applicazioni ma beneficiare dei vantaggi ottenibili sia in termini di aumento delle performance che dei conseguenti risparmi/guadagni ottenibili con la nuova macchina
Un altro caso potrebbe riguardare la valutazione di un progetto di server consolidation, magari mediante l’utilizzo della tecnologia di virtualizzazione, tornata prepotentemente alla ribalta. Ecco che alcune nozioni basilari di matematica finanziaria possono servire ad orientare correttamente la scelta dell’IT manager ed a resistere meglio alle avances dei funzionari commerciali più agguerriti. Per comprendere gli strumenti utilizzati per la valutazione degli investimenti è opportuno introdurre prima il concetto di interesse composto (quando gli interessi non vengono restituiti alla fine del periodo di riferimento ma vanno a sommarsi alla somma originaria: gli interessi maturano a loro volta altri interessi). Per confrontare i valori monetari che si realizzano in differenti momenti temporali è necessario introdurre anche il concetto di valore attuale. L'attualizzazione è una operazione di matematica finanziaria utilizzata per quantificare il valore che ha oggi (valore attuale) un capitale disponibile ad una data futura.

VA = F(1+i)^-n

Esempio: tasso composto annualmente i=15%; periodo dell’investimento n=4 anni; montante F = 17.490 euro; valore attuale VA=10.000 euro;

Ho insistito su questo punto perché il VAN (Valore Attuale Netto) o NPV (Net Present Value) ed il TIR (Tasso Interno di Rendimento) o IRR (Internal Rate of Return) sono alcuni tra i criteri più utilizzati nella valutazione degli investimenti. Nel caso di utilizzo del VAN, si sceglierà di intraprendere o meno un progetto a seconda che il VAN sia positivo o negativo. Un VAN negativo vuol dire che l’esito futuro del progetto si traduce in una perdita attuale (e noi non vogliamo perdere denaro). Nel caso di due progetti alternativi, si sceglierà il progetto avente il VAN maggiore. Nella seguente figura ho riportato uno schema di flusso di cassa di un progetto con i valori del VAN calcolati utilizzando due diversi valori del tasso di sconto (15% e 7%).


E' uno schema abbastanza semplificato. Nel calcolo le entrate (uscite) sono computate con il segno positivo (negativo). E’ intuitivo che lo stesso progetto può essere più o meno appetibile a seconda del valore del tasso di sconto. Seguendo questo ragionamento si arriva ad introdurre il TIR, definito come il valore del tasso che azzera il VAN, quello cioè in cui si pareggiano perdite e guadagni. Il suo calcolo è abbastanza complesso in quanto richiede la soluzione della seguente equazione che normalmente è di grado superiore al secondo:
Fortunatamente Excel dispone di un nutrito numero di funzioni finanziarie tra cui quella per il calcolo del TIR. Il valore del TIR relativo al progetto sopra riportato è pari a 7,931. Nella figura ho riportato l’andamento grafico del VAN in funzione del tasso.


Come si vede, il valore del VAN tende a zero al tendere del tasso all’8%. Quindi progetti con un TIR superiore al costo del capitale saranno remunerativi e viceversa. Nel raffronto tra due progetti alternativi si preferirà quello con TIR maggiore. C’è da dire che le cose non sono sempre così semplici e non sempre vi è concordanza di risultati tra i due indici (VAN e TIR).

Nelle seguenti figure ho riportato i calcoli relativi a due progetti mutuamente esclusivi che riprendono l'esempio della dismissione di un server. Nel primo caso le spese iniziali di acquisto sono maggiori, le spese annuali per manutenzione non sembrano così diverse, tuttavia si prevede un aumento dei ricavi (meno consumi elettrici) e dei guadagni dovuti alle migliori performance della macchina (più transazioni nell’unità di tempo).


Nel secondo caso si ha un investimento iniziale decisamente più basso (solo una revisione generale del server e la sostituzione di qualche componente), le performance rimangono costanti ed anche le spese annuali per manutenzione non sembrano poi così alte. Eppure...

I valori del VAN sono riportati in tabella, quelli del TIR per l’ipotesi A e B sono rispettivamente 22,97% e 20,36%.


Cercando in Rete ho trovato alcuni video tutorial. Sono in lingua inglese ma anche coloro che avessero una conoscenza della lingua a livello scolastico potranno seguirli senza problemi. Sul sito, oltre al contenuto dei tutorial in forma testuale, che sicuramente ne agevola molto la comprensione, è disponibile anche un ottimo file Excel con vari esempi di applicazione dei concetti espressi.

22 giugno 2009

BarCamp Condividere X (fare) Cultura


Condividere X (fare) Cultura - Sharing to enhance Knowledge

Dove tuona un fatto, siatene certi, ha lampeggiato un'idea.
(Ippolito Nievo)

Tra gli interventi:

La condivisione da Giulio Cesare ai giorni nostri (Vincenzo Patruno)
Web 2.0 e politica (Flavia Marzano) (Lele Rozza)
Sussidiarietà, web 2.0 e Pubblica Amministrazione (Giorgia Iazzetta - ComunicatoriPubblici)
La mia breve storia su come la condivisione mi abbia permesso di costruirmi una nuova carriera che mi offre tante più soddisfazioni ed indipendenza (Robin Good)
Condivisione di software tra gli Istituti di Statistica europei (Carlo Vaccari)
Web 2.0 e cultura statistica (Daniele Frongia)

http://barcamp.org/CXC

E' possibile seguire il BarCamp in streaming

http://cxc.devise.it/


18 giugno 2009

ICT e Pubblica Amministrazione Locale: risultati e riflessioni dal Rapporto Assinform

Giocando con l'immaginario, chiudo gli occhi e provo a vedere ciò che mi rimanda la parola "pubblica amministrazione". Il risultato è una lunga ed interminabile coda ad uno sportello. Saranno i pregiudizi che mi legano all'idea di "pubblico"? Sarà la pigrizia mentale di un cittadino abituato al peggio? Ma soprattutto, quanto l'associazione PA-burocrazia si avvicina alla realtà attuale?

Una ottima opportunità di riflessione sul tema è offerta dal 3° Rapporto sull'ICT nella Pubblica Amministrazione Locale (scaricabile registrandosi) realizzato da Assinform e presentato a Roma lo scorso mercoledì 10 giugno. Dai principali risultati dell'indagine, condotta su un campione di 873 Enti locali (812 Comuni, 16 Regioni, 30 Province e 15 Comunità Montane), si possono rilevare passi in avanti nel progetto di digitalizzazione della Pubblica Amministrazione Locale (PAL) in Italia, rinvenibili in una dotazione informatica di base consolidata: la percentuale di PC sui dipendenti risulta pari al 95% nelle Province, al 72% nei Comuni e al 70% nelle Regioni, superiore al 90% inoltre la quota di PC connessi al web. Segnali positivi emergono anche considerando l'utilizzo dell'ADSL/HDSL nei Comuni di piccole dimensioni (fermi nel 2006 all'ISDN), della comunicazione via VoIP (con un livello di diffusione pari all'81% nelle Regioni intervistate), della Posta Elettronica Certificata (con valori superiori al 60% in tutti gli enti), della Firma Elettronica (implementata nel 39% dei Comuni, nell'87% delle Province e nel 94% delle Regioni) e dei software Open Source (tutte le Regioni intervistate li utilizzano, seguite dall'83% delle Province e dal 24% dei Comuni).

Segnali di criticità, secondo il Rapporto Assinform, si rilevano invece considerando l'offerta di servizi on line dedicati a cittadini ed imprese: la disponibilità di servizi interattivi e dispositivi risulta infatti ancora limitata, soprattutto per quanto riguarda i servizi comunali. Ulteriori fattori negativi sono rinvenibili nel rallentamento della spesa IT, dinamica che proseguirà anche nei prossimi anni (come conseguenza delle politiche restrittive di bilancio), nella mancanza di una comunicazione digitale tra gli enti (la modalità più diffusa è ancora lo scambio di file) e in un aumento delle trattative private nel rapporto con i fornitori IT a scapito dei bandi di gara. In ultimo viene confermato un scarto tra gli Enti locali del Nord e del Sud del Paese.

La mia immagine della Pubblica Amministrazione Locale come sinonimo di tempi di attesa sicuramente non 2.0, viene in un certo senso ridimensionata. Le nuove tecnologie sembrano infatti avvicinare sempre più i cittadini ai propri governi locali, anche se molto deve ancora essere fatto e non sarà realizzabile nel breve periodo. Mi chiedo però: quanto tempo ancora ci vorrà per demolire quella immagine di "pubblico" e creare quindi un rapporto di fiducia, anche digitale, con i cittadini?

15 giugno 2009

Il catalogo di Don Giovanni non è Web 2.0




"Madamina, il catalogo è questo...". Così Leporello, servitore di Don Giovanni, racconta a donna Elvira le conquiste del padrone: "In Italia seicento e quaranta / in Almagna duecento e trentuna / cento in Francia, in Turchia novantuna / ma in Ispagna son già mille e tre". Buon per Don Giovanni. Ma la domanda è: il catalogo è Web 2.0? Le opere liriche sono 2.0?

Un ricercatore della Sapienza mi ha invitato a tenere "un seminario su Web 2.0 e opere liriche". All'inizio ho pensato ad uno scherzo, ma poi LinkedIn mi ha fatto ricredere: il contatto è più che serio.

Certamente il Web 2.0 è diventato (anche) una moda, e come tale inseguita e spesso abusata. E' il caso degli allevamenti 2.0 descritti nel terzo numero di Wired.it o dei tanti casi dove 2.0 viene usato come sinonimo di innovazione. Al Barcamp del ForumPA ho anche sentito parlare di Flavia Marzano come "donna Web 2.0" (ne sono certo: è un complimento).

Io ce l'ho messa tutta ma proprio non ce l'ho fatta: in un Don Giovanni, in una Traviata, nel Barbiere di Siviglia, troviamo molte cose ma no, nessuna traccia del Web 2.0.
Quale deve essere il limite? Il Web 2.0, come aggettivo, non dovrebbe essere utilizzato un sinonimo di innovazione in senso lato: ha necessariamente a che fare con un servizio web con alcune caratteristiche. Certo, i metodi che ne sono alla base, per esempio la collaborazione, sono nati molto tempo prima, ed è questo che genera l'errore: confondere metodi e strumenti.

Quindi, per tornare all'aria di Leporello sul catalogo, questo non può essere in alcun modo Web 2.0. Lo sarebbe se il documento fosse condiviso su Google Docs o meglio ancora Zoho Docs, che però 400 anni fa non era disponibile...

Ovviamente sarei ben felice di essere smentito: se qualcuno se la sentisse di parlare di Web 2.0 e Lirica può scrivermi e con piacere lo metterò in contatto con il ricercatore della Sapienza.


"Don Giovanni 2.0? Direi di no" (Foto di J. K. Graham)

11 giugno 2009

Backup, data replication e disaster recovery

Tempo fa ho avuto modo di interessarmi ai temi della continuità operativa e del disaster recovery. Vista la portata e la complessità di questo genere di argomenti non è possibile trattarli in un post se non ad un livello generale. Tuttavia, poiché le operazioni di backup/restore rappresentano il livello base di qualsiasi strategia di protezione dalle conseguenze dei guasti vorrei spendere due parole su questo tema e su alcune tecniche di data replication secondo me particolarmente interessanti.

Una considerazione da fare sui servizi da proteggere riguarda la necessità di condurre una preventiva ed accurata fase di analisi per determinare i livelli di servizio desiderati e poi adeguare di conseguenza la propria infrastruttura e le proprie procedure operative.

I livelli di operatività sono sintetizzati da due indicatori:

  • Recovery Time Objective (RTO) - massimo tempo di indisponibilità del servizio, ovvero il tempo entro il quale il servizio da proteggere deve essere ripristinato
  • Recovery Point Objective (RPO) - perdita dati sostenibile, in termini di distanza temporale tra il verificarsi dell’emergenza e l’ultimo salvataggio utile e ripristinabile dei dati

I nastri magnetici sono ancora oggi i supporti più utilizzati sia per l’elevata capacità di immagazzinamento che per la semplicità del loro trasporto. Questa tecnologia permette di fare copie dati al più basso dei costi possibili e soddisfa le esigenze di continuità operativa aventi tempi di ripristino (RTO) di ore o giorni e con valore di RPO dipendente dalla granularità temporale con cui sono effettuati i backup. (Esistono anche librerie di nastri virtuali: unità di storage disco che simulano il comportamento di una libreria a nastri).

La data replication, sincrona o asincrona, aumenta il grado di protezione dei dati introducendo ridondanza e permette di ridurre i tempi ripristino, a patto ovviamente di un adeguamento delle infrastrutture e con costi conseguenti.

In figura è rappresentato un tipico schema di data replication ottenuta a livello di storage array (in questo caso allocati su due sedi geograficamente separate). Questo tipo di soluzione prevede l’utilizzo di un hardware gemello, di un software di replica certificato dal produttore dello storage e di un link con adeguata ampiezza di banda. Le caratteristiche del link ed il protocollo utilizzato sono un compromesso tra modalità di replica (sincrona/asincrona), livello di servizio ed ampiezza di banda disponibile.

Un’altra soluzione, a mio parere molto interessante anche per i costi inferiori rispetto a quella “storage based”, prevede l’impiego di un software in esecuzione sul server che intercetta tutte le richieste di scrittura e le trasmette ad un sistema remoto attraverso la rete. Un prodotto di questo tipo è Geographic Logical Volume Manager di IBM dalla cui documentazione tecnica ho tratto gli esempi riportati.


Nella precedente figura è riportato lo schema di un server (Node A) connesso a due dischi fisici (PV1 e PV2) componenti un unico gruppo di volumi (VG datavg) su cui risiedono i dati. Questa configurazione base è assolutamente non ridondante e ciascuno dei due dischi è potenzialmente un punto di fallimento. In caso di guasto, pertanto, tutti i dati contenuti saranno inutilizzabili e dovranno essere ripristinati da nastro, con l’ovvia conseguenza che tutte le modifiche apportate dopo l’ultimo backup saranno irrimediabilmente perse.

Una strategia utile per migliorare il grado di resistenza ai guasti dell'architettura di cui sopra è quella di aggiungere altri due dischi fisici e realizzare un gruppo di volumi in configurazione RAID-1 (mirror).



Tuttavia anche questa soluzione, certamente più robusta della precedente, non mette al riparo dalle catastrofiche conseguenze di un incendio o di un allagamento del sito di produzione. Se ciò dovesse accadere, infatti, andrebbero persi sia il server che tutte le copie dei dati e l’unica alternativa sarebbe ancora una volta il restore da nastro, questa volta con alcune complicazioni aggiuntive: dover reinstallare il server, applicare gli aggiornamenti, modificare le configurazioni, personalizzare il software applicativo.


Una soluzione ancora migliore è ottenuta spostando una parte dei dischi costituenti il mirror in una sede geograficamente separata (il sito di disaster recovery) e connettendoli ad un altro server (Node B) con funzioni di "spare". In questo modo è possibile creare un gruppo di volumi “distribuito”, sempre in configurazione RAID-1, costituito da dischi locali e dischi "remoti" (RPV).

Il Logical Volume Manager del sito di produzione comunica con i dischi fisici locali in modo diretto e con i dischi remoti attraverso un driver (RPV device driver) . In particolare, il client RPV in esecuzione sul nodo A di produzione, invia le richieste di lettura/scrittura alla propria controparte (RPV server) in esecuzione sul nodo B del sito di disaster recovery, realizzando così un real time geographic data mirroring su rete standard TCP/IP.

Alcuni riferimenti utili:


8 giugno 2009

Web 2.0 e come disegnare una piantina della casa 2

Dopo Floor Planner...

5 giugno 2009

TED parla anche in Italiano

TED parla anche italiano
di Simone Magnani

Dal 1984 viene organizzata una conferenza annuale che ha lo scopo di raccogliere le “idee degne di essere diffuse”. Questo progetto va sotto il nome di TED (Technology, Entertainment, Design) e ha saputo crescere attraendo un pubblico sempre più fedele e attento e una schiera di oratori sempre più qualificati.

Lo scopo che si prefigge questa comunità è davvero altisonante: unire il sapere per contribuire a rendere il mondo migliore.

Questo slogan è stato preso alla lettera TED è cresciuto ed è diventato un punto di riferimento per il nuovo mondo globale. Il gruppo che si è unito attorno al progetto organizza conferenze che sono animate da oratori che spesso sono considerati delle leggende viventi, nei loro campi. Bill Gates, Isabel Allende, Al Gore, Nicholas Negroponte, Chris Anderson e tantissimi altri protagonisti della cultura contemporanea.

E tutte queste conferenze sono state messe online su internet. E il web le rende disponibili in modo veloce e gratuito.

Per rendere ancora più fruibile questo sapere, è stato lanciato da poco un progetto di traduzione delle conferenze.

Nella sezione in italiano è già disponibile una buona scelta di contenuti. I traduttori sono una comunità di volontari. Ma nonostante il carattere volontaristico, il numero garantisce una discreta velocità nelle traduzioni. Le traduzioni, poi sono controllate con cura prima di essere pubblicate. Questo nell'interesse di non svilire o perdere il valore delle conferenze con traduzioni affrettate.

Questa novità rende davvero molto più facile arrivare ai contenuti e rappresenta un importante passo in avanti nell'ambizioso obiettivo di rendere il sapere disponibile per migliorare il mondo.

3 giugno 2009

BarCamp intercultur@2009

BarCamp intercultura@2009

Palazzo Liviano, in P.zza Capitaniato, sede della Facoltà di Lettere e Filosofia dell'Università di Padova. 11 - 12 giugno 2009

Tra qualche giorno si terrà a Padova un interessante incontro su interculturalità e nuovi servizi web. L'idea, nelle parole di uno degli organizzatori Andrea Celli, è di tentare di segnalare "logiche affini" tra lavoro interculturale e le pratiche permesse dai nuovi network sociali. Il punto comune tra i due piani è la centralità di una prospettiva collaborativa e di rete - di intelligenza collettiva e di indebolimento delle individualità autonome - e l'incrocio tra competenze e "culture" differenti.



1 giugno 2009

Network Analysis: reti sociali, struttura del web e di internet

Vi segnalo un Workshop da non perdere per tutti coloro che a vario titolo si occupano di analisi delle reti sociali e di struttura del Web. Organizzato dal Dipartimento di Informatica e Sistemistica dell'Università "La Sapienza" di Roma e dal CERMS, il Centro di Ricerca in Metodologia delle Scienze in collaborazione con il Dottorato in metodi di ricerca per l’analisi del mutamento socioeconomico, il Workshop si terrà il 4 giugno 2009 dalle ore 15 alle ore 18.00 presso la Facoltà di Scienze Statistiche - Aula I e si articolerà secondo il seguente programma:








Introduzione:
Giorgio Ausiello – DIS -Sapienza Università di Roma

Presentazioni:

Stefano Leonardi - DIS - Sapienza Università di Roma
Research challenges in social networks

Guido Caldarelli - INFM e Istituto Sistemi Complessi CNR
The social network of Wikipedia

Lucio Biggiero- Dipartimento di sistemi e istituzioni per l’ Economia -Università
dell'Aquila
L'analisi della struttura e dell'evoluzione delle reti organizzative mediante l'uso della simulazione ad agenti

Stefania Vergati - Dipartimento Sociologia e Comunicazione Sapienza Università di
Roma
La Social Network Analysis: problemi teorici ed applicativi

Davide Bennato – Università di Catania
Strategie di relazione sociale nelle piattaforme di social network

Luca Becchetti - DIS Sapienza Università di Roma
Algorithms for social network mining and analysis

Aris Anagnostopoulos - DIS Sapienza Università di Roma
Mathematical models of social networks