Swappa : Uni / Privatezza e Protezione dei Dati

 :: Privatezza e Protezione dei Dati - Protezione della privacy ::

Torna alla pagina di Privatezza e Protezione dei Dati

Lezione 2 - Protecting Privacy in Data Publication

Data collection and disclosure

I microdati come visto possono contenere informazioni sensibili, ed ognuno di noi è sempre più sensibile alla privacy. Il rischio maggiore è quello della disclosure di informazioni relative ad una singola persona, in tre possibili accezioni:

scopro che l'individuo è all'interno della tabella (identity disclosure)
scopro il valore dell'attributo sensibile (attribute disclosure)
io non ho un valore sensibile all'interno della tabella, ma sono in grado di calcolarlo (inferential disclosure)

Identity disclosure

E' un problema più sentito con i microdati che con i macrodati. Nel caso dei microdati infatti l'identity disclosure implica anche l'attribute disclosure

Attribute disclosure

Può essere di due tipi, rilevando l'esatto valore o una sua buona approssimazione

Inferential disclosure

E' legata alla disclosure dell'attributo sensibile, esempio: molto spesso il valore di una casa acquistata da tizio dipende dal suo reddito.

Per proteggere i dati da questi tipi di inferenza si basano sui metodi di protezione di macrodati e microdati. Ci concentriamo in particolare sui microdati (quando sono sensibili? come proteggerli?) La prima cosa da fare come detto è rimuovere gli identificatori espliciti. Le idee di base sono due, o a volte una combinazione delle due:

restringo i dati: riduco le informazioni che sto rilasciando
restringo l'accesso ai dati: regole per il controllo dell'accesso, solo chi è autorizzato può vedere i dati o una parte di essi

De-indentification (rimuovo gli identificatori)

Questa pratica non mi da alcuna garanzia, perchè potrei combinando i dati con altre tabelle risalire all'identità di un soggetto (ad esempio utilizzando tabelle dell'anagrafe o di altri enti) = re-identification

Classificazione degli attributi in una tabella di microdati

identifiers: chiavi univoche come ssn, codice fiscale, nome
quasi-identifiers: non sono chiavi o chiavi candidate ma posso utilizzarli per fare dei join come data di nascita, CAP, sesso, ...
confidenziali: contengono informazioni sensibili, come malattie, iscrizione a partiti o sindacati, orientamento politico e religioso, reddito, ...
non confidenziali: colore preferito, nome del cane e scemenze del genere

Se stai pensando che i quasi-identifiers siano inutili considera questa statistica frutto di uno studio sul censimento USA del 2000: nel 63,3% dei casi la popolazione americana è identificabile univocamente con data di nascita (gg-mm-aaaa) e codice postale. Quali sono i rischi a cui andiamo in contro e quali i fattori che contribuiscono ad aumentare/diminuire il rischio di identificazione?

Fattori di rischio sono:

presenza di record con una visibilità particolare: poche persone note con valori poco comuni per alcuni attributi (es: un attore, politico, ultra novantenne, ...)
possibilità di matchare i microdati con fonti di dati esterne
esistono tanti attributi in comune tra la tabella di microdati e le fonti di dati esterne
accuratezza e risoluzione dei dati
numero delle fonti esterne, considerando che non tutte possono essere note a chi rilascia i microdati

Fattori che aiutano a diminuire il rischio di disclosure:

campionamento: introduce, come già visto, incertezza
età dei dati: non è detto che i dati che rilascio siano aggiornati, quindi nel frattempo potrebbero essere cambiati o non allineati i microdati con le fonti esterne
rumore: introdotta magari per errore
rappresentazione dei dati: ad esempio la data di nascita posso metterla come gg-mm-aaaa, mm-gg-aaaa, gg-mm-aa, ecc

Per misurare il rischio dobbiamo tenere conto di:

probabilità che il soggetto sia rappresentato sia nella tabella dei microdati sia nelle tabelle esterne che sto usando
probabilità di ottenere un join 1 a 1, ovvero riconoscere in modo univoco una persona.

k-Anonymity

La soluzione proposta intorno al 2000 per garantire che quando rilascio una tabella di microdati, le identità dei soggetti rappresentati nella tabella sono in qualche modo protette. Quindi se anche prendo la mia tabella dei microdati e ho tante fonti esterne che collegano i dati anagrafici del soggetto con la sua identità specifica, non sono in grado di risalire entro una certa incertezza all'identità del soggetto. Sono in grado al più di associare una tupla da una parte con k dall'altra e viceversa. Se cerco il mio vicino di casa ne trovo almeno k, e ovviamente maggiore è il valore di k maggiore è l'incertezza.

La chiave di tutti i metodi di protezione che cercano di rispettare k-anonymity è nel quasi-identifier, quindi si assume che sia il dato utilizzato per fare tutti i possibili attacchi e lo proteggo per garantire l'incertezza.