Swappa : Uni / Privatezza e Protezione dei Dati
Creative Commons License

 :: Privatezza e Protezione dei Dati - Protezione della privacy ::

Torna alla pagina di Privatezza e Protezione dei Dati

Lezione 2 - Protecting Privacy in Data Publication

Data collection and disclosure

I microdati come visto possono contenere informazioni sensibili, ed ognuno di noi è sempre più sensibile alla privacy. Il rischio maggiore è quello della disclosure di informazioni relative ad una singola persona, in tre possibili accezioni:

  1. scopro che l'individuo è all'interno della tabella (identity disclosure)
  2. scopro il valore dell'attributo sensibile (attribute disclosure)
  3. io non ho un valore sensibile all'interno della tabella, ma sono in grado di calcolarlo (inferential disclosure)

Identity disclosure

E' un problema più sentito con i microdati che con i macrodati. Nel caso dei microdati infatti l'identity disclosure implica anche l'attribute disclosure

Attribute disclosure

Può essere di due tipi, rilevando l'esatto valore o una sua buona approssimazione

Inferential disclosure

E' legata alla disclosure dell'attributo sensibile, esempio: molto spesso il valore di una casa acquistata da tizio dipende dal suo reddito.

Per proteggere i dati da questi tipi di inferenza si basano sui metodi di protezione di macrodati e microdati. Ci concentriamo in particolare sui microdati (quando sono sensibili? come proteggerli?) La prima cosa da fare come detto è rimuovere gli identificatori espliciti. Le idee di base sono due, o a volte una combinazione delle due:

  1. restringo i dati: riduco le informazioni che sto rilasciando
  2. restringo l'accesso ai dati: regole per il controllo dell'accesso, solo chi è autorizzato può vedere i dati o una parte di essi

De-indentification (rimuovo gli identificatori)

Questa pratica non mi da alcuna garanzia, perchè potrei combinando i dati con altre tabelle risalire all'identità di un soggetto (ad esempio utilizzando tabelle dell'anagrafe o di altri enti) = re-identification

Classificazione degli attributi in una tabella di microdati

Se stai pensando che i quasi-identifiers siano inutili considera questa statistica frutto di uno studio sul censimento USA del 2000: nel 63,3% dei casi la popolazione americana è identificabile univocamente con data di nascita (gg-mm-aaaa) e codice postale. Quali sono i rischi a cui andiamo in contro e quali i fattori che contribuiscono ad aumentare/diminuire il rischio di identificazione?

Fattori di rischio sono:

Fattori che aiutano a diminuire il rischio di disclosure:

Per misurare il rischio dobbiamo tenere conto di:

k-Anonymity

La soluzione proposta intorno al 2000 per garantire che quando rilascio una tabella di microdati, le identità dei soggetti rappresentati nella tabella sono in qualche modo protette. Quindi se anche prendo la mia tabella dei microdati e ho tante fonti esterne che collegano i dati anagrafici del soggetto con la sua identità specifica, non sono in grado di risalire entro una certa incertezza all'identità del soggetto. Sono in grado al più di associare una tupla da una parte con k dall'altra e viceversa. Se cerco il mio vicino di casa ne trovo almeno k, e ovviamente maggiore è il valore di k maggiore è l'incertezza.

La chiave di tutti i metodi di protezione che cercano di rispettare k-anonymity è nel quasi-identifier, quindi si assume che sia il dato utilizzato per fare tutti i possibili attacchi e lo proteggo per garantire l'incertezza.

(Printable View of http://www.swappa.it/wiki/Uni/DataPublication-ProtezioneDellaPrivacy)