Γράφει: Σεθ Σιόεν
Ποιες πληροφορίες είναι «προσωπικά αναγνωρίσιμες»;
του Σεθ Σιόεν, Electronic Frontier Foundation
Μετάφραση: Στέφανος Αγγελίδης
Ο κύριος Χ ζει στην περιοχή με ταχυδρομικό κώδικα 02138 και γεννήθηκε στις 31 Ιουλίου, 1945. Αυτές οι πληροφορίες για το άτομο του, συμπεριλήφθηκαν σε ένα ανώνυμο ιατρικό αρχείο που παρουσιάστηκε στο κοινό. Φαίνεται πως ο κύριος Χ είναι αρκετά ανώνυμος, σωστά;
Όχι, αν είσαι η Latanya Sweeney, μια καθηγήτρια επιστήμης των ηλεκτρονικών υπολογιστών στο Πανεπιστήμιο Carnegie Mellon, η οποία το 1997 απέδειξε πως αυτές οι πληροφορίες ήταν αρκετές για να αναγνωριστεί η ταυτότητα του κύριου Χ του William Held, κυβερνήτη της Μασαχουσέτης κατά τη δεκαε-τία του ’90.
Φύλο, ταχυδρομικός κώδικας, ημερομηνία γέννησης
Το φύλο, ο κώδικας περιοχής και η ημερομηνία γέννησης φαντάζουν ανώνυμα, όμως η Sweeney κατάφερε να προσδιορίσει την ταυτότητα του Κυβερνήτη Weld μέσω αυτών για δύο λόγους. Πρώτα, η καθεμία από αυτές τις πληροφορίες για ένα άτομο (ή άλλα είδη πληροφοριών που συνήθως δεν τις θεωρούμε αναγνωριστικές) ελαχιστοποιεί τον αριθμό των ατόμων τόσο πολύ, που ο συνδυασμός (φύλο, κώδικας περιοχής, ημερομηνία γεννήσεως) είναι μοναδικός για περίπου 87% του πληθυσμού των ΗΠΑ. Αν ζείτε στις Ηνωμένες Πολιτείες, υπάρχει μια πιθανότητα της τάξης του 87% να μην μοιράζεστε αυτές τις τρεις πληροφορίες με οποιοδήποτε άλλο κάτοικο των ΗΠΑ. Δεύτερο, μπορεί να υπάρχουν συγκεκριμένες πηγές διαθέσιμες (η Sweeney χρησιμοποίησε μια βάση δεδομένων εγγραφής ψηφοφόρων της Μασαχουσέτης), που δίνουν την ευκαιρία σε άτομα να κάνουν έρευνες μέσω των όσων ήδη γνωρίζουν για να μάθουν περισσότερα, περιλαμβανομένων παραδοσιακών πληροφοριών αναγνώρισης όπως το όνομα και η διεύθυνση. Κατά μια πολύ συγκεκριμένη έννοια, οι «ανωνυμοποιημένες» ή «μερικώς δημογραφικές» πληροφορίες για τους ανθρώπους, μπορεί στην τελική να μην είναι τίποτα από αυτά τα δύο (και μια ιστοσελίδα που ζητά από «ανώνυμους» χρήστες συνήθης πληροφορίες για το άτομό τους μπορεί να έχει την ικανότητα να χρησιμοποιήσει αυτές τις πληροφορίες για να δημιουργήσει ένα ξεχωριστό προφίλ για ένα άτομο, ή ακόμα και να αναζητήσει ένα συγκεκριμένο άτομο σε άλλες βάσεις δεδομένων.
Προσωπικά αναγνωρίσιμες πληροφορίες
Πολλοί σύγχρονοι κανονισμοί και συζητήσεις περί του απορρήτου επικεντρώνονται στην ιδέα των «προσωπικά αναγνωρίσιμων πληροφοριών» (personally identifiable information PII). Η ιδέα περί των «προσωπικά αναγνωρίσιμων πληροφοριών» χρησιμοποιείται από πολλά νομικά καθεστώτα και ως πολιτική πολλών οργανισμών στον τομέα του προσωπικού απορρήτου. Γενικώς, πληροφορίες που προσδιορίζουν την ταυτότητα ενός συγκεκριμένου ατόμου θεωρούνται πολύ πιο ευαίσθητες παρά πληροφορίες χωρίς αυτή την ιδιότητα.
Για παράδειγμα, οι νόμοι περί του απορρήτου των ομοσπονδιακών υπηρεσιών τηλεπικοινωνιών χρησιμοποιούν «ατομικά αναγνωρίσιμες πληροφορίες» (για ένα συνδρομητή) ως βάση για την κατηγορία των προστατευμένων πληροφοριών που περιέχονται στο δίκτυο και αφορούν ειδικά τους πελάτες (Customer Proprietary Network Information CPNI).
Οι κανονισμοί περί απορρήτου που εφαρμόζονται στον ομοσπονδιακό τομέα υγείας χρησιμοποιούν «ατομικά αναγνωρίσιμες πληροφορίες υγείας» (για ένα ασθενή) ως βάση για την κατηγορία των προστατευμένων πληροφοριών υγείας (Protected Health Information PHI).
Οι νόμοι περί απορρήτου στον ομοσπονδιακό οικονομικό τομέα, η οδηγία της ΕΕ για την προστασία προσωπικών δεδομένων και οι κυβερνητικοί νόμοι περί προστασίας του απορρήτου εφαρμόζουν παρόμοιους όρους και ιδέες και σε καθεμιά από αυτές τις περιπτώσεις, πληροφορίες που κρίνονται ως «προσωπικά αναγνωρίσιμες» ή «ατομικά αναγνωρίσιμες» μπορεί να λάβουν πολύ υψηλότερη προστασία υπό αυτούς τους νόμους και κανονισμούς.
Όμως, η έρευνα από την καθηγήτρια Sweeney και άλλους ειδικούς έχουν επιδείξει ότι, προς έκπληξη πολλές πληροφορίες, ακόμα και αυτές που φαντάζουν αρκετά αβλαβείς, ουδέτερες ή «κοινές», θα μπορούσαν ενδεχομένως να προσδιορίσουν την ταυτότητα ενός ατόμου. Η νομοθεσία περί απορρήτου, κυρίως λόγω προσκόλλησης στην παραδοσιακή αντίληψη περί της αναγνωρισιμότητας, δεν καταφέρνει να συμβαδίσει με την τεχνική πραγματικότητα.
«Αθετημένες Υποσχέσεις περί του Προσωπικού Απορρήτου»
΄Ενα πρόσφατο κείμενο του Paul Ohm, «Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization» (Αθετημένες Υποσχέσεις περί του Προσωπικού Απορρήτου: Αντιδράσεις στην προς έκπληξη Αποτυχία της Ανωνυμοποίησης), παρέχει μια λεπτομερή εισαγωγή και μια χρήσιμη οπτική αυτού του προβλήματος.
Το γραπτό του καθηγητή Ohm είναι χρήσιμο και σημαντικό για οποιονδήποτε ενδιαφέρεται για την προστασία του προσωπικού απορρήτου, καθώς δείχνει πως τα αποτελέσματα της άρσης της ανωνυμίας που πέτυχαν ερευνητές όπως η Latanya Sweeney και ο Arvind Narayanan, κλονίζουν σοβαρά τις παραδοσιακές αντιλήψεις και ιδέες περί προστασίας του προσωπικού απορρήτου. Συγκεκριμένα, ο διαχωρισμός ανάμεσα στις «προσωπικά αναγνωρίσιμες πληροφορίες» και στις «προσωπικά μη αναγνωρίσιμες πληροφορίες», γίνεται ολοένα και δυσκολότερο να διατηρηθεί. Η διαίσθησή μας, κατά την οποία συγκεκριμένες πληροφορίες είναι «ανώνυμες», είναι συχνά λανθασμένη. Υπό τις κατάλληλες συνθήκες και οξυδέρκεια, οποιοδήποτε είδος πληροφορίας πιθανότατα να μπορεί να προσδιορίσει την ταυτότητα ενός ατόμου. Οι πληροφορίες για τους ανθρώπους είναι πολύ πιο προσδιοριστικές από ό,τι έχει υποστηριχθεί και μακροπρόθεσμα το όλο εγχείρημα της κατηγοριοποίησής τους ως «προσωπικά αναγνωρίσιμες» ή «προσωπικά μη αναγνωρίσιμες» είναι αμφισβητήσιμο.
Τα στατιστικά τεκμήρια και η έξυπνη χρήση των βάσεων δεδομένων έχουν ως αποτέλεσμα εντυπωσιακά παραδείγματα άρσης της ανωνυμίας υποθετικά ανώνυμων πληροφοριών, του είδους των πληροφοριών που οι πλείστοι οργανισμοί δεν θεωρούν «προσωπικά αναγνωρίσιμες». Πέρα από τους συνδυασμούς δημογραφικών πληροφοριών μερικές πληροφορίες που θα μπορούσαν να σας αναγνωρίσουν προσδιορίζοντας την ταυτότητά σας είναι και οι εξής: Οι συνήθειες αγοράς, οι προτιμήσεις ή απόψεις σας περί μουσικής, βιβλίων ή ταινιών, ακόμα και η δόμηση των κοινωνικών σας δικτύων κατά μια καθαρά αφηρημένη έννοια, ακόμα κι όταν η ταυτότητες των φίλων σας και των επαφών σας δεν είναι διαθέσιμες. Δεδομένου του αριθμού των διαφορών που πιθανόν να μας ξεχωρίσουν από άλλους, είμαστε πολύ πιο διαφορετικοί μεταξύ μας από ό,τι θα περιμέναμε, ενώ υπάρχουν περισσότερες πηγές πληροφοριών από ό,τι αντιλαμβανόμαστε, οι οποίες μπορούν να χρησιμοποιηθούν για να εντοπιστεί επακριβώς σε ποιον αναφέρεται ένα συγκεκριμένο αρχείο.
Πολλά από αυτά τα κείμενα δημιουργήθηκαν ως αποδείξεις: Υποδεικνύουν ότι η ταυτότητα των ανθρώπων μπορεί πιθανότατα να επαναπροσδιοριστεί από αυτού του είδους πληροφορίες, κάτι που φυσικά δεν σημαίνει πως θα συμβεί σε όλους. Δεν ήταν το ίδιο εύκολο να κατονομαστούν όλοι όπως ο Κυβερνήτης Weld μέσω των ιατρικών τους αρχείων. Και η έρευνα των Narayanan και Shmatikov αναγνώρισε μόνο δύο χρήστες του Netflix από τις βαθμολογήσεις ταινιών που καταχώρησαν και όχι τον κάθε χρήστη του οποίου οι βαθμολογήσεις δημοσιεύθηκαν στο Netflix. Κι όμως, πολλά από τα αποτελέσματα αυτών των ερευνών σκόπιμα δεν χρησιμοποιούν όλες τις διαθέσιμες πληροφορίες, καθώς ο στόχος τους είναι να δείξουν την αποτελεσματικότητα μαθηματικών τεχνικών και όχι να παραβιάσουν το προσωπικό απόρρητο οποιουδήποτε ατόμου. Στις επιθέσεις στον πραγματικό κόσμο θα χρησιμοποιηθούν πολύ περισσότερα είδη διαθέσιμων πληροφοριών ταυτόχρονα, για να προσδιοριστούν οι ταυτότητες ατόμων. Όπως έχει παρατηρήσει και ο Bruce Schneier, τέτοιας φύσης επιθέσεις απλώς βελτιστοποιούνται με το πέρασμα του χρόνου, ποτέ δεν γίνονται λιγότερο αποτελεσματικές.
Ο Ohm υποστηρίζει πως είναι πιο πρόσφορο το να σκεφτούμε τον προσδιορισμό ταυτότητας ως μια αδιάσπαστη αλληλουχία των επί μέρους στοιχείων. Μέσα από αυτό το πρίσμα, ο όρος «ανωνυμοποίηση» καθίσταται προβληματικός. Διάφοροι ερευνητές, εκ συνήθειας, μοιράζονται ή ακόμα και δημοσιοποιούν αρχεία πληροφοριών τα οποία αναφέρονται στα άτομα με κωδικούς αριθμούς. Έχουν ήδη υπάρξει καταφανή προβλήματα με την εφαρμογή αυτής της πρακτικής, όπως για παράδειγμα όταν η AOL δημοσίευσε «ανωνυμοποιημένες» πληροφορίες μέσω των οποίων προσδιορίστηκε η ταυτότητα μερικών ατόμων, μόνο και μόνο μέσω του περιεχομένου των διαδικτυακών αναζητήσεών τους.
Ελπίζουμε πως το «Broken Promises of Privacy» θα ενθαρρύνει τα άτομα που εργάζονται με προσωπικά δεδομένα να σκέφτονται πιο κριτικά για την διατήρησή τους και τις πρακτικές διαμοιρασμού τους με άλλα άτομα, καθώς και για την αποτελεσματικότητα των τεχνικών ανωνυμοποίησης που χρησιμοποιούν. Επίσης, ελπίζουμε πως θα ληφθεί υπόψη από το ευρύτερο κοινό και πως θα βοηθήσει στην εκκίνηση μιας πιο καθολικής συζήτησης ανάμεσα στους ερευνητές, τους τεχνολόγους και τους δικηγόρους, περί του τι ακριβώς θα πρέπει να περιλαμβάνει ο όρος «προστασία του απορρήτου» στην εποχή της άρσης του απορρήτου.
