Navoda Senavirathne
Institutionen för informationsteknologi
Navoda Senavirathne försvarar sin avhandling "Towards Privacy Preserving Micro-Data Analysis: A Machine Learning Based Perspective under Prevailing Privacy Regulations".
Disputationen sker i Insikten, Portalen, men livesänds också via Zoom. Klicka på länken nedan för att ta del av disputationen via Zoom.
Maskininlärning (ML) är förekommande inom olika domäner där känsliga mikrodata (i.e. data om enskilda personer) används för att bygga modeller. Nyligen har forskning visat att det går att återskapa den känsliga information som användes för att träna ML-modellen, genom att utnyttja modellens prediktioner, samt kunskap om och hur modellen byggts upp och optimerats. ML-modeller utgör därför ett hot mot sekretessen runt de individer vars data har byggt upp modellen. För att minimera riskerna så har speciella ML-modeller tagits fram och föreslagits av forskning, dessa metoder går under namnet PPML (från engelskans privacy preserving machine learning). De metoder som har föreslagits inom PPML bygger på differential privacy eller kryptografiska tekniker. Användandet av sådana tekniker medför dock mer komplicerade beräkningar, samt att de ofta medför en försämrad möjlighet till korrekta prediktioner för ML-modellerna. Dessutom så förutsätter metoderna att all rådata finns tillgänglig när ML-modellerna tränas.
Kraven på hur mikro-data som publiceras ska skyddas är väldigt stränga, vilket gör att många väljer att anonymisera data redan innan den släpps för analys. Det är därför viktigt, både ur ett säkerhets- och användbarhets-perspektiv, att förstå hur ML-modeller påverkas av anonymiserad data. Detta görs dock sällan, utan dataskyddsåtgärder som anonymisering och PPML studeras oftast var för sig och kopplingen mellan dessa undersöks inte. Den här avhandlingen argumenterar för att det finns tydliga synergier av att använda dessa två fält ihop och om så görs uppstår mängder av fördelar för både de som kontrollerar datan och individerna som datan omfattar. Det här gör att kraven på hur ML-modeller kan användas, och vilka krav som ska ställas på integriteten hos datan, måste utvärderas på nytt om både PPML och anonymisering av data används.
Den här avhandlingen bidrar, bland annat, med förståelse för vilka utmaningar och möjligheter som finns när anonymiserad data används inom ML. Avhandlingen belyser till exempel hur vissa delar av dataskyddsförordningen ”General Data Protection Regulation” (GDPR) kan stå i konflikt mot användandet av maskininlärning. Detta inspirerade till ett nytt förslag på en dataanonymiseringsalgoritm som baserades på probabilistisk k-anonymitet. Den föreslagna algoritmen gör det möjligt att bevara anonymiteten i datan på ett säkert sätt, samtidigt som det att få ut det mesta av potentialen inom ML.
I nästa studie så introduceras en anonymetetsbevarande teknik för modellval inom ML och som baseras på integral privacy. Den föreslagna metoden klarar av återupprepade attacker genom att ta hänsyn till vad en möjlig inkräktare kan ha tagit reda på om träningsdatan och anpassa modellvalet utifrån detta. Modellvalet görs då utifrån ett perspektiv som ser till att öka osäkerheten kring inkräktarens uppskattningar av träningsdatan. I avhandlingen så beskrivs också egenskaper på välkända attacker som har varit riktade mot ML-modleler, som till exempel attacker som syftar på att ta reda på om en instans finns med i träningsdatan. Beskrivningen följs sedan av en utvärdering över hur vissa metoder kan bli manipulerade så att de skapar en övertro på skyddet och således underskattar riskerna. Den här utvärderingen ledde fram till nästa bidrag i avhandlingen där en ny attackmodell tas fram. Den nya attackmodellen kan till exempel användas för att bättre uppskatta riskerna med attacker för att avanonymisera träningsdata.
För att sammanfatta så bidrar avhandlingen med en bredare kunskapsbas och förståelse över hur anonymitet kan bevaras även då ML-modeller används.
Avhandlingen studerar även kopplingen mellan regulatoriska åtgärder som GDPR och analys av ”big data” och vilka följder dessa åtgärder får.
Sonja Buchegger, professor, Kungliga Tekniska högskolan, KTH
Vicenç Torra, professor, Umeå universitet
Maria Riveiro, biträdande professor, Högskolan i Skövde
Alina Campan, biträdande professor, Northern Kentucky University, USA
Sébastien Gambs, professor, Université du Québec à Montréal, Kanada
Simone Fischer-Hübner, professor, Karlstads universitet
Institutionen för informationsteknologi