Elio Ventocilla
Institutionen för informationsteknologi
Elio Ventocilla försvarar sin avhandling "Visualizing Cluster Patterns at Scale: A Model and a Library".
Disputationen sker i sal Insikten i hus Portalen, men livesänds också via Zoom. Då lokalen just nu tillåter högst åtta personer uppmanar vi dig att delta online via Zoom.
Klicka på länken för att ta del av disputationen via Zoom.
Mötes-ID: 674 4304 2786
Lösenord: 544518
Stora datamängder samlas (idag) in och analyseras för att skapa ny kunskap och bidra med värde i akademiska och industriella tillämpningar. För att skapa en större förståelse om vad datan innehåller, speciellt i fall där kunskapen om innehållet i datan är bristfällig, använder analytiker Visual Analytics (VA). Ett typiskt angreppssätt inom VA är att modellera och sedan visualisera den underliggande strukturen på datan. Det kan, till exempel, göras genom att visualisera datapunkternas lokala relationer i en multidimensionell rymd. Genom en sådan analys så kan analytiker upptäcka intressanta områden och kluster av datapunkter. Med dessa insikter kan efterliggande analyser utföras på ett bättre sätt (och då ge ett än större mervärde).
Visualisering av högdimensionell data, det vill säga data med fler än fyra dimensioner, är oftast en tvåstegsprocess. I det första steget modelleras relationerna mellan datapunkterna. I det andra steget så visualisera datapunkterna i en lågdimensionell rymd, där så mycket som möjligt av relationerna mellan datapunkterna behålls. Det uppstår dock skalbarhetsproblem när dataseten växer i storlek, som innefattar antalet datadimensioner och antalet datapunkter. Högdimensionell data är ofta gles och utspridd i den högdimensionella rymden, vilket gör den svår att modellera relationerna mellan de olika datapunkterna. Detta gör is sin tur det svår att tolka ut meningsfulla och informativa visualiseringar. Dataset med många datapunkter är också svåra att visualisera och kräver mycket beräkningstid och mycket datorminne för att få fram bra representationer och det finns en stor risk att dessa representationer blir röriga och svårtolkade. Detta gör att nyttan med VA minskar när storleken på datan växer. Det har gjorts en hel del forskning inom detta område och lösningar har presenterats för specifika problem men än så länge finns inga generella lösningar för stora- och mångdimensionella-dataset.
Många av de lösningar som tagits fram är dessutom inte publikt tillgängliga eller bara finns tillgängliga för att användas i specifika domäner. Det gör att dessa lösningar ofta måste återskapas om de ska användas för andra domäner eller integreras i standardiserade mjukvaror. Det gör att hela “data science” fältet står inför en stor utmaning om vilka format som kan användas när data klustras och hur lättillgängliga och publika mjukvaror kan skapas.
Avhandlingen gör två bidrag till detta. Dels så beskrivs ett effektivt och och generellt tillvägagångssätt för att processa och visualisera högdimensionell data. Ett programvarubibliotek som möjliggör interaktiv analys av data, även när datan är högdimensionell, har dessutom publicerats och finns tillgänglig som öppen källkod. Genom att programvaran finnas som öppen källkod så är det möjligt att integrera den i andra analysmjukvaror. Tillvägagångsättet för att modellera datan använder sig av stickprovsurval och vektorkvantifiering för att undvika att de visuliseringarna innehåller för många punkter och därmed blir klottriga. Dessa metoder gör också att modelleringen och visualiseringen kräver en mindre mängd datorminne och att det är möjligt för modellen att ingå i en process där modellen producerar visuella representationer och en analytiker ger återkoppling som modellen reagerar på.
Programbiblioteket som publicerats innehåller en av alla möjliga konfigurationer av den framtagna modellen och är implementerat för köras på Apache Spark. I denna implementation så används en GNG för att utföra vektorkvantifieringen och en fdp används sedan för att konstruera en tvådimensionell representation som kan visualiseras För att fastställa validiteten och ge empiriska och teoretiska belägg för modellen så har sju
vetenskapliga publikationer publicerats.
Katerina Vrotsou, docent, Linköpings universitet
Maria Riveiro, biträdande professor, Högskolan i Skövde
Göran Falkman, bitr. professor, Högskolan i Skövde
Rafael M. Martins, universitetslektor, Linnéuniversitetet
Per Backlund, professor, Högskolan i Skövde
Hans-Jörg Schulz, bitr. professor, Aarhus University
Veronica Sundstedt, docent, Blekinge Tekniska Högskola
Yacine Atif, professor, Högskolan i Skövde
Institutionen för informationsteknologi