Sökträffar

    Sökträffar

    Visa alla resultat för ""
    Hittar inga resultat eller sökförslag för "."

    Söktips

    • Kontrollera att orden är rättstavade
    • Försök med andra sökord eller synonymer
    • Smalna av din sökning för att få fler träffar

    Hur kan vi hjälpa dig?

    Ny student

    Kontakta oss

    Hitta medarbetare

    Högskolan i Skövde, länk till startsida

    Sökträffar

      Sökträffar

      Visa alla resultat för ""
      Hittar inga resultat eller sökförslag för "."

      Söktips

      • Kontrollera att orden är rättstavade
      • Försök med andra sökord eller synonymer
      • Smalna av din sökning för att få fler träffar

      Hur kan vi hjälpa dig?

      Ny student

      Kontakta oss

      Hitta medarbetare

      Högskolan i Skövde, länk till startsida

      Disputation: Visualizing Cluster Patterns at Scale: A Model and a Library

      Datum 12 mars Tid 13:15 - 17:00 Plats Sal Insikten, Portalen, samt via Zoom

      Elio Ventocilla försvarar sin avhandling "Visualizing Cluster Patterns at Scale: A Model and a Library".

      Disputationen sker i sal Insikten i hus Portalen, men livesänds också via Zoom. Då lokalen just nu tillåter högst åtta personer uppmanar vi dig att delta online via Zoom.

      Klicka på länken för att ta del av disputationen via Zoom.

      Titta på sändningen

      Mötes-ID: 674 4304 2786
      Lösenord: 544518

      Sammanfattning

      Stora datamängder samlas (idag) in och analyseras för att skapa ny kunskap och bidra med värde i akademiska och industriella tillämpningar. För att skapa en större förståelse om vad datan innehåller, speciellt i fall där kunskapen om innehållet i datan är bristfällig, använder analytiker Visual Analytics (VA). Ett typiskt angreppssätt inom VA är att modellera och sedan visualisera den underliggande strukturen på datan. Det kan, till exempel, göras genom att visualisera datapunkternas lokala relationer i en multidimensionell rymd. Genom en sådan analys så kan analytiker upptäcka intressanta områden och kluster av datapunkter. Med dessa insikter kan efterliggande analyser utföras på ett bättre sätt (och då ge ett än större mervärde).

      Visualisering av högdimensionell data, det vill säga data med fler än fyra dimensioner, är oftast en tvåstegsprocess. I det första steget modelleras relationerna mellan datapunkterna. I det andra steget så visualisera datapunkterna i en lågdimensionell rymd, där så mycket som möjligt av relationerna mellan datapunkterna behålls. Det uppstår dock skalbarhetsproblem när dataseten växer i storlek, som innefattar antalet datadimensioner och antalet datapunkter. Högdimensionell data är ofta gles och utspridd i den högdimensionella rymden, vilket gör den svår att modellera relationerna mellan de olika datapunkterna. Detta gör is sin tur det svår att tolka ut meningsfulla och informativa visualiseringar. Dataset med många datapunkter är också svåra att visualisera och kräver mycket beräkningstid och mycket datorminne för att få fram bra representationer och det finns en stor risk att dessa representationer blir röriga och svårtolkade. Detta gör att nyttan med VA minskar när storleken på datan växer. Det har gjorts en hel del forskning inom detta område och lösningar har presenterats för specifika problem men än så länge finns inga generella lösningar för stora- och mångdimensionella-dataset.

      Många av de lösningar som tagits fram är dessutom inte publikt tillgängliga eller bara finns tillgängliga för att användas i specifika domäner. Det gör att dessa lösningar ofta måste återskapas om de ska användas för andra domäner eller integreras i standardiserade mjukvaror. Det gör att hela “data science” fältet står inför en stor utmaning om vilka format som kan användas när data klustras och hur lättillgängliga och publika mjukvaror kan skapas.

      Avhandlingen gör två bidrag till detta. Dels så beskrivs ett effektivt och och generellt tillvägagångssätt för att processa och visualisera högdimensionell data. Ett programvarubibliotek som möjliggör interaktiv analys av data, även när datan är högdimensionell, har dessutom publicerats och finns tillgänglig som öppen källkod. Genom att programvaran finnas som öppen källkod så är det möjligt att integrera den i andra analysmjukvaror. Tillvägagångsättet för att modellera datan använder sig av stickprovsurval och vektorkvantifiering för att undvika att de visuliseringarna innehåller för många punkter och därmed blir klottriga. Dessa metoder gör också att modelleringen och visualiseringen kräver en mindre mängd datorminne och att det är möjligt för modellen att ingå i en process där modellen producerar visuella representationer och en analytiker ger återkoppling som modellen reagerar på.

      Programbiblioteket som publicerats innehåller en av alla möjliga konfigurationer av den framtagna modellen och är implementerat för köras på Apache Spark. I denna implementation så används en GNG för att utföra vektorkvantifieringen och en fdp används sedan för att konstruera en tvådimensionell representation som kan visualiseras För att fastställa validiteten och ge empiriska och teoretiska belägg för modellen så har sju
      vetenskapliga publikationer publicerats.

      Opponent

      Katerina Vrotsou, docent, Linköpings universitet

      Handledare

      Maria Riveiro, biträdande professor, Högskolan i Skövde
      Göran Falkman, bitr. professor, Högskolan i Skövde
      Rafael M. Martins, universitetslektor, Linnéuniversitetet

      Examinatorer

      Per Backlund, professor, Högskolan i Skövde
      Hans-Jörg Schulz, bitr. professor, Aarhus University
      Veronica Sundstedt, docent, Blekinge Tekniska Högskola
      Yacine Atif, professor, Högskolan i Skövde

      Kontakt

      Doktorand

      Elio Ventocilla

      Institutionen för informationsteknologi

      Publicerad: 2021-02-12
      Senast ändrad: 2021-02-12
      Sidansvarig: webmaster@his.se