Project R-15179

Titel

Statistische modellering van gefedereerde gegevens door middel van sufficiënte statistieken (Onderzoek)

Abstract

Het begrijpen en extraheren van nuttige informatie uit data zijn enkele van de gedeelde doelen tussen dataproviders en data-analisten. Beide partijen moeten echter ook het recht op gegevensprivacy respecteren van personen van wie de gegevens zijn verzameld. Dit legt beperkingen op aan hoeveel en welk soort gegevens door de gegevensleveranciers aan de gegevensanalisten kunnen worden bekendgemaakt, omdat klassieke schattingen gegevens op individueel niveau vereisen om gevolgtrekkingen te bieden die op individueel niveau kunnen worden geïnterpreteerd. Gefedereerd leren pakt deze hindernis aan door parameters te schatten zonder gegevens op individueel niveau op te halen. In plaats daarvan is iteratieve communicatie van updates van parameterschattingen tussen de gegevensleveranciers en analisten vereist. In dit onderzoek stellen we een alternatief raamwerk voor voor federatief leren voor het aanpassen van veelgebruikte statistische modellen zoals gegeneraliseerde lineaire gemengde modellen (GLMM). Concreet is onze aanpak erop gericht om slechts één keer gebruik te maken van samenvattende statistieken van verschillende dataproviders, waardoor iteratieve communicatie wordt geëlimineerd. Het gaat om het genereren van pseudogegevens die overeenkomen met de aangeleverde samenvattende statistieken en deze gebruiken in het modelschattingsproces in plaats van de feitelijk niet-beschikbare gegevens. We streven ernaar om meerdere covariaten op te nemen die een combinatie kunnen zijn van categorische en continue variabelen in het model. We voeren simulatie-experimenten uit om de kwaliteit van de schattingen die via onze voorgestelde strategie zijn geproduceerd te evalueren en het nut ervan aan te tonen via openbaar beschikbare echte gegevens. Eenvoud, communicatie-efficiëntie, generaliseerbaarheid en een bredere reikwijdte van implementatie in statistische software onderscheiden onze aanpak van bestaande strategieën in de literatuur. Dit onderzoek kan ook andere studiegebieden bestrijken waarin gegevens op individueel niveau ontoegankelijk zijn, en is niet beperkt tot medisch onderzoek.

Periode

16 september 2024 - 31 augustus 2026