Project R-7534

Titel

Schatten in grote-schaal heterogene en heteroscedastische kwantiel regressie (Onderzoek)

Abstract

Statistici worden vaak geconfronteerd met zeer grote datasets uit verscheidene onderzoeksdomeinen. We bekijken in het bijzonder grote-schaal data met extreem veel covariaten en een extreem grote steekproef, waarbij het bestaan van subpopulaties het modelleren bemoeilijkt en waar bovendien het aantal subpopulaties groeit met de steekproefgrootte. Dergelijke data wijken typisch af van de klassieke homoscedastische voorwaarden, waarbij de fout in het model onafhankelijk is van de geobserveerde covariaten. De computationele moeilijkheid komt van het feit dat grote-schaal data, groot zijn in de zin dat eenvoudige matrixvermenigvuldiging niet mogelijk is op één enkele computer. We stellen een semi-parametrische, tijdsvariërende kwantielregressie context voor het modelleren van massieve heterogene data voor. We modelleren een kwantiel van de respons (in plaats van het gemiddelde in klassieke lineaire regressie) gebaseerd op zowel covariaten als een gemeenschappelijk niet-parametrisch effect voor alle subpopulaties als een variërend effect voor elke subpopulatie. De variantie in dit heteroscedastisch model wordt op een niet-parametrische manier gemodelleerd. Het schatten van de niet-parametrische componenten (voor de gemeenschappelijke factor, heterogeniteit en heteroscedasticiteit) gebeurt met P-splines. Bovendien testen we de relevantie van zowel heterogeniteit als heteroscedasticiteit tussen de subpopulaties.

Periode

01 januari 2017 - 31 december 2019