Titel
Vector-inbeddingmethoden gezien als "views" op gegevensbanken (Onderzoek)
Abstract
In het afgelopen decennium zijn vector-inbeddingmethoden
ontwikkeld om machine learning mogelijk te maken over
gestructureerde gegevens zoals grafen of, meer in het algemeen,
relationele gegevensbanken. Hoewel de empirische effectiviteit van
vector-inbeddingen voor specifieke leertaken en
toepassingsdomeinen goed is onderzocht, is het minder duidelijk
welke informatie van de gestructureerde gegevens is bevat in
inbeddingen. In dit project postuleren we dat, door naar inbeddingen
te kijken door de lens van gegevensbankonderzoek, we meer inzicht
kunnen krijgen in welke informatie inbeddingen bevatten. Concreet
stellen we voor om bevragingstalen te ontwerpen waarin vector-
inbeddingmethoden op natuurlijke wijze kunnen worden uitgedrukt. In
deze setting kunnen vragen met betrekking tot het soort informatie
dat is gecodeerd in de ingebedde vectoren worden geformuleerd als
het herschrijven van een query als een query over "views", en zullen
we dit probleem bestuderen. Door rekening te houden met de
structurele eigenschappen van inbeddingsqueries, openen we
bovendien de deur naar een overdracht van methoden in
gegevensbanken naar vector-inbeddingen en terug. In het bijzonder
kunnen gegevensbankmethoden voor incrementele query-evaluatie
en query-sampling worden toegepast voor het efficiënt leren van de
parameters in inbeddingen, terwijl omgekeerd vector-inbeddingen
kunnen worden benut voor gegevensbank-indexering.
Periode
01 januari 2022 - 31 december 2025