Project R-12626

Titel

Vector-inbeddingmethoden gezien als "views" op gegevensbanken (Onderzoek)

Abstract

In het afgelopen decennium zijn vector-inbeddingmethoden ontwikkeld om machine learning mogelijk te maken over gestructureerde gegevens zoals grafen of, meer in het algemeen, relationele gegevensbanken. Hoewel de empirische effectiviteit van vector-inbeddingen voor specifieke leertaken en toepassingsdomeinen goed is onderzocht, is het minder duidelijk welke informatie van de gestructureerde gegevens is bevat in inbeddingen. In dit project postuleren we dat, door naar inbeddingen te kijken door de lens van gegevensbankonderzoek, we meer inzicht kunnen krijgen in welke informatie inbeddingen bevatten. Concreet stellen we voor om bevragingstalen te ontwerpen waarin vector- inbeddingmethoden op natuurlijke wijze kunnen worden uitgedrukt. In deze setting kunnen vragen met betrekking tot het soort informatie dat is gecodeerd in de ingebedde vectoren worden geformuleerd als het herschrijven van een query als een query over "views", en zullen we dit probleem bestuderen. Door rekening te houden met de structurele eigenschappen van inbeddingsqueries, openen we bovendien de deur naar een overdracht van methoden in gegevensbanken naar vector-inbeddingen en terug. In het bijzonder kunnen gegevensbankmethoden voor incrementele query-evaluatie en query-sampling worden toegepast voor het efficiënt leren van de parameters in inbeddingen, terwijl omgekeerd vector-inbeddingen kunnen worden benut voor gegevensbank-indexering.

Periode

01 januari 2022 - 31 december 2025