Titel
Computer Gegenereerde Data gebruiken om Computer Visie modellen te trainen. (Onderzoek)
Abstract
In de afgelopen jaren zijn er steeds complexere modellen voor diep leren ontwikkeld om steeds moeilijkere problemen aan te pakken. Dit geldt vooral voor het gebied van computervisie, waar deze modellen - meestal convolutionele neurale netwerken - worden gebruikt om afbeeldingen te verwerken om informatie te extraheren over de scènes die erin zijn afgebeeld. Enkele van de problemen die worden opgelost door deep learning zijn: 6 DoF-pose-esitmation, depth estimation, image segmentation, object detection, SVBDRF-capturing en nog veel meer. Het trainen van deze modellen vereist een grote hoeveelheid afbeeldingen van het beoogde domein, waarvan de gewenste annotaties bekend zijn. Om een dergelijke dataset te verkrijgen, wordt ofwel een set bestaande afbeeldingen handmatig geannoteerd of worden afbeeldingen programmatisch gegenereerd op een manier dat de gewenste annotatie bekend is. De eerste optie kan snel vermoeiend worden, resulteren in annotaties van lagere kwaliteit en is misschien zelfs helemaal niet mogelijk vanwege de complexe aard van de vereiste labels. Bovendien is in sommige domeinen de beschikbaarheid en verwerving van afbeeldingen zelf problematisch. Een groot deel van de industrie evolueert bijvoorbeeld naar low-volume high-variety productie, waardoor het verkrijgen van gelabelde afbeeldingen nog moeilijker wordt, aangezien de objecten die worden geproduceerd voortdurend veranderen. Het gebruik van gegenereerde trainingsgegevens kan de bovengenoemde problemen oplossen, aangezien de benodigde labels gemakkelijk kunnen worden geëxtraheerd met behulp van de informatie die bekend is bij het construeren van de afbeelding. Dergelijke afbeeldingen kunnen worden gegenereerd door scènes te construeren met behulp van de 3D-modellen van de objecten van belang en deze weer te geven, of door bestaande afbeeldingen van het object te gebruiken en een nieuwe reeks afbeeldingen samen te stellen op een manier waarop de annotaties bekend zijn. Op deze manier kan een grote hoeveelheid trainingsgegevens worden verkregen tegen lagere kosten in vergelijking met het handmatig genereren van de gegevens. Het genereren van gegevens is echter geen magische oplossing voor alle problemen met een tekort aan data, aangezien er nog steeds veel problemen zijn rond de techniek die verhinderen dat deze gemakkelijk in de praktijk kan worden toegepast. Het gebruik van gegenereerde data brengt nieuwe problemen met zich mee. Ten eerste verschilt het domein van afbeeldingen waarop dit model is getraind (brondomein) van het domein van afbeeldingen waarop het model bedoeld is om te worden gebruikt (doeldomein). Dit leidt ertoe dat het model niet goed presteert voor de taken in de echte wereld waarvoor het is getraind. Een eerste oplossing, is om meer realistisch ogende afbeeldingen te genereren, zodat de domeinen beter op elkaar aansluiten. Dit brengt ons bij ons tweede probleem: de hoge kosten van het genereren van trainingsgegevens. Om realisme te bereiken dat overeenkomt met de echte wereld, zijn computationeel dure technieken zoals monte-carlo raytracing nodig. Hoewel recente technieken zoals Nvidia RTX het renderen versnellen, zullen de cumulatieve kosten voor het genereren van een volledige dataset nog steeds aanzienlijk zijn, aangezien de datasets die voor deze complexe problemen worden gebruikt vaak erg groot zijn (meer dan 100k afbeeldingen). Bovendien zijn de exacte materiaaleigenschappen van de items mogelijk niet op voorhand bekend wat het onmogelijk maakt om realistische renderingen te maken. Een belangrijke vraag die moet worden gesteld, is welke features door het machine learning-model worden gebruikt voor welke problemen. Maakt een objectdetectiemodel gebruik van features op laag niveau, zoals textuur, of zijn de functies van een hoger niveau, zoals vorm, de dominante keu bij de besluitvorming? Als u het antwoord op deze vraag kent, kunt u veel efficiënter gegevens genereren, omdat er geen tijd wordt besteed aan het genereren van nutteloze informatie. Dit laat ons nog steeds zitten met het probleem van de domeinkloof, die ook zou kunnen worden opgelost door de afbeeldingen van het doeldomein naar het trainingsdomein over te brengen. Het is duidelijk dat er behoefte is aan geavanceerde methoden die de domeinkloof in moderne computer vision-toepassingen op basis van machine learning op een efficiënte manier kunnen helpen overbruggen. In dit onderzoek zullen we de bestaande oplossingen voor het overbruggen van de domeinkloof onderzoeken en vergelijken, en bepalen welke toepasbaar zijn in een industriële setting. Wil een model bruikbaar zijn in industriële toepassingen, dan moeten de kosten voor het genereren van gegevens en de training zo laag mogelijk zijn en moeten de voorlopige gegevensvereisten ook minimaal zijn, terwijl toch de vereiste nauwkeurigheid wordt bereikt. Als dit nodig wordt geacht om de gewenste resultaten te bereiken, ontwikkelen we eigen methoden of breiden we het bestaande werk uit.
Periode
01 september 2020 - 31 augustus 2024