Titel
STATISTISCHE ANALYSE VAN NEXT-GENERATION SEQUENCING DATA (Onderzoek)
Abstract
Next-generation sequencing (NGS) genereert miljoenen korte sequenties. Een van de NGS toepassingen is RNA-sequencering (RNA-seq). Dit is een veel toegepaste methode om de activiteit van een gen, transcript of exon te bepalen. De korte sequenties moeten ge-identificeerd worden om de gen-aciviteit te kunnen bepalen. Na de identificatie worden de korte sequenties samengevat als aantallen. Daarom is de identificatie door middel van alignering een uiterst belangrijke stap in het RNA-seq proces. Het aligneren van de korte sequenties maakt het mogelijk om een regio in het genoom of transcriptoom te vinden die identiek of zeer gelijkend is aan een korte sequentie. Echter deze alignering is niet altijd accuraat. Sommige korte sequenties zijn identiek aan meerdere locaties in het genoom of transcriptoom. Dergelijke ambigue identificaties veroorzaken problemen wanneer de gen-activiteit geschat wordt. De bestaande methodes om de gen-activiteit te schatten leiden tot foutieve resultaten. In dit project ontwikkelen we twee nieuwe methodes (theoretical framework en weighted approach) om de gen activiteit te bepalen in de aanwezigheid van amibuge korte sequenties. Het probleem van ambiguiteit is eveneens aanwezig wanneer men de activiteit van een gen-isoform wil schatten. Verschillende isoformen van een gen kunnen meerdere exonen delen. Voor dit probleem zullen we ook een statistisch model ontwikkelen om de isoform-activiteit te bepalen en dat rekening houdt met uniek en gedeelde exonen.
Periode
01 januari 2017 - 31 december 2017