Genoombiologie D2 alle Hoorcolleges volledig uitgewerkt
5 views 0 purchase
Course
Genoombiologie (B3GENB09)
Institution
Universiteit Utrecht (UU)
Dit document bevat de volledige uitwerking van de hoorcolleges. Dit bevat de 4 hoorcolleges van het tweede deel van de cursus. Het omvat het grootste deel van de tentamenstof en biedt als een goeie voorbereiding voor het tentamen.
HC7 Evolutie van vertebraat genoom (7)...................................................................................................... 21
HC8 Small & large-scale duplications en evolutie (7).....................................................................................28
1
,HC5 Pangenoom en genomic variation (7)
Inhoud
• Genomische variatie
o Typen genomische variatie
o Detectie van genomische variatie
o Rol van het referentiegenoom
• Pangenomen
o Wat zijn pangenomen?
o Methoden voor het construeren van pangenomen
o Visualisatie en interpretatie van pangenomen
o Pangenome journal club (toepassingen van pangenomen)
Genomische variatie
Genomische variatie: Hoe genomen in de loop van de tijd veranderen
• Single nucleotide variaties: SNP ook wel SNV (menselijke miljoenen varianten)
o SNP als mutatie nog niet vaak voorkomt, SNV als mutatie al vaak voorkomt
• Indels: Inserties/deleties (1 bp – 1000 bp)
• Mobiele elementen: SINE, LINE-transpositie (300 bp - 6 kb) (zie W4!)
• Genomische structurele variatie (SVs) (1 kb – 5 Mb)
o Grootschalige inserties/deleties (Copy Number Variation: CNV)
o Segmentale duplicaties (> 1 kb, > 90% sequentieovereenkomst) (W8 en W1!)
zoals centromeric satelieten
o Chromosomale inversies, translocaties, fusies (zie W6!)
veel in rDNA omdat ze veel op elkaar lijken
Genomische variatie:
SNVs: Variatie van 1 nucleotide tussen mensen
INDELs: inserties en deleties van paar nucleotide (1bp-1kbp)
Tandem repeats: kunnen varrieren in aantal repeats (ook weer te maken met indels)
Structurele variatie (SVs): grote structurele verschillen
o Deletie, duplicatie, inversie, insertie, transloactie
o Er kan hierdoor van alles veranderen en zorgt vaak voor ziektes. Zoals
het koppelen van enhancers aan andere genen, of genen aan elkaar.
Detecting SVs: terugblick op W1
pair-end sequencing: hierdoor kan je goed SVs detecteren
De “gemiddelde genomische variatie” van een persoon
Er zijn ~5miljoen SNV in het menselijk genoom
Er zijn 2miljoen bp die betrokken zijn bij INDEls in het menselijk genoom, dit zorgt
voor 600k verschillende INDELs
Er zijn >20miljoenbp die betrokken zijn bij SVs in het menselijk genomen, dit
zorgt voor 25k verschillende SVs
Dit laat zien dat ~0.4% variabele in het genoom per individu (90,6% non-
variabel). SNVs 0,08%, INDELs 0,03% en SVs 0,3%
In een recentere studie (T2T assamblage) komen ze uit op 0,8% variatie
2
,Variant calling workflows
standaard aanpak: DNA verzamelen en dan bijv illumina SRS doen
of HiFi LRS en vervolgens deze data tegen een referentie genoom
plaatsten. En vervolgens kijken hoeveel variatie is er
1) Raw reads van haplotypes
2) Mapping
o 2A Reads als directe sequentie data gebruiken om variatie te detecteren t.o.v.
een referentie genoom.
Reads maped met lineare referentie (Meest standaard methode!)
Reads maped met pangenoom: Als je bijv sequentie of nt hebt in je
genoom die varieert (iets van die 0,8%) dan zit dat dus niet in de
referentie genoom (unmapped reads met variatie erin zijn niet
gebruikt voor de assamblage), dan kan je het mappen op een
pangenoom en al die mutaties terug vinden. Een pangenoom bevat
veel meer diversiteit van allemaal mensen waarvan we DNA hebben
gesequenst
o 2B we gebruiken de reads data om eerst een genoomsequentie de novo te
assembleren in contigs of chromosomen en die vervolgens mappen t.o.v. een
referentie genoom. In de novo assambly worden de unmapped reads dus wel
gewoon ergens geassembleerd eerst
Assembly mapped met lineare referentie: Hier kan je dus door twee
assemblages met elkaar te vergelijken dus alsnog indels vinden zonder
het te mappen tegen een pangenoom
Assembly mapped met pangenoom: zelfde principe alleen vergelijk je
nu dus de assembly niet met 1 referentie genoom maar met alle
referentie genomen. Zo kan je dus ook proberen genotypes proberen
te linken aan fenotypes
3) variant calling
o 3A: Mapping-based variant calling: Varianten geïdentificeerd op basis van
read ondersteuning voor referentie en alternatieve basen.
o 3B: Assambly-based variant calling: Variant geïdentificeerd op basis van
sequentiemismatches en het aantal contigs dat is alignt met de regio na het
alignen van de assemblage met de referentie
4) Candidate variants worden gefilterd gebaseerd op de input data support en
bekende biases geassocieerd met input data type. Er is meestal minder filtering voor
assembly-based methods
5) Variant callsets: Varianten calls van reads mapped met lineare referentie missen
de insertie
Verbeteringen in het genoom en varianten calling
En komen steeds betere versies van het genoom, waarbij er steeds meer van het
genoom geassembleerd wordt, waaronder nu dus ook het Y-chromosoom.
Je ziet dat vooral de centromeer sattelieten recent onthuld zijn
En zo’n referentie genoom heb je nodig om variaties te kunnen detecteren. Alleenm
heb je reads van een bepaalde minimum lengte nodig om dat ze anders op veel
plekken in je genoom kunnen alignen.
3
, Dit zie je in plot C, met op de y-as cumulatieve proportie van aantal base en op x-as
de minimum unieke k-mer grootte en dan moet je vooral kijken naar de non-
synthetic lijn (blauwe lijn), want dit gaat over die extra bp exclusief voor T2T-CHM13.
En dus vooral bij die nonsynthetische bp heb je een lange minimum lengte nodig
want dat zijn vooral repitieve regios zoals centromeric sateliets
Verbeteringen in het genoom en varianten calling
Het KCNJ18 gen zit in de biologie in de meeste gevallen twee keer in je genoom,
maar in de GRCh38 zit hij maar 1x. Hierdoor krijg je bij het alignen van genomen dat
de reads gaan alignen met regio die het beste overeenkomt en hierdoor match heel
veel data met dit gebied alleen met heel veel mutaties erin (kleurtjes). Dit komt dus
omdat het eigenlijk twee regios zijn inplaats van 1.
Dit hebben ze nu ook aangepast in het referentie genoom T2TCHM13 en hierdoor
zie je maar paar mutatie streepjes wat dus de daadwerkelijke variaties zijn. Zo kan je
dus duidelijker variatie bepalen in je genoom als je het met de referentie genoom
alignt.
Ook is er een regio in het GRCh38 genoom andersom dan in hoe het in de biologie is,
maar hier zagen ze snel dat bij elke genoom alignment ze rearangment zagen. Dit zijn
dus wss geen structurele variaties maar is het een foutje in de assembly van GRCh38
Dit is dus waarom het verbeteren van het referentie genoom belangrijk is om
varianten te detecteren
Dit hebben ze ook laten zien in de vergelijking van false negatives en false positieves
tussen GRCh38 en CHM13 en dan zie je dat die al sterk afnemen als je een beter
referentie genoom hebt.
Dit hebben ze gedaan door te kijken naar medisch relevante genen, en daaruit
filteren welke genen vaker gekoppeld zijn aan genetische informtie die we kunnen
krijgen uit families of in combinatie analyse tussen ouder en kind etc. En dan lossen
we al deze genen op een in monster en dan kijken ze hoe goed zijn ze in staat om
voor die genen om een mutatie te vinden t.o.v. de referentie. En dan zie je dat dus
fale negatieves en positives sterk afneemt bij beter referentie genoom.
Dit is dus nuttig want als het aantal false negatieve veel kleiner is, en als je dan in een
monster een bepaalde mutatie vindt, dan is de kans groter dat het een truepositive is
Pangenomen: Verder dan het enkele referentiegenoom
Waarom hebben we pangenomen nodig?
• Alignments vatten de relatie tussen sequenties samen, waardoor veronderstelde
evolutionaire en functionele informatie wordt blootgelegd.
• Pangenomen kunnen de volledige set van genomische elementen in een
bepaalde soort of clade modelleren, waardoor de referentiebias wordt
verminderd.
• Je doel is om een pangenoom te hebben die alles omvat waardoor je alles met alles
kan vergelijken.
• Bij referentie genoom vergelijk je alles via één referentie genoom. Maar bij referentie
pangenoom vergelijke alles met elkaar dus ook unieke verschillen tussen
verschillende genomen en deze voeg je allemaal samen in een pangenoom.
Wat is een pangenoom
4
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller daphnehoutackers. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $9.34. You're not tied to anything after your purchase.