GEHELE samenvatting Bio-informatica (BMW20421) jaar 2 biomedische wetenschappen
44 keer bekeken 2 keer verkocht
Vak
Bioinformatica (BMW20421)
Instelling
Universiteit Utrecht (UU)
een gehele samenvatting van bio-informatica (BMW20421) jaar 2 gegeven vanuit biomedische wetenschappen universiteit utrecht. Alle hoorcolleges en meer belangrijke informatie van de tentamenstof.
Inhoud
HC 09-02-2022: Genomics workflow....................................................................................................... 1
Illumina (Solexa) Sequencing: ............................................................................................................. 3
Oxford Nanopore: ............................................................................................................................... 5
Youtube video Nanopore ................................................................................................................ 6
PacBio SMRT sequencing(ZMW): ........................................................................................................ 7
Youtube PacBio ............................................................................................................................... 7
Highlights werkcollege genomics ........................................................................................................ 8
HC 11-02-2022: Datamanagement voor bioinformatica (Datacyclus en Open Science) ........................ 9
HC genomics II 14-2-2022: .................................................................................................................... 14
Bioinformatica: .............................................................................................................................. 14
HC cancer genomics .............................................................................................................................. 20
COO Cancer genomics extra info........................................................................................................... 23
Hoorcollege GWAS ................................................................................................................................ 26
Laatste stukje van een kennisclip van honoursstudent dat gaat over de QQPlot in het kader van
GWAS-experimenten............................................................................................................................. 32
COO GWAS belangrijke info .................................................................................................................. 33
Classification and prediction models: ................................................................................................... 39
COO classification en prediction models............................................................................................... 43
HC RNA sequencing: .............................................................................................................................. 44
COO RNA seq belangrijke info ............................................................................................................... 49
HC Dimensionality reduction in single cell genomics ............................................................................ 49
Kennisclip PCA ....................................................................................................................................... 56
COO scRNA seq belangrijke info ............................................................................................................ 57
HC 09-02-2022: Genomics workflow
Doelen:
- The student understands the general workflow for NGS, from sample to analysis
- De student begrijpt de bekende sequencing technieken: Sanger, Illumina, Nanopore en
PacBio
- De student begrijpt wat bij illumina paired-end sequencing inhoudt
,In elk Bioinformatica onderzoek hebben we een ‘’general workflow’’. Hoe doen we onderzoek op
NGS-data. Beginnend met je onderzoeksvraag. Het bepaalt welke methode je gebruikt en hoe je je
onderzoek uitvoert.
Sample preprocessing: hoe kom ik tot mijn genetische materiaal. Library preparation: genomisch
materiaal voorbereiden voordat je het kan gaan sequensen. Sequencing: aflezen genetisch materiaal.
Bio-informatica: genetische sequensen die je moet verwerken; sequenses met elkaar vergelijken, of
met data-bases (referentiegenoom).
Hoe alle stappen zijn verlopen of hoe alle stappen zijn uitgevoerd kunnen invloed hebben op de
interpretatie, dus is bij elke stap is het raadzaam om je keuzes te doordenken. Alles hangt van elkaar
af, bep. sequensetechniek heeft bep. library preparation nodig. Interpetatie: validity, relevance,
generalizability, reproducibility.
Ook hieronder misschien nog een visueel voorbeeld van een general workflow voor het uitvoeren
van een experiment:
Applicaties
,Zowel Sanger als NGS (illumina) maken gebruik van fluoriserend gelabelde nucleotides. Bij sanger is
de kern ‘’Chain-termination’’ (dit is de methode door ddNTP(dideoxynucleotides) en daarmee reads
op een random plek laten stoppen). ‘’Reversible dye termination’’ behoort meer tot illumina.
Natuurlijk heeft illumina een hogere throughput (hoeveel sequense informatie je uit je data haalt)
dan Sanger, aangezien het aan parallel sequensen.
Illumina (Solexa) Sequencing:
Bij illumina maken we gebruik van reversible (terugdraaien) dye-termination
en sequencing by Synthesis(SBS). Ook Staat illumina bekend als een tweede
generatie NGS-techniek. Het zijn korte reads van ongeveer 100-300 nts en
een error rate van 0.1% per base. Per run heb je biljoen basen gesequenced
en dit proces duurt ongeveer 1-2 dagen en dit wordt dan ook gedaan met
Paired-end sequencing. In het geval van RNA komt er nog een extra stap
tussen, want daar moet eerst cDNA van worden gemaakt, met reverse
transcriptase (wel risico aan, want de reverse transcriptase fouten zijn niet te
vinden).
- 0.1% error rate per base → een verkeerde letter in 0.1% van de gevallen genoteerd. Illumina
heeft verschillende apparaten.
Sample preprocessing:
DNA/RNA uit biologische sample halen. Filteren of verrijken als je geïnteresseerd in een speciale
regio. Eindigen met double stranded DNA. Interesse in RNA moet je eerst omzetten in DNA. RNA naar
DNA omschrijven; daar fouten in maken; geen makkelijke manier om vast te stellen dat dit komt door
revers transcriptase.
QC (quality control): Asses purity (UV spectrofotometrie/ electrophoresis(lengte)/
fluorometrics/realtime PCR). Manier om de puurheid van je sample te bepalen en daarmee de
kwaliteit. UV spectro= DNA bep. absorptiepatroon; kijken of er andere vervuilingen aanwezig zijn. Via
fluorometric methods= kleurstof bindt aan doublestranded DNA: wat is ongv de concentratie van je
double stranded DNA.
Library preparation: Dit is dus eigenlijk fragmenteren van double stranded DNA/ sample DNA
(enzymen of geluid), vervolgend op uiteindes adapters vastmaken en eventueel amplificeren met
PCR. Dit zou al in de NGS-machine gebeuren, amplificeren is trouwens of zou optioneel moeten zijn.
Je wilt fragmenten van een bepaalde grootte: voor stappen later in de pipeline zoals bridge
amplificatie. Het kan ook op latere momenten. Je wilt er zeker van zijn of je de juiste grootte hebt en
dit kan je doen met electrophorese. (QC). Met ‘’End-repair’’ zorgen we ervoor dat de uiteindes even
lang zijn. Je wilt geen onevenuiteinde: sticky ends en hiermee een blunt uiteinde creeëren aan beide
kanten. Adenine base toevoegen aan het uiteinde: hiermee illumina adaptor aan vast kleven: T
overhang die aansluit op de A.
Een illumina adapter onderdelen:
, - Heeft een P5/P7 adapter region (uiteindes) binden van de flowcel en voor het clusteren van
de fragmenten
- Unieke Index = barcode sequentie en dit is per library. Library herkenbare sequentie,
gebruiken om reads terug te herleiden uit welke libary read behoort. Terug herleiden
Hierdoor kun je samples met elkaar mixen, dankzij die barcode weet je welke sample wat is.
- Primer binding region (bijv: Rd1 SP): deze is nodig om je read te sequencen.
(Optioneel) PCR-amplificatie: handig als je te weinig materiaal hebt, maar blijkbaar wel biased, want
PCR beinvloed je data: sequenties die veel G& C’s hebben worden meer geamplificeerd, kortere
fragmenten zijn eerder klaar en worden ook meer geamplificeerd. Crossing-over krijgen,
recombinatie producten → geen goede manier om te achterhalen of dat komt door PCR of
dit all in de data zat.
Sequencing: Je sample komt binnen in de flowcel. Te veel: signalen door elkaar
heenlopen, te weinig: weinig sequenties uit je data. Op de flowcel single stranded DNA
stukjes die aansluiten op de adaptoren in je libary. Hybridiseren:
aanvullen aan de hand van je fragment, doublestranded maken.
Dus forward strand aan vast gemaakt, reverse strand
complementair aangevuld, forward strand losmaken en
wegwassen. Sequenties vastzitten aan plaat, bridgeamplificatie.
Dit moet de juiste lengte hebben omdat ze omklappen en gaan
hybridiseren met de andere sequenties op de flowcel. Andere
eind (p7) om aan de andere primers op de flowcel te
hybridiseren, deze ook aanvullen: 2e strand maken. Nu heb je
zowel forward als reverse strands op je flowcel. Herhalen: clusters gevormd worden van dezelfde
sequentie in dezelfde omgeving van forward en reverse strands. Je klieft het reverse strand eraf. Nu
clusturs van alleen forward strand, met dezelfde sequentie.
Sequensing stap: sequencing primer toevoegen.
Dit ga je aanvullen met fluorescent gelabelde
nucleotiden. Deze worden gebruikt om de
sequentie te bepalen. De sequensing by
synthesis: aflezen van read 1. Het product (read)
dat je maakt haal je eraf. En dan index 1 primer
toevoegen: dit wordt gebruikt om te bepalen
welke libary/sample je eerste read vandaan
komt. De index read wordt er ook afgespoeld.
Opnieuw forward strand laten hybridiseren met
de andere primer. Het reverse strand aanvullen:
aantal stappen zonder te sequensen, en vervolgens ga je wel weer sequensen, index 2 aflezen.
Terwijl je het reverse strand aan het maken ga je ondertussen index 2 read aflezen, dit aanvullen,
forward strand eraf halen: nu alleen reverse strand. Hele cluster is het reverse strand.
Dus volgorde: Read 1, index 1, index 2, read 2
Idee achter sequensen: Primer, 1 nucleotide aanvastgekomen. Elk nucleotide heeft zijn colourcode.
Ze compenteren om aan te sluiten. Met een laser activeer je de fluorescente groep en maak je foto’s.
in een cluster allemaal dezelfde sequentie en kleurt dezelfde kleur. Elke cycle is een nucleotide; je
maakt vier foto’s en deze leg je over elkaar heen. Elke sequensing cycle maak je 4 foto’s om te kijken
naar de verschillende nucleotides en vervolgens nagaan welke nucleotide aangevuld is. Dan de
,fluorescente blokkeer groep eraf en kan de volgende aangevuld worden. Een cluster bouwt elke keer
een andere nucleotide in. Dit doe je voor read 1, index 1, index2 en read2.
Een insert is je read en zit tussen de adapters in. Je hebt read 1 en read 2 bepaald in
tegenovergestelde richting. Het zijn de uiteindes van je insert. Je weet ook dat er een afstand tussen
zit. Over het algemeen is je insert groter dan je 2 reads bij elkaar opgetelt. De afstand ertussen is je
inner distance: deze weet je niet precies. Als het goed is heb je op andere strengen wel die inner
distance en is het daarom geen probleem. Fragment length: totale lengte read.
Je hebt ook de situatie dat je 2
reads opgetelt wel groter zijn dan
je insert en dan heb is het
middenstuk meer gesequenced.
Dit is dus gesequensed in read 1
en in read 2. Dit is geen
probleem, maar minder prettig,
want je wilt het liefst niet dezelfde info steeds hebben van dezelfde plek.
Figuur b tweede afbeelding: je sequensed nu een deel van je adapter mee. (Werkcollege vraag)
Oxford Nanopore:
Is direct sequencen van of je DNA of zelfs RNA. (Zonder dat
reverse transcriptase nodig is, single en double stranden. Je
kan ook modificaties achterhalen met oxford nanopore. Het
moge korte of extreem lange strengen zijn (zelfs hele
genomen). Bij oxford nanopore hoef je niet te amplificeren of
size selection.
Het bestaat echt uit kleine tunnels in het membraan. Gebruik van electrophysiology (veranderingen in
elektrisch veld, door bijvoorbeeld vorm nucleotide). Is Real-time sequencing en een run is tussen 1min
tot uren en kan super klein zijn en is daarmee heel draagbaar. Je kan het gelijk analyseren.
Het is hierbij sequencing door middel van veranderingen in ionstromen. Door de kanalen
(nanoporen) gaat een standaard-ionstroom en nucleotides hebben verschillende vormen en
daarmee brengen ze verschillende veranderingen in de ionstroom en deze kunnen opgemerkt
worden.
,Workflow
Je sample
preprocessing is veel
makkelijker met
oxford nanopore.
Native RNA-
sequensen, niet
amplificeren. Library
preparation alleen
adapters en een
motoreiwit
toevoegen.
Nanopore in het membraan, door een bep. spanning lopen er geladen deeltjes doorheen; die
ionenstroom meet je. Als er iets anders door het kanaal gaat, gaan er minder geladen deeltjes
doorheen; lagere ionenstroom. De DNA/RNA strand gaat door het kanaal heen door het motoreiwit.
Deeltjes stroom wordt bijgehouden; hieruit herleiden wat de sequentie is.
Er is boven het kanaal een motoreiwit en die pusht
1 streng met een snelheid van 400 base per
secondes. Die diagram die de veranderingen laat
zien in ion-stroom zoals hierboven, noem je een
‘’squiggle’’(eerlijk het is alsof wetenschappers
uitgelachen willen worden).
Naast basen; ook kleine modificaties achterhalen
via deze ionen-stroom.
Dit is Real-time sequencing (dus niet sequencing by
synthesis), je kan direct zien wat sequenced is en direct ermee werken, je kan zelfs beslissen om dat
stukje DNA direct eruit te halen, terwijl die bezig was, dit doe je door de ion-stroom om te keren.
Nadeel → 10% error rate per base (nog hoger als je meerdere van dezelfde base hebt die achter
elkaar zitten). 10% kans dat de letter niet klopt: lastiger mappen aan genoom maar doordat je reads
zo lang zijn maakt dat het wel weer makkelijker.
Verkeerde sequentie binnenkrijgen: afstoten door reverse stroom.`
Youtube video Nanopore
- DNA en RNA, elk persoon, elke omgeving
- Eiwit nanopores in een synthetisch membraan
- Disruptie in current doordat DNA/RNA erdoorheen beweegt
- Analyse in real-time
- Read-length direct gerelateerd aan de lengte van de sample
- Long-reads zijn makkelijker te mappen op referentie, dit kan hier dus mee
- Modificatie informatie is meegenomen in het signaal
- PCR is niet nodig: amplificatie bias is weg: library preparation is simpeler
- Libary-prep: Alleen sequensing adapter en motorprotein moet aan het DNA/RNA worden
gebracht
,PacBio SMRT sequencing(ZMW):
Dit is ook net als nanopore 3e generatie NGS (single molecule sequencing). Kan met
lange fragmenten werken van 2kb tot 20kb, niet per se met amplificatie en werkt
met ‘’zero-mode waveguides’’ (putjes). Hoge base call error rate van 10% per base.
Run is 30min-1uur. Je hebt twee modes. Of continuous Long Read (CLR, dat je een
lang molecuul in een keer laat draaien) en Circular Consensys Sequencing of (CCS,
dat je 1 sample circulair maakt en continue laat draaien en daarmee een error rate
hebt van 0.001%). Hier moet trouwens wel een adapter worden gebruikt om die
circulaire te maken.
General workflow: ook minder sample preprocessing. Adaptor
sequentie aanvast maken. Hier meestal size selection. Je begint
met double stranded DNA, adapters met lussen: aan het einde
zetten en hierdoor verkrijg je een circulair strand (SMRTbell
adapter ligation)
De flowcel heeft gaatjes (putjes) met daarin licht die niet de top
bereikt, het wordt van onderen belicht. Het DNA wordt aan de
bodem van de put vastgemaakt. Het moet enkelstrengs zijn, want
er wordt een complementaire fluorescerende streng aangemaakt. Terwijl de nucleotide wordt
ingebouwd, wordt met het licht de fluorescente groep geactiveerd. Je meet alleen het licht van de
fluorescerende nucleotide die ingebouwd wordt omdat het licht ondiep doordringt.
Met deze techniek op basis van de afstand tussen waarnemingen/signalen, ook modificaties
waarnemen, maar je moet wel die meerdere keren laten draaien om zeker te zijn van modificaties. Je
leidt het namelijk af tussen de tijd tussen de nucleotide aflezen in.
Bij het meerdere keren sequensen is de CCS handig. Kort double stranded DNA, adapters, primers.
Doordat het rond is meerdere keren aflezen. Meerdere keren zelfde sequentie= subreads. De kans
dat je elke x dezelfde fout in dezelfde subread hebt is klein. Samenvoegen: consensus. Je bent
zekerder over je consensus dan je individuele subreads. De uiteindelijke consensus = HiFi read.
Door adapters kun je hem meerdere keren aflezen, doordat die rond is. ‘’Consensus’’ = is het
samenvoegen van al die cirkels.
Er komen overigens meerdere toepassingen van deze technieken zoals bij ‘’cancer genomics’’
Single molecule sequensing dus oxford nanopore en pacbio SMRT. Sequensie bepalen aan de hand
van een polymerase: ander signaal. Nanopore → Meting stroom geladen deeltjes; meer nuance. Aan
de hand van het signaal kan je meer zeggen. Real time. SMRT → niet alleen de kleur maar ook de
afstand ertussen, want het volgt een polymerase.
Youtube PacBio
- Samples van virussen tot vertebraten DNA/RNA
- Adapters op DNA: circulair template
- Primer en polymerase erop zetten
- DNA aangebracht op SMARTcel in zero-mode waveguides.
- De polymerase bouwt nucleotide in terwijl licht wordt uitgestraald
- Real-time measurement
- 2 sequensing modes
, - Circular consensus sequensing (CCS) → hoog accurate lange reads/ HIFI reads met 99%
accuracy
- Continuous long read sequensing (CLR) → genereren meest lang mogelijke reads.
Highlights werkcollege genomics
- Van first generation sequensing naar hoge throughput parallel next generation sequensing
- Low-frequency varianten is een lage error rate een belangrijke kwaliteit → illumina
- Om complexe structurele varianten te bepalen is read lengte van belang, door grotere
strukken(fragmeten) is het makkelijker om de structuur uit deze stukken her te bouwen.
- Gen isoformen, zijn transcriptieproducten die op dezelfde loci worden getrascribeert, maar
op een andere plek starten (ander startcodon), hier heb je dus een ander mRNA, maar wel
van dezelfde gen. Om deze mogelijke gen isoformen te achterhalen moet je het mRNA
product aflezen, echter door hier eerst cDNA van te maken met reverse transcriptase loop je
het risico om fouten in de sequentie te introduceren. Gelukkig heeft Oxford nanopore de
eigenschap om mRNA direct te sequensen. Waardoor je direct verschillende mRNA
producten van hetzelfde gen kunt achterhalen.
- 0,1% error rate is 0.999^150 basen = 86% kans alle basen goed
- 0,1% = 0.001 * 150 basen = 0.15 fout in je read
- Je maakt alsnog fouten in je reads, hoe je varianten kan onderscheiden met errors is door
een hoge coverage te verkrijgen. Hierdoor grote kans van meer reads met de juiste
informatie.
- Homopolymere regio’s geven problemen vooral bij Pacbio & oxford nanopore waarbij
artifactural indels ontstaan. Bv AAA zien ze als AAAA. Bij beide technieken een
homopolymere regio wordt gelezen als een nucleotide specifiek signaal vast gehouden over
een langere tijd. De lengte van de homopolymere regio wordt bepaald door de duur van het
signaal, dit kan lastig zijn bij een langere tijd.
- Bij illumina heb je hier minder last van door de reversibele dye-terminators die een base per
keer lezen, hierbij een stuk meer gecontroleerd.
- Bij illumina bepaald de hoeveelheid DNA die je erop laat de cluster dichtheid. Bij te veel gaan
clusters met elkaar interfereren
- 11. Illumina reads hebben dezelfde lengte terwijl je fragmenten afleest van verschillende
lengte. De lengte van de read wordt van tevoren afgesproken in het programma(50-300nt),
Je fragment lengte is dus niet relevant voor de read lengte. De fragmenten worden in
random lengte in stukkengehakt(geluid/enzymen), maar wel groter dan de afgesproken read
lengte (dus tot hoever de computer ze afleest). Je reads zullen kleiner zijn dan je insert
size(fragment). Dit is fijn, want dan zijn je forward en reverse niet dezelfde info, want twee
keer dezelfde info van hetzelfde fragment is neppe covarage. Een klein stukje in het midden
(inner distance) zal hierdoor nooit worden afgelezen, info vang je met andere read op.
- 12a. Als de fragmeten per ongeluk veel te kort zijn, dan zullen de reads beginnen bij de
primer aan de 5’ en dan de hele insert(fragment) aflezen en doorgaan in de adapter in de 3’.
- 12b. sequensing is net als DNA-polymerase, gaat altijd van 5’ naar 3’. Je begint dus altijd van
het begin van de insert bij de 5’ en eindigt richting de 3’ ergens afhankelijk van de lengte en
als de insert(fragment) te kort is, dan ga je de adapter aan de 3’ aflezen. Het probleem is niet
te vroeg beginnen (5’), maar dat je tever doorgaat en dan lees je de adapter aan het
uiteinde.
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper bodeibel. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €10,99. Je zit daarna nergens aan vast.