Aantekeningen hoorcolleges
OMICS
1
, Hoorcollege 1
Introduction to OMICS in Biomedical Sciences
OMICS technieken kunnen worden gebruikt om onderstaande vragen binnen de biomedische
wetenschappen te beantwoorden:
• Hoe kunnen ziekte-veroorzakende mutaties geïdentificeerd worden?
• Hoe kan genexpressie worden gemeten?
• Hoe kunnen structuur en functie van eiwitten bepaald worden?
• Hoe kunnen het humane metabolisme gemeten en begrepen worden?
• Hoe kunnen complexe biologische systemen (pathway/cel/organisme) worden begrepen?
Op alle niveaus van het centrale dogma (zie figuur) kunnen metingen worden verricht doormiddel van
OMICS. Daarnaast zijn er nog andere onderdelen die missen in het centrale dogma, zoals het
metabolisme, die ook met OMICS geanalyseerd kunnen worden.
Maar wat is OMICS precies? OMICS technologieën zijn high-throughput experimental technologies om
molecules in een cel te meten:
• High-throughput: veel samples, genen, eiwitten, etc. worden gelijktijdig (simultaneously)
gemeten.
• Experimental: gebruik in laboratorium (wet-lab).
• Molecules: DNA, mRNA, eiwitten, en metabolieten (zie figuur).
Er bestaat voor ieder soort molecule/niveau een bijbehorende OMICS technologie om het molecuul te
meten/analyseren, zoals weergegeven in het schema:
• DNA: volgorde van nucleotiden bepalen voor het volledige DNA of een deel ervan →
bijbehorende OMICS techniek = genomics → output/product van genomics = genoom (VB:
complete DNA sequentie).
• mRNA, oftewel mate/level van genexpressie: relatief aantal van alle mRNA moleculen die tot
expressie worden gebracht door een bepaald gen → bijbehorende OMICS techniek:
transcriptomics → output/product van transcriptomics = transcriptome (VB: soorten mRNA en
hun mate van expressie in een monster).
• Eiwitten: hoeveelheden, variaties/modificaties van meerdere soorten eiwitten gelijktijdig
bepalen → bijbehorende OMICS techniek: proteomics → output/product proteomics =
proteome (verzameling van soorten geanalyseerde eiwitten + hun expressie).
• Metabolieten: kwantificatie (hoeveelheid) en identificatie van meerdere metabolieten
gelijktijdig → bijbehorende OMICS techniek: metabolomics → output/product metabolomics
= metabolome (verzameling van soorten geanalyseerde metabolieten + expressie).
Bij OMICS wordt er ‘genoom-wijd’ gemeten:
• Er worden meerdere molecules gelijktijdig gemeten.
• Complete DNA/RNA sequenties worden bepaald.
• Alle genen, eiwitten, en metabolieten worden geanalyseerd.
Om bovenstaande principes te meten bestaan verschillende OMICS wet-lab technologieën:
• Next generation sequencing (NGS) → genomics / transcriptomics
• (DNA) microarrays → transcriptomics
• Mass-spectroscopy → proteomics / metabolomics
• Etc. (zie figuur voor meer voorbeelden)
2
,Moderne OMICS meet-experimenten leveren in vergelijking tot traditionele meet-experimenten een
grotere hoeveelheid data op (BIG DATA) en zijn high-throughput (zie figuur):
Zoals te zien in onderstaand figuur, kan OMICS data gecombineerd worden met patiëntdata en
levenstijl-data tot BIG DATA voor data-analyse. De analyse van de grote hoeveelheid aan data wordt
gedaan binnen de bio-informatica, en levert uiteindelijk nieuwe biologische kennis op. Om dit gehele
proces te doorlopen heb je een ICT infrastructuur nodig, dus opslagruimte voor data, computatie,
cloud systeem, grid, en internet.
Binnen de biomedische wetenschappen is er de afgelopen jaren veel ontwikkeling en verandering
geweest:
• High-througput technieken toegevoegd om analyse binnen de moleculaire biologie
makkelijker te maken.
• Naast de traditionele kleinschalige metingen die we uitvoeren, worden nu ook grootschalige
metingen uitgevoerd → vele samples die veel moleculen bevatten kunnen gelijktijdig
geanalyseerd worden met behulp van OMICS.
• Bio-informatica, statistiek, en wiskunde maken nu deel uit van het dagelijkse werk van
biomedische wetenschappers.
• We analyseren en modeleren biologische systemen.
• Biomedische wetenschappers maken gebruik van geavanceerde ICT infrastructuur, zoals e-
Science, cloud, en computer clusters.
OMICS, bio-informatica, en systeembiologie binnen de biomedische wetenschappen helpen ons om
gezondheid en ziekte te kunnen bestuderen doormiddel van modern experimenteren (zie figuur):
• Ziekten begrijpen
• Systemen begrijpen
• Diagnose/prognose
• Preventie
• Behandeling
• Medicijnontwikkeling
• Gepersonaliseerde medicijnen
3
,Disease signature, oftewel de biomarker, is een belangrijk concept: een groep genen, eiwitten,
metabolieten etc. (of een combinatie hiervan) gemeten doormiddel van OMICS in bijvoorbeeld een cel,
weefsel, bloed waarvan het (gecombineerd) meetpatroon uniek/karakteristiek is voor een biologisch
(sub)fenotype, medische conditie (ziekte), behandeling, diagnose, of prognose.
• Dus, een biomarker is niet per se één gen, eiwit, metaboliet etc. Echter zal dit het leven wel
makkelijker maken.
Aangezien iedere patiënt anders is, is er voor iedere patiënt ook een andere behandeling nodig. Dit
hangt af van onder andere de volgende factoren:
• Fysiologisch, demografische eigenschappen (leeftijd/geslacht/etniciteit/ras etc.)
• Medische geschiedenis (eerdere ziekten, medicijngebruik etc.)
• Genetische/genoom eigenschappen
• Etc.
Wat voor een patiënt met een bepaalde set van eigenschappen wel werkt, werkt niet altijd bij een
andere patiënt. Onderstaande figuren laten voorbeelden van statistische berekeningen die met OMICS
worden uitgevoerd bij het kiezen van de beste behandeling (moleculaire markers: genetische mutatie
en survival time). Hierbij vindt er stratificatie plaats gebaseerd op moleculaire markers:
• Zie figuur: binnen een patiëntengroep met dezelfde diagnose en prescriptie van hetzelfde
medicijn kunnen door verschil in moleculaire markers (toxiciteit van de drug en voordeel)
tussen patiënten dus verschillende effecten van de behandeling geobserveerd worden.
Gepersonaliseerde medicatie: verbetering van de stratificatie en timing bij preventieve- en
therapeutische handelingen door het gebruik van biologische informatie en biomarkers op het niveau
van moleculaire ziekte-pathways, genetica, proteomics, en metabolomics → oftewel door gebruik van
disease signatures.
Met OMICS kan er dus concluderend al veel gemeten worden, echter de componenten die wij meten
gaan interacties met elkaar aan: de hoeveelheid interacties is vele mate groter dan het aantal
componenten.
• De meting van de molecules/componenten die we momenteel met OMICS verrichten geven ons
dus nog steeds niet genoeg informatie om biologische systemen geheel te begrijpen.
• We moeten (het resultaat van) interacties (emerging properties) van de geanalyseerde
molecules/componenten begrijpen, en dit kan nog niet met OMICS.
Systems medicine focust zich op meetbare verbetering van de gezondheid van de patiënt doormiddel
van systeem-gebaseerde aanpak/benadering/uitvoering. Hiervoor is OMICS analyse nodig, aangezien
biologische systemen eerst begrepen moet worden.
4
, Hoorcollege 2 + 3
Next generation sequencing (NGS)
Next generation sequencing (NGS) is een OMICS techniek die wordt gebruikt binnen de genomics en
transcriptomics, en dus aangrijpt op DNA en mRNA niveau van het centrale dogma (zie figuur).
Een aantal belangrijke feiten:
• Het humane genoom bestaat uit 3,000,000,000 nucleotiden (nt).
• Er bestaan ~20,000 humane genen.
• De gemiddelde lengte van een humaan gen is 10-15 kb (kilobase)
• Er is enorme variatie in de grootte van genen (aantal bases).
• Ongeveer 10 pg (picogram) DNA per zoogdier-cel.
• Erythrocyten hebben geen nucleus en omvatten 25% van het totaal aantal cellen in het
lichaam.
Het humane exome is het deel van het genoom bestaande uit exonen = coderend DNA voor
functionele eiwitten):
• The human exome consists of roughly 233,785 exons, about 80% of which are less than 200
base pairs in length, constituting a total of about 1.1% of the total genome, or about 30
megabases of DNA.
• Humane exome = ~20,000 coderende genen (opgebouwd uit exonen).
DNA (RNA) sequencing is een techniek waarbij de sequentie van nucleotiden van een bepaalde soort
verkregen kan worden. De techniek kan uitgevoerd met behulp van een sample (zie figuur):
• Sample (bloed/cellen/weefsel) → extract → DNA/RNA → prepare → library of DNA-fragments
verkregen → sequencing: Sanger sequencing of NGS.
• Met bovenstaand proces ga je dus van sample naar sequentie.
Er bestaan verschillende soorten sequencing systemen, waaronder NGS, die gebruikt kunnen worden
om samples te analyseren op het lab. Illumina sequentie methoden zijn een voorbeeld van een NGS,
en de bovenstaande figuur geeft een aantal Illumina systemen weer die tegenwoordig gebruikt
worden.
NGS is dus een OMICS techniek die DNA sequencing mogelijk maakt:
• Met behulp van NGS kunnen complete genomen (DNA) van individuen verkregen worden.
5
, • Sequenties van een populatie kunnen ook verkregen worden met NGS.
NGS kan voor verschillende aspecten gebruikt worden:
• Gehele genomen (= complete DNA sequenties) verkrijgen.
• Variant detection (detectie van variatie in het genoom):
o VB: SNPs = single-nucleotide polymorphism, dus variatie van één nucleotide tussen
individuen.
o VB: indels = indel is een verzamelnaam voor een bepaald type mutaties van het DNA
→ inserties/deleties van nucleotiden in het genoom.
o Exome sequencing komt hierbij van pas.
• Structural variation
• RNA-sequencing:
o Genexpressie → relatieve hoeveelheid mRNA dat wordt geproduceerd.
o Splice variant detection (zie figuur).
• Chip-sequencing: protein interactie met DNA.
o Technologie om interactie van eiwitten met DNA te analyseren.
o Combinatie van Chromatin ImmunoPrecipitation (ChIP) en Next Generation
Sequencing (NGS).
o Mapping van protein-DNA interacties in vivo op genoom-schaal.
o Zie figuur voor overzicht van Chip-sequencing proces: crosslink DNA en eiwitten →
isoleer genomic DNA → sonicate DNA to produce sheared, soluble chromatin →
protein-specific antibody toevoegen → immunoprecipitate and purify
immunocomplexes → reverse crosslinks, purify DNA and prepare for sequencing.
o ChipSeq → sequence → map to genome
• Bisulfite sequencing: DNA methylatie te determineren/in kaart brengen. Zo kan het
methylatie-patroon bepaald worden = epigenetische marker.
o Zie figuur: DNA wordt behandeld met bisulfite → gevolgd door DNA-sequencing →
niet-gemethyleerde cytosine wordt omgezet tot uracil, maar gemethyleerde cytosine
wordt niet omgezet → gemethyleerd en niet-gemethyleerd DNA kan onderscheiden
worden.
• Metagenomics: milieu samples uit omgeving / samples uit microbioom analyseren (zie figuur).
Zie onderstaand figuur voor overzicht van verschillende DNA-sequentie technieken:
• Sanger sequencing = klassieke techniek → output is een single sequence: 500 – 1000 bp
o Gebruik van gelabelde dideoxynucleotiden (ddNTPs) voor “chain terminatie”,
waardoor er fragmenten worden verkregen met verschillende lengte, die eindigen in
ddATP, ddGTP, ddCTP of ddTTP (zie figuur)
o DNA fragmenten tussen 700-900 bp lang kunnen worden verkregen, echter een
langzame techniek!
• NGS = moderne techniek → output is high-throughput: Gbp (gigabaseparen) aan sequenties
tussen 25 – 500 bp.
o Binnen NGS is er ook nog onderscheid in verschillende varianten (zie figuur).
6
,High-throughput sequencing:
• Bij deze manier van DNA sequencing kunnen veel samples, genen, eiwitten, etc. gelijktijdig
(simultaneously) worden gemeten.
• Next generation sequencing (NGS)
• Massively parallel sequencing (MPS)
• Een belangrijke breakthrough was de ontwikkeling van methoden die de DNA sequentie vast
kunnen leggen tijdens dat een DNA-streng gesynthetiseerd wordt door een polymerase bij
een single-stranded DNA template.
o De sequentie methode kon de incorporatie van iedere nucleotide in de groeiende
DNA-streng monitoren, en daarbij ook identificeren welke nucleotide er bij iedere
stap werd ingevoegd.
o Bovenstaande methode is een vorm van solid sequencing, en dit wordt tegenwoordig
niet meer vaak gebruikt.
Illumina sequencing (vorm van NGS) omvat 4 stappen (zie figuren):
• Library preparation
• Cluster amplification
• Sequencing (synthese/imaging)
• Aligment & data-analyse
Voor DNA-sequencing bestaan dus een conventionele strategie = Sanger sequencing en de strategie
NGS, die onderling veel van elkaar verschillen:
CONVENTIONAL (Sanger sequencing) Next Generation Sequencing
VS
Pool of molecules → one reaction vessel → many reactions
one sample → one tube → one (parallel) → many results
reaction → one result
But you do not know which read belongs to which molecule
7
,Met DNA-sequencing worden miljoenen short sequence reads verkregen maar wat betekenen ze
precies? Door de verkregen korte sequencties te alignen met een referentie genoom kan hun
identiteit en betekenis achterhaald worden = sequence aligment, en dit wordt gevolgd door coverage
= sequence depth.
• Zie figuren : DNA (van bijvoorbeeld een patiënt) → fragment DNA → DNA library →
sequencen → vele short sequence reads → alignment van sequenties met referentie genoom
(VB: humane genoom) met behulp van BLAST/BWA → sequenctie alignment verkregen →
coverage = sequence depth → coverage wordt weergegeven met counts en “mountains” (zie
figuur).
• Coverage (sequence depth):
o Sequentie reads voor één gen (die bestaat uit meerdere exonen)
o Coverage (or depth) in DNA sequencing is the number of unique reads that include a
given nucleotide in the reconstructed sequence. Deep sequencing refers to the
general concept of aiming for high number of unique reads of each region of
a sequence.
o Hogere coverage → je kan met hogere zekerheid vaststellen dat er een variant
aanwezig is bij een specifieke nucleotide (The sequencing coverage level often
determines whether variant discovery can be made with a certain degree of confidence
at particular base positions)
o VB: Next-generation sequencing (NGS) coverage describes the average number of
reads that align to, or "cover," known reference bases.
o Doordat bekende genen in het humane referentie genoom zijn beschreven, kan
bepaald worden tot welke genen/exonen de verkregen sequence reads behoren (zie
grijze “mountains” in de figuur).
o Coverage (sequence depth) = L * N/G
▪ L = length of read
▪ N = number of reads
▪ G = size of genome
Sequentie technologie kan gebruikt worden om twee reads (=pair) te generen bij een bekende afstand
in het genoom, en hiervoor zijn twee verschillende sequentie strategieën bekend om reads te
genereren van beide kanten van een DNA-segment (the insert):
• Mate pairs: are created when genomic DNA is fragmented and size-selected inserts are
circularized and linked by means of an internal adaptor. The circularized fragment is then
randomly sheared, and segments containing the adaptor are purified. Finally, the mate pairs
8
, are generated by sequencing around the adaptor → Mate pairs give the advantage of larger
insert sizes.
o Meestal langere inserts/DNA-segmenten gebruikt dan bij paired-end.
o Ander protocol: gefragmenteerd DNA tot een cirkel gevormd en dan opnieuw
gefragmenteerd (zie figuur).
o Zie figuur: met behulp van mate-pairs kan structurele variatie gedetecteerd worden,
zie a en b: insertie en deletie detecteren. Mate pairs are sampled from the donor,
where they are ordered with opposite orientation (the blue mate follows the orange),
and are mapped to the reference (ref). Basic signatures include (a) insertions and (b)
deletions, where the mapped distance is different from the insert size.
• Paired-ends: reads, by contrast, are generated by the fragmentation of genomic DNA into
short (<300 bp) segments, followed by sequencing of both ends of the segment → paired end-
reads provide tighter insert-size distributions, and thus higher resolution
o In paired-end sequencing en alignment is de afstand tussen de gepaarde sequenties
bekend, waardoor aligment algoritmes deze informatie kunnen gebruiken om op een
preciezere manier de reads tot een map boven de repetitive regions te verwerken (zie
figuur) → leidt tot betere/preciezere allignments van reads met het referentie
genoom, met name bij repetitive regions in het genoom die moeilijk te sequencen
zijn!
• Mate pairs en paired-ends zijn twee hele verschillende typen read-data die verkregen kunnen
worden met twee aparte wet-lab technieken die hierboven zijn beschreven.
• Zie figuur voor verschil tussen single-eng en paried-end sequencing.
Vele complexe elementen van het humane genoom zijn te lang om de short-read paried-end
sequencing techniek voor te gebruiken. Voor langere DNA inserts/segmenten kan daarom de long-
read sequencing techniek gebruikt worden:
• Reads van meerdere kilobases (kb), dus de sequencing methode levert resolutie van lange
structurele elementen.
• Such long-reads can span complex or repetitive regions with a single continuous read.
• Long-read sequencing is handig voor transcriptomic research: capable of spanning entire
mRNA transcripts, allowing researchers to identify the precise connectivity of exons and discern
gene isoforms.
• Twee typen long-read sequencing:
o Single-molecule real-time sequencing approaches: the single-molecule approaches
differ from short-read approaches in that they do not rely on a clonal population of
amplified DNA fragments to generate detectable signal.
o Synthethic approaches: afhankelijk van bestaande short-read technologieën om lange
reads in silico te construeren → do not generate actual long-reads; rather, they are an
approach to library preparation that leverages barcodes to allow computational
assembly of a larger fragment.
Long-read sequencing kan voor meerdere doeleinden gebruikt worden:
• Assemble high-quality de novo genomes (DNA)
• Catalog full-length isoforms (RNA)
9
, • Unambiguously align sequences
• Observe fully phased alleles:
o A biallelic genotype comes from two chromosomes. Phased means that you know not
only the genotypes but also which chromosome each genotype call came from. This
lets you interpret which sets of genotypes are being inherited together.
• Span repetitive elements and complex regions
• Resolve structural variants
Manier om maximale sequencing capiciteit bereiken en de workflow van sample preparation te
verminderen:
• Voer een single sequencing uit bestaande uit meerdere biologische samples!
Het bovenstaande principe vereist multiplexing → meerdere samples teglijk analyseren met barcodes:
• ‘Barcodes’ (BCs) zijn ontwikkeld → unieke 5-10 base sequenties die kunnen worden
toegevoegd aan het 3’ uiteinde van de template (zie figuur voor BC-site).
• VB: er zijn sets van tot max. 96 barcodes ontwikkeld waarvan iedere barcode kan worden
gekoppeld aan tot max. 96 individuele samples.
• Zie figuur voor overzicht van multiplexing proces: stap A t/m E.
o Library preparation → pool → sequence → demultiplex → align.
Sequencing errors zijn een bekend probleem die bij iedere sequentie techniek gedefinieerd kan
worden: error rate = het percentage van bases die incorrect zijn verwerkt.
• VB: 0.8% error rate → voor iedere 1000 bases die worden verkregen van de sequencer, zijn er
8 incorrect.
• Probleem: een error of een sequence variant (mutatie/SNP/insertie/deletie etc.) zijn niet van
elkaar te onderscheiden → dit probleem kan opgelost worden door het aantal sequencing
reads te vergroten. Op deze manier zal de kans dat op dezelfde plek van een error ook een
mutatie zit aanzienlijk lager worden.
• Verhoogde coverage kan dus fouten door sequencing methodes voorkomen.
Unified molecular identifiers (UMIs), ook wel molecular barcodes (MBC) → short sequences or
molecular "tags" added to DNA fragments in some NGS library preparation protocols to identify the
input DNA molecule. These tags are added before PCR amplification, and can be used to reduce errors
and quantitative bias introduced by the amplification.
• Kunnen de nauwkeurigheid van de NGS methode verbeteren.
• Verminderen kans op sequencing- of PCR errors.
• UMIs gedragen zich als een soort moleculair geheugen: met koppeling van UMIs kan het
aantal moleculen die in het start-sample zitten worden vastgesteld.
• UMI gebruik kan gecombineerd worden met sample multiplexing.
• Zie figuur voor proces van generatie van UMIs.
• UMIs helpen bij het detecteren van (zeldzame) varianten (SNPs/variatie in
nucleotide/mutaties), aangezien het gebruik ervan mogelijk maakt om sequencing errors en
true variants (=mutaties) te onderscheiden.
10