Samenvatting deeltentamen 2 Genomica: Bioinformatica
HC1 Intro, BLAST
Bioinformatics is de studie van informatica processen in biotische systemen, hierin zit ook
theoretische biologie. Bioinformatica data analyse gebruikt computer methoden om biologische data
te analyseren. Omics studies zijn van één organisme/weefsel/cel en meta-omics zijn van alle
organismen in een sample (zie deeltentamen 1). De volgorde van eiwitten van veel naar weinig in
genoom is eukaryoten-bacteriën/archaea-virussen. De reden waarom metagenomics zo’n revolutie is,
is omdat je bijvoorbeeld microben kan samplen met al hun DNA, mRNA of eiwitten zonder dat je ze
hoeft te laten groeien op een medium. De bias verkleint, omdat je de verschillende genomen niet
enkel uit een handvol (van de mens) neemt. Er zijn twee manieren van bioinformatica datagebruik:
top down begin je met een biologische vraag waarbij je een dataset moet bedenken en bottom up
heb je een dataset en bedenk je een hypothese die het kan testen.
Met een sequentie die je gevonden hebt via sequencen wil je weten waar deze voor codeert, dit
moet je in een database opzoeken. De sequentie deel je op in korte subsequenties, ook wel k-mers.
Deze bestaan uit k nucleotiden/aminozuren. Je maakt een index van alle k-mers die in de database
sequenties voorkomen. Wanneer je een vraagsequentie in k-mers van dezelfde lengte splitst zijn deze
snel te identificeren aan de hand van een database (echter, je bent dan wel gelimiteerd aan precieze
matches).
Er is een natuurlijke sequentie afwijking. Als je bij metagenomic sequencing vergelijkt met een
referentiegenoom, kun je verschillende strengen van één gen vinden. Een veel gerelateerde streng
(97%) en verder gerelateerde strengen (60-80%) zie je in onderstaande afbeelding.
Soms heb je twee sequenties die pas op elkaar passen nadat je zelf een insert nucleotide toevoegt,
dit noem je pairwise sequence alignments. Er zijn dan heel veel overeenkomende nucleotiden, maar
dit is een heel traag proces. Dit kun je dus niet doen met elke database sequentie.
Om dit probleem op te lossen gebruik je een combinatie van k-mer zoeken (index zoeken) samen met
alle mogelijke pairwise alignments. Zo kun je snel bepaalde hits
vinden met k-mers opgeslagen in een index en kun je pairwise
alignment gebruiken, maar enkel voor deze hits.
Hier is een programma voor, Basic Local Alignemt Search Tool
(BLAST), dit is redelijk snel. Je zoekt hiermee een query
(sequentie waarmee je de database doorzoekt) en vindt een
hit/subject (zelfde sequentie gevonden in de database). Dit is
het meest gebruikte programma in bioinformatica, er zijn
snellere programma’s (diamond/usearch).
BLAST werkt als volgt:
1. Maskeer low-complexity regions
2. Maak een lijst van high-scoring words/kmers
3. Maak een lijst van nieghborhood words/kmers
4. Doe een index search met high-scoring words/kmers
, 5. Verleng de alignment
De snelle algoritmes gebruiken vooral heuristics, dit is niet altijd optimaal, maar geeft vaak voldoende
resultaten. Eerst zoekt het woorden (met lengte W) in de query, de normale lengte voor eiwit is W=3
en voor DNA W=11 gebaseerd op substitution scores uit de matrix (zegt hoe hoog elke
aminozuurcombinatie scoort). Als je bijvoorbeeld W=3 met PQG hebt, krijg je 18, je wil echter onder
13 (neighborhood treshold) zitten. De neighborhood treshold is een grens die zegt hoe gelijk
woorden zijn, deze worden dan meegenomen in hits, PMG heeft dit wel, dit is dus een
dichtbijgelegen score. Hoe hoger deze neigborhood treshold, hoe meer random matches je kan
krijgen. Deze worden vervolgens beide kanten op gezocht op HSPs (High-scoring Segment Pair HSP) te
zoeken tussen query en hit.
Er zijn globale en lokale sequentie alignments. BLAST maakt alleen lokale alignments, het vindt de
optimale sub-alignment in twee sequenties, deze zijn partieel homoloog. De globale alignment alignt
twee sequenties van einde tot einde, als hieruit komt dat deze volledig homoloog zijn komen ze uit
dezelfde gen duplicatie.
BLAST is te gebruiken op verschillende manieren. Je kan als input sequenties in code opgeven, dit
doen wij het eerste jaar enkel via internet. Hieruit krijg je een lijst met matches.
De eerste manier is via direct searches. Je voert een nucleotide database & nucleotide query in. De
woordlengte is hierbij default W=11, hiermee vindt je genen in verschillende soorten.
Megablast maakt de woordlengte langer W=28, hierbij vindt je dus minder hits, maar langere
alignments voor hoog identieke hits voor een query sequentie (bijvoorbeeld voor dezelfde soort).
Discontiguous megablast gebruikt onaaneengesloten woorden (van W=11, bv. AT-GT-AC-CG-CG-T),
hiermee kun je bijvoorbeeld codons zoeken (derde nucleotide is natuurlijk minder geconserveerd).
Hiermee kun je nucleotide-nucleotide hits op grotere evolutionaire afstand voor eiwit-coderende
query sequenties krijgen.
Protein-protein searches gebruiken een eiwit database en eiwit query sequenties, dit is blastp (W=3
aminozuren), deze vindt homologe eiwitten in verschillende soorten.
BLAST flavors kun je vertaalde zoekopdrachten mee doen, je
exploiteert hierbij de conservering van eiwitsequenties terwijl je
DNA sequenties uitlijnt. Hiermee kun je op nog verdere
evolutionaire afstand homologe genen vinden. Blastx en tblastx
vertalen eerst de query van nucleotide naar eiwit voordat het
,hoog-scorende woorden identificieerd. Tblastn en tblastx gebruiken een vertaalde database van
nucleotide sequenties opgeslagen als eiwitten.
Leer de tabel hiernaast uit je hoofd om een BLAST manier te kiezen. Aflezen uit een alignment output
spreekt redelijk voor zich.
WC BLAST
RNA virussen zijn de meest gesequencde virussen, omdat dit de virussen zijn die ons infecteren.
Hier nogmaals overzichtelijk de typen blast:
Query (sequentie die je hebt) Database
blastn Nucleotide Nucleotide
blastp Eiwit Eiwit
blastx Translateerde nucleotide Eiwit
tblastn Eiwit Transleerde nucleotide
tblastx Transleerde nucleotide Transleerde nucleotide
Megablast (close related hits) Nucleotide Nucleotide
Met megablast vergelijk je een nucleotide database tot een nucleotide query en hiermee kun je heel
dichtbij gerelateerde hits vinden.
De volgorde van minst naar meest gevoelig is:
1. megablast, k-mer lengte is 28 en vindt enkel dicht gerelateerd
2. discontiguous megablast, iets sensitiever met k-mer lengte 11
3. blastn, ook k-mer lengte 11 maar ontkent wobble base
4. blastp, eiwit is meer geconserveerd dan DNA dus verdere homologie
5. blastx/tblastn, query of database getransleerd in zes frames waardoor frameshift homologie
gevonden kan worden
6. tblastx, zelfde als blastx/tblastn, maar query en database beide getransleerd in zes frames!
7. PSI-blast, gebruikt sequentieprofielen dus is de meest sensitieve.
De e-waarde wordt berekent met E=k*m*n*e -λS (zie formuleblad), een kleinere database betekent
dus een kleinere e-waarde.
Lokale alignment vindt optimale sub-alignment in twee sequenties en is partieel homoloog (dekking
van 30% ongeveer). Globale alignment gebruikt twee sequenties van begin tot eind en vindt volledig
homoloog (bijna hetzelfde).
HC2 Evolution, Significance
Evolutie vindt plaats bij mutatie en reproductie (na selectie) van deze mutaties. Er zijn verschillende
mutaties. Nucleotide substituties ontstaan door replicatiefouten of chemische reacties (mutagenen).
Inserties of deleties (indels) ontstaan door oneven crossing over bij de meiose of door replicatie
slippage, door een niet goed georienteerde DNA-polymerase. Dit gebeurd vaak bij snel-evoluerende
regio’s bij microsatelliten, ook wel short tandem repeats (STRs) genoemd. Dit zijn de snelst
evolueerende karakters in een genoom. Met deze STRs zijn verschillen tussen individuen te zien, ook
worden deze gebruikt om mensen te identificeren. Inversies of herschikkingen zijn omkeringen of
verplaatsingen van DNA. Duplicaties ontstaan deels of voor het hele gen. Ook in het hele
chromosoom kan dit (aneuploïdie/polysomy) of deels (polysomy) of voor het hele genoom
(polyploïdie, bijvoorbeeld bij planten). Al deze mutaties vinden verticaal plaats, van de ene generatie
naar de volgende. In dezelfde generatie (zoals bij bacteriën) kan dit ook, dat noem je horizontale
genen transfer (HGT).
, Bij sequencen zoek naar je naar dezelfde dingen, er is dan vaak een relatie aanwezig. Hierbij zijn een
paar begrippen die je moet kennen. Homologie is een eigenschap van twee sequenties die een
gedeelde voorouder hebben, dit kan WAAR of NIET WAAR zijn, het is compleet homoloog, maar niet
een klein beetje homoloog. Identiteit is het percentage identieke aminozuren of nucleotiden in de
alignment. Positieven is het percentage identieke plus vergelijkbare aminozuren in een alignment.
Query cover is het percentage aminozuren van de query sequence dat onderdeel is van de
alignment. Gelijkenis betekent dat het percentage aminozuren residuen in overeenstemming is met
een positieve substitutie score (niet voor DNA!), ze komen chemisch overeen. Denk hierbij aan
grootte, lading, hydrofielie, vouwing, etc. De functie van het aminozuur of eiwit komt dus overeen en
er is dus een evolutionaire relatie. Er is hierbij een uitzondering: low-complexity regions in DNA en
eiwitsequenties, denk hierbij aan repeats. Ze kunnen ontstaan door
recombinatiefouten en kunnen functioneel zijn in eiwitten. BLAST kan deze
regios herkennen. Het onderstaande stuk code zal resulteren in 60%
identieke AAs en 70% positieve Aas (amino acids). Er zijn namelijk 12/20=0.6 identieke residuen en
12+2 (identieke en dezelfde, dus + meetellen)/20=0.7 residuen.
Nu gaan we kijken naar de kwantitatieve manier om de gelijkheid te bepalen in
sequenties via matrixen. De substitutiematrix is al besproken in HC1. De
identiteitsmatrix geeft uitlijningsscores voor matches, dus +1, in een sequentie
uitlijning (dus dezelfde residuen aan boven en onderkant), elke mismatch krijg je
een -1 bij de score, deze wordt gebruikt voor het
behalen van DNA sequentie uitlijningen. Niet alle
nucleotidensubstituties zijn even gebruikelijk,
transities gebeuren namelijk twee keer zo veel als
transversies. Purines en pyrimidine residuen muteren
veel sneller in de eigen soort (transitie) dan dat ze in
elkaar muteren (tussen purine en pyrimidine), hierbij
komen nog meer scores kijken, zie de matrix
rechtsboven. Bij eiwitten gaat dit iets lastiger. Je pakt
veel verschillende genen van verschillende organismen die je uitlijnt om te kijken welke aminozuren
meer op elkaar lijken dan andere (volgens evolutie). Dit doe je door te kijken naar hoe vaak twee
aminozuren gemuteerd zijn tijdens de evolutie, het meest relevante signaal voor homologie is
gebaseerd op goed-uitgelijnde homologen.
Dit doe je via BLOcks SUbstitution Matrix (BLOSUM). Dit gaat via database bias (vooral van dingen die
ons ziek maken of in eten) van veel combinaties genomen. De BLOSUM werd gemaakt van uitgelijnde
homologe sequenties, ze groepeerde hoog identische sequenties (>62%) om biases te verwijderen.
Daarna zijn goed-uitgelijnde blokken geïdentificeerd zodat alleen de echte mutaties vergeleken
konden worden. Vervolgens is gekeken naar hoe vaak een paar van twee aminozuren gemuteerd is in
elkaar. Stel dat je bijvoorbeeld een blok hebt van 100 aminozuren lang met 1000 eiwitten ‘deep’
zonder gaps. 7400/(100*1000)=7.4% is alanine (A) en 1.3% is tryptophan (W), je verwacht als dit
random is een fractie A-W uitlijning van FA*Fw=0.074*0.012=0.000962. In de realiteit is het maar
0.00034% van de tijd, iets onderdrukt de mutatie dus, je wil daarom een negatieve substitutie score.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller thomvd. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $8.02. You're not tied to anything after your purchase.