Bio-informatica HC1
Metagenomics -> sample van groep organismen nemen, filteren, je houdt dan microben of virussen
over, DNA sequencen, bio-informatics.
Microbiome -> alle microben
Top down -> Question first, hoe werkt het? Als je een vraag hebt, dan pas bedenken welke datasets
je kunt gebruiken om de vraag te beantwoorden
Bottom up -> Data first. Eerst data bekijken en daarna een hypothese hierbij opstellen
Je zoekt een “query” in een database
Waarom? -> Als 2 sequenties (eiwit of DNA) gelijk zijn dan gaan we ervan uit dat ze gerelateerd zijn.
(zoals mensen en chimpansees)
Hoe? -> Elke stukje uit de query wordt los van elkaar in de database gezocht. De “Hits” zijn de dingen
die je in de database vindt. Dus het splits de query op in kleine stukjes en zoekt naar exacte matches
voor deze kleine stukjes.
K-mers
Sequenties kunnen verdeeld worden in kleine sub sequenties of K-mers
- K-mers bestaan uit k (dus hoeveelheid) nucleotiden of aminozuren.
• We kunnen een index maken van alle k-meren die voorkomen in de databasereeksen en dan neemt
het alle sequenties waar minimaal 1 van de k-mers exact matcht.
• Als we een queryreeks opsplitsen in k-meren van dezelfde lengte, kunnen we snel alle
databasereeksen identificeren die ze bevatten
• Maar: we beperken ons tot exacte matches dus de k-mer moet precies geraakt worden.
In de evolutie werkt dit dus niet zo want dingen evolueren. Dus we vinden niet altijd 100% matches.
• De sequenties bovenaan (~97% identiteit) behoren tot een stam die nauw verwant is aan het
referentiegenoom
• De onderstaande sequenties (~60-80% identiteit) zijn verder verwante stammen
Als we een bijvoorbeeld een nieuwe bacterie vinden die nog nooit gesequenced is, dan willen we
weten waar in de tree of life het ongeveer thuis hoort.
,Soms matchen de letters perfect en soms matchen de letters helemaal niet en soms heb je een
opening. Je kan dit voor eiwit- en DNA sequenties doen.
Gegeven zijn 2 sequenties: seqX = X1X2…XM en seqY = Y1
Y2…YN
een alignment is een toewijzing van openingen aan posities 0, …, M in x, en aan posities 0, …, N in
seqY, zodat elke letter in één reeks wordt uitgelijnd met ofwel een letter of een opening in de andere
reeks”
Pairwise sequence alignment -> Pairwise Sequence Alignment wordt gebruikt om regio's met
overeenkomst te identificeren die kunnen wijzen op functionele, structurele en/of evolutionaire
relaties tussen twee biologische sequenties (eiwit of nucleïnezuur).
- Laat verschillen toe dus we kunnen we kunnen elke sequence in de database gebruiken en
efffffffkijken welke het beste past.
Dit duurt alleen heel lang. Wat we inplaats hiervan doen is dat we het beide willen. We willen dus
een index search hebben omdat het snel is maar we willen ook pairwise allignments hebben omdat
we dingen willen vinden die erg gerelateerd zijn(dus niet exact hetzelfde)
Beste van twee werelden
• Het gebruik van een k-mer-zoekopdracht (=indexzoekopdracht) gaat erg snel ... maar beperkt je tot
exacte overeenkomsten
• Door alle mogelijke paarsgewijze uitlijningen te maken, kunt u ook ver-verwante sequenties vinden
... maar het zou erg lang duren
Hoe doen we dit? -> Eerst doen we een index search, dus kleine stukjes die precies gelijk aan elkaar
zijn. Hierna alleen de dingen in de database gebruiken die deze kleine stukjes bevatten. Met deze
maken we pairwise allignments. Hierdoor kunnen we de meeste sequenties heel snel wegstrepen en
hoeven we alleen pairwise allingments te maken van de potentiële hits.
Een tool om dit mee te doen heet BLAST(Basic Local Alignment Search Tool)
• BLAST vindt vergelijkbare sequenties met een redelijke snelheid - 10-50x sneller dan eerdere
algoritmen
• Terminologie:
– Query: volgorde waarmee we de database doorzoeken
– Hit of Subject: vergelijkbare volgorde gevonden in de database
• BLAST is het meest gebruikte bio-informaticaprogramma – Meer dan 100.000 zoekopdrachten per
dag op de NCBI BLAST-server – Het BLAST-artikel is >58.000 keer geciteerd
• Nog snellere algoritmen zijn nu beschikbaar – bijv. DIAMOND, USEARCH
The BLAST search algorithm
1. Identificeer alle woorden(in lente W) in de query
- W = 3 is eiwit, W = 11 is DNA
- gebaseerd op substitutie scores
,PQG is dus 7 + 5 + 6 = 18 dus de score is 18.
2. Snel gelijke woorden in de database vinden
- “Vergelijkbare” woorden worden gedefinieerd met behulp van de substitutiematrix (bijv.
BLOSUM62)
- De index lokaliseert snel alle potentiële hitreeksen
- Neighborhood score threshold betekent: er is een minimale score die een gelijk woord
nodig heeft om inbegrepen te zijn.
PQG is 18 en PEG is 15. 15 is hoger dan T=13 dus het is included. Alles boven de 13 in een
potentiële hit.
3. Breidt zaden in beide richtingen uit om HSP's te vinden tussen zoekopdracht en hit
- HSP: regio die kan worden uitgelijnd met een score boven een bepaalde drempel
In de subject zit een potentiele hit. Dus er wordt een alignment gemaakt links en rechts van
de k-mer en wordt er gekeken hoe goed de andere stukken buiten deze k-mer scoren.
Elk stukje dat gelijk wordt de high-scoring segment pair(HSP) genoemd.
, Nog een voorbeeld:
We beginnen bij de 3 letter match.
Dan kijken we links van dit stukje of
het gelijk is door te kijken naar de
alignment score. Daarna kijk je naar
het rechter deel naast het stukje om
te kijken of het ook gelijk is.
Wanneer de score gelijkmatig naar
beneden gaat, dan zegt het: dit is het
einde van de match.
Globale en lokale sequence aligments
• Zijn sequenties geheel of gedeeltelijk homoloog (=behoren ze tot dezelfde ‘familie’, hebben
ze een gemeenschappelijke voorouder)?
• Lokale alignment
– Je zoekt naar lokale gelijkheden
– Vindt de optimale sub-uitlijning binnen twee sequenties
– Gedeeltelijke homologen zijn gerelateerd aan elkaar
• Globale alignment
– Lijnt twee sequenties van begin tot eind uit
– Als je weet dat twee sequenties volledige homologen zijn, b.v. als gevolg van gen duplicatie
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller julietimmerbeil1. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.40. You're not tied to anything after your purchase.