100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting HCO kwantificeren van sequentie similarity €2,99   In winkelwagen

Samenvatting

Samenvatting HCO kwantificeren van sequentie similarity

4 beoordelingen
 114 keer bekeken  0 keer verkocht

Dit is een uitgebreide samenvatting van het hoorcollege over hoofdstuk 6 uit de reader: kwantificeren van sequentie similarity. Er zijn twee gedeeltes geel gemarkeerd, omdat ik daar maandag bij het hoorcollege nog vragen over heb. Onderwerpen die aan bod komen, zijn: similarity, fylogenetische boom...

[Meer zien]

Voorbeeld 2 van de 5  pagina's

  • 3 maart 2018
  • 5
  • 2017/2018
  • Samenvatting
Alle documenten voor dit vak (27)

4  beoordelingen

review-writer-avatar

Door: tomlous • 4 jaar geleden

review-writer-avatar

Door: joycevanloenhout • 5 jaar geleden

review-writer-avatar

Door: et98 • 6 jaar geleden

review-writer-avatar

Door: sanneejanssen • 6 jaar geleden

avatar-seller
brittheijmans
Kwantificeren van sequentie similarity
Similarity, als je sequenties alignt, moet je daar iets van een score of getal aan kunnen plakken.
Fylogenetische boom, als je een fylogenetische boom maakt van sequenties kun je daarin heel veel
informatie aflezen over de functie en evolutie van sequenties. Denk hierbij aan de orthology
conjecture. De boom is echter alleen logisch als de sequenties afstammen van een
gemeenschappelijke voorouder en ze dus evolutionair gerelateerd zijn. Als je sequenties gaat
vergelijken die niet gerelateerd zijn, ben je letterlijk appels met peren aan het vergelijken en dat mag
niet. Je mag dus alleen een boom maken van sequenties die homoloog zijn!
Homoloog, je kan bepalen of iets homoloog is of niet door te kijken naar overeenkomsten.
Kijk bijvoorbeeld naar de overeenkomsten tussen Trump en apen. Zaken die dus ‘really
similar’ zijn, zijn waarschijnlijk homoloog. Maar wat is ‘really similar’?
Identity, is een maat voor similarity. Het geeft het aantal posities binnen twee sequenties
aan die identiek zijn. Om dit te meten moet je de sequenties alignen. Hierbij plaats je gaps
in de sequenties tot ze optimaal alignen. Het percentage matches tussen de sequenties
levert dan de identity. Als je voor de alignment die rechts is
100∗31
weergegeven de identity berekent, krijg je: =79
39
identiek.
Alignment, bij het maken van een alignment neem je evolutionaire
gebeurtenissen waar als indels, substituties en andere mutaties.
Identiteit & homologie, identity kan gekwantificeerd worden, maar homologie niet. Als je zegt dat
iets 79% homoloog is, ben je dus verkeerd bezig. Je bent homoloog (familie) of je bent het niet.
Similarity, is ook kwantificeerbaar, maar is niet hetzelfde als identity. Identity gaat om het aantal
identieke residuen in een DNA of aminozuren sequentie, terwijl similarity gaat om het percentage AZ
residuen in een alignment die een positieve substitutie score hebben. Similarity wordt niet gebruikt
voor DNA.
Evolutionaire afstand, de taklengte van fylogenetische bomen geeft de
evolutionaire afstand aan tussen twee individuen. De afstand wordt over
het algemeen in mutaties gemeten. De moleculaire klok zegt dat er elk X
jaar een mutatie optreedt. De afstand tussen virus 3 en 7 is dan ook de
optelsom van de rood gemarkeerde takken. Als je dan de taklengte met
0,07 vermenigvuldigt, levert dat een afstand van 0,77 mutaties/site. De
eenheid van afstand is dus het aantal substituties per positie van de
alignment. Een aanname die hierbij van belang is, is dat alle posities
random en onafhankelijk evolueren.
Substitutie matrix, de similarity kan gekwantificeerd
worden met een substitutie matrix. Hierin staan scores
voor matches in een sequentie alignment en penaltys voor mismatches in een
sequentie aligment. De identity matrix wordt het meest gebruikt.
Identity matrix, hierbij geldt een positieve score als de residuen identiek zijn en een
0 of negatieve score als de residuen verschillend zijn. Door elke positie een score toe
te kennen en deze scores op te tellen, krijg je een alignment
score. Rechts zie je een voorbeeld van een identity matrix. Niet elke mutatie in
DNA is even waarschijnlijk. Transities vinden bijna twee keer zo vaak plaats als
transversies. Dat komt door de chemie van DNA, aangezien A en G twee ringen
bevatten en C en T maar 1.
Transitie, is een omzetting tussen A & G of C & T.
Transversie, is een omzetting tussen A & C,A & T,C & G of G & T.

, De kans op een transitie is groter dan op een transversies en daar kan in je een substitutie matrix dus
onderscheid in maken, zoals rechts is weergegeven. Ondanks dat deze matrix beter is, wordt de
bovenste identity matrix het meest gebruikt.
Identiteit & similarity, de sequenties die rechtsonder zijn weergegeven, zijn allemaal 66,7% identiek.
De similarity is echter verschillend. Dat komt door de kleurcode. Sommige aminozuren lijken namelijk
meer op elkaar dan andere AZ. Zo lijken D en E meer op elkaar dan dat zij op C lijken en dat wordt dan
gevisualiseerd door de kleuren. Hierdoor zijn seqD en seqE meer similar dan seqC bijvoorbeeld is met
seqD. Wat je uiteindelijk wil bereiken met deze similarity is kijken of twee sequenties dezelfde
voorouder hebben (homoloog). Dan kan je kijken of de functie van het eiwit behouden is gebleven.
Ook kan je dan iets zeggen over de evolutionaire relatie. We gebruiken evolutie als tool om de
similarity te bepalen. Evolutie heeft namelijk miljarden jaren lang allerlei verschillende
aminozuurvolgordes uitgeprobeerd en heeft dus gevonden welke aminozuren wel of niet op elkaar
lijken. Bij evolutie werken sommige aminozuur substituties wel en andere niet.
Aminozuur similarity, je zoekt heel veel sequenties bij elkaar die overduidelijk homoloog zijn en dus
gealigned kunnen worden, waarbij je precies weet waar inserties en deleties plaats hebben gevonden
(dus geen indels). In deze well-aligned homologs ga je dan tellen hoe vaak bepaalde aminozuren in
elkaar zijn gemuteerd. Zo kijk je bijvoorbeeld hoe vaak er geen G boven een N staat (en dus in elkaar
gesubstitueerd zijn).
BLOSUM matrix, is opgesteld door naar well-aligned
homologs te kijken en daarvan de posities met een
hogere identity dan 62% samen te voegen. Deze gebieden
tonen zo veel overeenkomsten dat ze samengevoegd worden om biases te voorkomen. Als er
bijvoorbeeld 100 sequenties zijn die een hogere identity dan 62% laten zien, worden zij
samengevoegd tot 1 sequentie, waardoor de sequenties met een hoge identity uiteindelijk per stuk
maar 1/100 meetellen. Er wordt dus vooral naar delen van sequenties gekeken waarin minder dan
62% overeenkomst is. Hieruit identificeer je well-aligned blocks zodat alleen echte mutaties
vergeleken worden. Ten slotte wordt voor elk paar aminozuren geteld hoe vaak ze in elkaar muteren.
Vervolgens wordt gekeken hoeveel vaker een mutatie optreedt dan verwacht. Die verwachte kans kan
je uitrekenen door de frequentie van aminozuren in de totale eiwitten te vergelijken. De
observerd
ratio, ook wel odds ratio, geeft aan hoeveel vaker/minder vaak je een mutatie ziet dan
expected
verwacht. Hierbij geeft observed aan hoe vaak ze aligned worden in well-alligned homologs en
expected geeft aan hoe vaak ze alligned worden in unaligned sequences. Een kans ratio van 2
betekent dan ook dat iets 2 maal vaker gebeurt dan verwacht door random kans. Als je dit tegenkomt
is de kans dus 2 keer groter dat ze homoloog zijn, dan dat ze het niet zijn. De ratio is om te schrijven
FI ,J
in , waarbij ‘expected’ uitgerekend wordt door de kans dat je het ene AZ tegenkomt te
F I ∗F J
vermenigvuldigen met de kans dat je het andere AZ tegenkomt. ‘Observed’ geeft dan aan hoe vaak je
de twee aminozuren boven elkaar aantreft. Deze odds ratio kan je voor een hele aligment uitrekenen
door de ratio’s van alle gealignde aminozuren met elkaar te vermenigvuldigen. Dit levert echter al
snel een heel laag getal (lage kans) dus wordt het logaritme van de formule genomen, zodat de
uitkomsten bij elkaar opgeteld kunnen worden. Dit levert uiteindelijk de volgende formule op voor de
BLOSUM score:
¿
FI , J
(¿ )
F I∗F J

( observerd
expected )
→ S I , J =2∗log 2 ¿
log ¿
Voorbeeld BLOSUM, in dit voorbeeld heb je well-aligned blocks die allemaal van dezelfde voorouder
afkomen en in totaal 100 aminozuren lang zijn en 1000 aminozuren diep zonder gaps. De sequenties

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 67866 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€2,99
  • (4)
  Kopen