Samenvatting van de Bio-informatica stof Bio-informatica Course 4 HAN Nijmegen. Samenvatting is van collegejaar 2019/2020. De samenvatting is een klein beetje aan het project gerelateerd; dit is eventueel outdated, maar de theorie blijft hetzelfde. De samenvatting bevat alle kennis die nodig is voo...
Samenvatting Bio-informatica Course 4
Champignons worden geweekt op compost. Het kweekproces duurt ongeveer zes weken.
2 algemene vragen:
Is een betere benutting van de compost door de champignon mogelijk door het
reguleren en controleren van de microflora die bij het composteringsproces betrokken
is?
Kan er een effectieve en geaccepteerde bestrijdingsmethode tegen pathogene micro-
organismen en onkruidschimmels in de compost ontwikkeld worden?
Genoom data van micro-organismen geïsoleerd. Per stukjes van 500bp opgedeeld, en twee
kanten op gesquenced. Deze data krijgen we.
16S rRNA is erg geconserveerd, omdat het voor ribosomen codeert. Deze data krijgen wij
alleen niet.
3 GB aan data in textfiles, miljoenen sequenties (in FastQ format):
Eerst een header. Achter de header staat een /1 of /2:
- \1 = forward read
- \2 = reverse read
Vervolgens de sequentie
Daarna een +
Als laatste een kwaliteitsscore: elk teken heeft een bepaalde waarde. Veel verschillende
tekens betekent slechte score, veel CG betekent redelijk goede score.
De data is slecht. Er is een grote kans dat de data niet in de databases staan.
Je gaat de data analyseren met BLAST.
,Hoe is de data verkregen: van HAN-biocentre. Van fase 2 van het compostproces is het
genomisch DNA van de micro-organismen gesequenced, in stukjes van 500 baseparen. Aan
die fragmenten zijn adapters gehangen, en daar aan primers, waardoor je ongeveer stukjes
krijgt van 300bp als resultaat.
Eiwitsequenties zijn geconserveerder dan DNA. Er zijn meerdere manieren om hetzelfde
eiwit te krijgen vanuit DNA, door bijvoorbeeld verschillende codons.
Het kan zijn dat je uit BLASTn geen resultaten krijgt, doordat bijvoorbeeld het organisme er
niet instaat, of het slecht DNA is.
,Let op de volgende dingen bij je BLAST resultaten:
- Score: de alignment van twee sequenties levert een score (het geeft aan wat de
kwaliteit is van de alignment). Hoe hoger deze score, hoe beter. Een goede
alignment heeft dus een hoge score, de gevonden proteïnen zijn dan waarschijnlijk
homologen. De score wordt als volgt opgebouwd:
Je krijgt verschillende punten voor verschillende events. De hoeveelheid punten is
afhankelijk van de scorematrix. Uiteindelijk wordt alles bij elkaar opgeteld, en de
uitkomst is score van de alignment. De verschillende events zijn:
o Identities: identieke aminozuren. Wordt met een streepje aangegeven.
o Similarities: aminozuren met vergelijkbare chemische werking. Wordt met een
plusje (+) aangegeven.
o Positives: Identities en de similarities samen.
o Gaps: gaps worden ingevoerd zodat er een goede alignment gemaakt kan
worden. Ze simuleren deleties of inserties. Je krijgt gap punten voor het
beginnen van de gap (gap opening), + hoe lang dat gap is (gap elongation).
Het eerste gap in de afbeelding bijvoorbeeld heeft een score van -3, 2 van het
openen en 1 van de lengte. Gap opening heeft de hoogste penalty, omdat je
daar aan geeft: hier is een mutatie geweest. De gap elongation score is lager,
omdat het gewoon aangeeft wat de lengte is van de mutatie, en of het nou
, een lange gap is of korte, maakt dan niet zoveel uit; de mutatie is er toch al.
Het geeft de biologie een beetje weer.
- Wanneer er om een semi-globale alignment score wordt gevraagd, dan is dit de
alignment maar dan zonder begin en eind gaps.
- Bits score: een getal zodat je ook met andere parameters (bijvoorbeeld andere score
matrix) nog kan vergelijken of de resultaten overeenkomen [?]. Het is een relatief
getal.
- Max en total score:
o Max-score: de score van jouw alignment, waar je naar moet kijken.
o Total-score: de score met repeats ofzo, idk.
- E-value: zegt iets over de betrouwbaarheid. Er worden een aantal random
sequenties uit de database genomen, en er wordt gekeken of die een dezelfde of
hoger score (bit score) krijgen dan de huidige match. Het is de significantie van een
match. Hoe lager de E-value, hoe beter. Hoe lager houd namelijk in dat het niet
toevallig is dat de huidige alingment deze score heeft gekregen. Een E-value van 1
betekent dan dat de kans op een significante match net zo groot is als op een
toevallige match. De E-value is ook afhankelijk van de grote van de database: hoe
groter de database, hoe groter de kans is dat je iets pakt wat er op lijkt.
- Lengte alignment: het kan zijn dat de uiteindelijke lengte van jouw alignment, korter is
dan de sequentie die jij erin hebt gedaan. BLAST doet een “local” alignment, en pakt
soms niet de hele sequentie. Ik weet niet meer waarom enzo, maar volgens mij kwam
het er op neer dat sommige overeenkomsten alleen maar voor een deel van de
sequenties zijn. Deze afbeelding in ieder geval:
- Functie eiwit: je probeert de functie van een eiwit te achterhalen, door de ingevoerde
sequentie te vergelijken met de sequenties in de database. Wanneer er veel
overeenkomsten zijn tussen twee sequenties, dan hebben ze waarschijnlijk ook een
vergelijkbare functie.
- Naam organisme: probeer te achterhalen van welk organisme de sequentie komt. Het
kan zijn dat je uit je BLAST geen resultaten krijgt, doordat bijvoorbeeld het organisme
er niet instaat, of de sequentie van lage kwaliteit is. Soms krijg je als resultaat een
hypothetical protein. Dat beteken dat er wel een gen gevonden is, maar dat er geen
eiwit gevonden is dat er met zekerheid op lijkt.
,Een goede alignment is biologisch zinvol:
o De bovenste alignment in de afbeelding is logischer, want het is logischer dat er maar
één keer een wat grotere mutatie is geweest, dan heel veel kleinere mutaties.
Dot plot matrix:
- Wanneer je sequenties met elkaar vergelijkt met BLAST, dan gebruikt BLAST een
bepaald algoritme. Welk algoritme is dat? Om antwoord daarop te vinden, kun je zelf
handmatig een alignment maken van twee sequenties. Hiervoor kun je de dotplot-
methode gebruiken:
- Links zie je de twee sequenties staan die met elkaar alignt moeten worden. Je zet ze
op deze manier tegenover elkaar, en je gaat kruisjes zetten op de plekken waar de
letters hetzelfde zijn:
- Vervolgens ga je lijnen trekken door de paden die mogelijk zijn:
- Je ziet dat er drie lijnen zijn getrokken. Die lijnen kunnen allemaal de alignment zijn.
Op basis van de verschillende scores, kun je kiezen welke alingnment biologisch
gezien het meest verantwoord is.
,Je kunt ook zo’n dotplot maken, maar dan met een sliding window:
- Je kiest dan een readingframe, en gaat dan kijken of er overeenkomsten zijn tussen
de sequenties. Let op! Je moet dit dus 3 keer doen, voor elke readingframe (maar
vgm zijn er in totaal 6 readingframes).
,Er zijn verschillende BLAST mogelijkheden die je kunt doen:
- BLASTn: nucleotide tegen nucleotide (in database)
- BLASTp: eiwit tegen eiwit
- BLASTx: nucleotide wordt getransleerd naar eiwit, tegen eiwit. Waarschijnlijk de
beste; geeft organisme + eiwit en is snel.
- tBLASTn: eiwit tegen nucleotide getransleerd naar eiwit, via alle readingframes.
- tBLASTx: nucleotide wordt getransleerd naar eiwit tegen nucleotide getransleerd naar
eiwit, via 6 readingframes. Als tweede optie gebruiken. Is wel een stuk trager.
Afhankelijk van wat je wilt doen, kies je welke BLAST je moet gebruiken:
In tBLASTx voer je een nucleotide sequentie in. Vervolgens wordt die getransleerd naar een
eiwit sequentie, via elke readingframe. Als die sequenties worden geblast. Je zult alleen
maar resultaten krijgen van één reading frame. Dat is omdat er eigenlijk ook maar één juiste
readingframe is. De anderen zijn gewoon bullshit, dus die geven ook geen resultaten.
Eiwitsequenties zijn geconserveerder dan DNA-sequenties. Er zijn meerdere manieren om
hetzelfde eiwit te krijgen, door bijvoorbeeld verschillende codons, waardoor DNA-sequenties
meer kunnen verschillen. Wanneer je dus wilt kijken wat de overeenkomsten zijn tussen
sequenties, dan kun je dus het best kijken naar eiwitsequenties. Hiervoor kun je het best
BLASTx gebruiken. Mochten daar geen resultaten uitkomen, dan kun je nog tBLASTx
gebruiken. Soms kan het toch nog zijn dat je geen resultaten vind, dit kan doordat
bijvoorbeeld het organisme niet in de database staat, of de sequentie van lage kwaliteit is.
,Het boek van Pevsner H3 + H4 gaat over alignments en BLAST. Gebruik dat als naslagwerk.
Verschillende matrixen:
PAM10/BLOSUM80: score voor sequenties die op elkaar lijken. Een strenge score, hoge
penalty voor mismatch.
PAM250/BLOSUM30:score voor sequenties die ver van elkaar af staan. Een minder strenge
score, lagere penalty voor mismatch.
Wij gaan BioPython gebruiken voor het BLASTen, omdat we veel sequenties tegelijk willen
doen.
Verschillende databases:
- Non-redundant protein sequences (nr): database die alles bevat. Niet altijd even goed
geannoteerd.
- UniProtKB/Swiss-Prot: databases van hoge kwaliteit, maar bevat lang niet alles. De
eiwitten zijn goed geannoteerd.
- RefSeq protein: referentie eiwit sequenties.
- Protein Data Bank: over 3d structuren van het eiwit.
- Metagenomic protein: weinig annotatie
- Transcriptome shotgun assembly proteins: over RNA
Voor beide databases zijn er goede argumenten om die database te gebruiken. Kies met je
groepje welke. Combinaties van verschillende databases is mogelijk (eerst database van
hoge kwaliteit. Niks gevonden? Dan bredere database).
Je kunt groepen organismen excluden van de database. Bijvoorbeeld zoogdieren
(mammalia): die hebben we niet nodig, want we zoeken naar micro-organismen. Hoe groter
de database, hoe groter de kans op vals positieve.
Wanneer je op “Alogrithm parameters” klikt, krijg je geavanceerde opties.
General parametes:
- Max targets sequences: hoeveel resultaten je wilt hebben.
- Short queries: niet-relevant voor ons. Instellingen die BLAST zelf aanpast wanneer
aangevinkt.
- Expect threshold: maximale E-value die je in je resultaten wilt terug zien. Hiervoor
moet je eerst onderzoek doen.
- Word size: algoritme van BLAST. De grootte van het “woord” waarop gezocht wordt
(met mutaties). Hoe groter het woord, hoe kleiner de kans dat je iets vind. Bij een
korter wordt is de kans op een match veel groter.
- Max matches in a query range: niet te veel matches van hetzelfde domein [?]
Scoring parameters:
- Matrix: je kunt verschillende matrixen kiezen. BLOSUM62 raad Ingrid aan. Goed voor
sequenties dichtbij en ver weg.
- Gap costs: existence: score voor ontstaan gap, gap opening penalty; extension:
hoeveel strafpunten voor het verder gaan van gap.
, - Compositional adjustments: niet heel belangrijk, zie handleiding.
Filsters and Masking:
- Filter: low complexity regions: gaat over repeats. Wanneer aan, dan worden repeats
genegeerd voor de alignment. Kijk met je groepje even of je dit aan/uit wil. Voordeel
aan: wordt genegeerd, dus sneller resultaat, of: dat stukje is toch onzin, er zal toch
niks in de database gevonden worden. Uit: misschien is dat stukje juist belangrijk, je
wilt dat juist niet eruit filteren.
In je discussie van je verslag schrijf je welke parameters je gebruikt, en vooral waarom die
opties. Dat moet je goed beschrijven. In je verslag beschrijf je Read 1 en Read 2 van één
sequentie.
In plan van aanpak (weektaak 2) komt te staan: “ik gebruik dit, omdat”. “Ook dit, omdat”.
Weektaak 2:
Opdracht 2: de bio-informatica vragen:
- Welke micro-organismen bevinden zich er in de compost?
- Welke eiwitten produceren deze micro-organismen?
Opdracht 3
Welke BLAST: BLASTx als eerste optie. Daarna waarschijnlijk tBLASTx
Scorematrix: BLOSUM62, de standaardmatrix. Misschien nog aanpassen naar andere naar
aanleiding van volgende les Ingrid.
Parameters:
- E-value aanpassen, hoeft niet per se. Bijvoorbeeld een E-value van maximaal 1
- Database: nr. De organismen die wij gaan vinden staan waarschijnlijk niet in de
Uniprot/Swissprot database.
Hoeveel resultaten opslaan: waarschijnlijk 10. Wanneer de eerste paar resultaten goed zijn,
dan zou het onnodig zijn om meer dan 10 resultaten op te slaan.
Wanneer is een resultaat nog homoloog: vanaf de 40% percentage identity ongeveer (bij een
lengte van 100 aminozuren [?])
Op toets: hoe werkt het BLAST algoritme!
Blast is een local alignment. Blast gebruikt “woorden” om het sneller te maken (seeded). Hij
pakt elke keer stukjes sequentie (woord, word size parameter). Die stukjes worden
gemuteerd. Als woorden boven een bepaalde score komen, dan worden ze gebruikt om te
vergelijken met sequenties in de database. Wanneer dan minimaal 2 woorden matchen met
die sequentie, dan wordt de local alignment uitgebreid. Wanneer je dan een goede alignment
hebt (bijvoorbeeld onder e-value cut-off), dan wordt de alignment weergegeven.
, Waarom geen resultaten:
- Lage kwaliteit sequenties
- Je query sequentie is niet-coderend
- Sequentie komt niet voor in database
Let op!
Query cover: geeft aan hoeveel procent van een alignment met elkaar alignt is.
Percentage identity: het percentage overeenkomst van het stuk dat alignt is.
Bijvoorbeeld:
Query:
Query cover:
Identitiy match:
Je query cover is nu 50%, en daarvan is bijvoorbeeld 88% identity.
Bij een erg geconserveerd eiwit kun je alsnog goede resultaten krijgen met een hoge E-
value.
Word size: default is 6
Blast deelt je sequentie op in “woorden” van x letters. Die woorden worden dan gemuteerd,
en er wordt gekeken of de score van die woorden nog boven een bepaalde threshold komen.
Is dat het geval, daar wordt daar meegezocht in de databases. Wanneer minimaal 2
woorden matchen met een sequentie in de database, dan wordt dat als BLAST resultaat
weergegven.
Pairwise alignment:
- The process of lining up two sequences to achieve maximal levels of identity (and
conservation, in the case of amino acid sequences) for the purpose of assessing the
degree of similarity and the possibility of homology.
- Met een pairwise alignment kun je zien wat er precies is veranderd in een sequentie
over de miljoenen jaren heen.
Gaps komen vaak minder vaak voor in secundaire structuren.
Je alignt met eiwitten omdat eiwitten geconserveerder zijn (er zijn verschillende sequenties,
om bij hetzelfde eiwit te komen). Soms kan het ook zijn dat je nucleotide sequenties met
elkaar wilt alignen
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller nicksomsen. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $6.73. You're not tied to anything after your purchase.