Bioinformatics = study of informatic processes in biotic systems
Bioinformatics data analysis
- Genomics: Sequence all of the DNA of one organism
- Transcriptomics: Sequence all of the mRNA in an organism/tissue/cell
- Proteomics: Sequence all of the proteins in an organism/tissue/cell
- Metagenomics: Sequence the DNA of all organisms in a sample → take a sample of sea water
for example → micro-organisms → DNA
- Metatranscriptomics: Sequence the mRNA of all organisms in a sample
- Metaproteomics: Sequence the proteins of all organisms in a sample
Research naar microbiome – all microbes
Metabolomics = looking at metabolites
BLAST
- When two sequence are similar → related
- When two genes are similar → same function
- it splits up your (query) in words and will look it up on the website
k-mers
- Sequences can be divided into shorter subsequences or k-mers (consist of k nuleotides or
amino acids)
- K-mers bestaan uit k (dus hoeveelheid) nucleotiden of aminozuren
- Als we een queryreeks opsplitsen in k-meren van dezelfde lengte, kunnen we snel alle
databasereeksen identificeren die ze bevatten
-
- Maar: we beperken ons tot exacte matches dus de k-mer moet precies geraakt worden. In de
evolutie werkt dit dus niet zo want dingen evolueren. Dus we vinden niet altijd 100%
matches.
- 60/80 % overeenkomend → niet het zelfde maar misschien wel related
-
Als we een bijvoorbeeld een nieuwe bacterie vinden die nog nooit gesequenced is, dan willen
we weten waar in de tree of life het ongeveer thuis hoort.
,Pairwise sequence alignments
= Soms matchen de letters perfect en soms matchen de letters helemaal niet en soms heb je een
opening. Je kan dit voor eiwit- en DNA sequenties doen. → duurt lang
Eerst doen we een index search, dus kleine stukjes die precies gelijk aan elkaar zijn. Hierna alleen de
dingen in de database gebruiken die deze kleine stukjes bevatten. Met deze maken we pairwise
allignments. Hierdoor kunnen we de meeste sequenties heel snel wegstrepen en hoeven we alleen
pairwise allingments te maken van de potentiële hits
Sequence alignment is a way of arranging protein (or DNA) sequences to identify regions of similarity
that may be a consequence of evolutionary relationships between the sequences
BLAST – basic local alignment search tool
- Blast vindt vergelijkbare sequenties
- Query: volgorde waarmee we de database doorzoeken – wat we in de search bar zoeken
- Hit of subject: vergelijkbare volgorde gevonden in data base
- Heuristic = a practical method that is not guaranteed to be optimal, but sufficient for the
present goals.
Blast algorithm
1. Identificeer alle woorden (in lengte W) in de query
W = 3 is eiwit en W=11 is DNA
Goeie woorden er uit pakken
Dit is bij elkaar 18
2. Snel gelijke woorden in de database vinden
Je wil hoge score in woorden bij elkaar vinden, en op elkaar lijken
De lager je neighorhood treshold de meer verschillen je toelaat.
3. Vervolgens als je een match hebt → sequence alignment
HSP: regio die kan worden uitgelijnd met een score boven een
bepaalde drempel
In de subject zit een potentiele hit. Dus er wordt een alignment gemaakt links en rechts van
de k-mer en wordt er gekeken hoe goed de andere stukken buiten deze k-mer scoren. Elk
stukje dat gelijk wordt de high-scoring segment pair(HSP) genoemd.
,Heuristic; Er kan theoretisch gezien een betere match zijn, maar dit scheelt tijd.
Als de score omhoog gaat rondom de match dan is het een match, als het consistent naar beneden
gaat is het niet meer de match.
Globale en lokale sequence aligments
Zijn sequenties geheel of gedeeltelijk homoloog (=behoren ze tot dezelfde ‘familie’, hebben ze een
gemeenschappelijke voorouder)
Lokale alignment
– Je zoekt naar lokale gelijkheden
– Vindt de optimale sub-uitlijning binnen twee sequenties
– Gedeeltelijke homologen zijn gerelateerd aan elkaar
Globale alignment
– Lijnt twee sequenties van begin tot eind uit – dus helemaal gelijk
– Als je weet dat twee sequenties volledige homologen zijn, b.v. als gevolg van gen duplicatie
How could you alter your BLAST search to find only closely related hits?
Long kmer/word length(lange kmer → en ze matchen dan nog steeds, the longer your initial exact
match has to ber), high neighborhood threshold
Running blast
Blast input: query sequenties
Blast output: hits
BLAST flavors: direct searches
-> je stopt nucleotiden erin en je zoekt naar nucleotiden. Dus je stopt er een DNA sequentie in en je
wil DNA sequenties terugkrijgen als een hit.
Nucleotide-nucleotide zoekopdrachten
– Nucleotide database & nucleotide query
– blastn, DNA in DNA uit (standaard: W = 11 nucleotiden) • Vind homologe genen in verschillende
soorten
– Megablast (standaard: W = 28 nucleotiden)
, • Ontworpen om efficiënt langere uitlijningen te vinden tussen zeer vergelijkbare
nucleotidesequenties
• Beste tool om zeer identieke treffers voor een zoekopdrachtreeks te vinden
• Bijvoorbeeld: vind reeksen van dezelfde soort
– Niet-aaneengesloten megablast / discontiguous words
• Maakt gebruik van niet-aaneengesloten woorden (bijv. W = 11 nucleotiden: AT-GT-AC-CG-CG-T, dit
is eigenlijk een lengte van 16 maar het negeert elke 3e positie)
• Dit kan het zoeken bijvoorbeeld richten op codons (het derde nucleotide van codons is minder
geconserveerd door de degeneratie van de genetische code, wobble base)
• Beste hulpmiddel om nucleotide-nucleotide hits op grotere evolutionaire afstanden te vinden voor
eiwit coderende querysequenties, dus minder gerelateerd aan elkaar
Eiwit-eiwit zoekopdrachten
- Eiwitdatabase & eiwitquerysequenties
- blastp (standaard: W = 3 aminozuren)
• Vind homologe eiwitten in verschillende soorten (het eerste stuk over blast)
BLAST flavors: translated searches
• We kunnen het behoud van eiwitsequenties benutten bij het uitlijnen van DNA-sequenties door
middel van vertaalde zoekopdrachten. Dus als je een DNA sequentie gebruikt en je wil weten wat
voor soort eiwitten eruit komen dus welke eiwitten gelijk zijn aan het DNA wat je gebruikt.
• Dit maakt gevoeligere zoekopdrachten mogelijk die homologie op grotere evolutionaire afstanden
detecteren
- bijvoorbeeld: homologe genen in verre verwante soorten
• blastx (query is DNA sequence, maar als hit protein seqeunce)en tblastx vertalen eerst de
zoekopdracht van nucleotide naar eiwit voordat ze woorden met een hoge score identificeren
• tblastn(protein sequence maar je wil dna als een hit) en tblastx gebruiken een vertaalde database
van nucleotidesequenties die zijn opgeslagen als eiwitten
Blast website
identity = same amino acid in the same spot
positives = positive scoring amino acid, identity + all amino acids in the alignment that are not
identical but similar (not reported for DNA search) (want de mutatie doet niet veel voor verandering
eiwit)
E-value = howmany hits you expect of similar or higher quality, if it was totally random/so not related
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller fiekedezwart. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.10. You're not tied to anything after your purchase.