Hoofdstuk 1
NCBI = US based organisatie die referentie databases bevat
➢ MedGen is een NBI database die meer info bevat over oorzaak en fenotype van ziekten
➢ Gene database, bevat informatie over genen
➢ Genbank, bevat een collectie van DNA sequences
➢ dbSNP, database for nucleotide varieties
UniProt = protein/eiwit database, is een combinatie van Swiss-Prot en TrEMBL databases.
Swiss-Prot bevat handmatig samengestelde gegevens van zeer hoge kwaliteit (d.w.z. experimenteel
bewezen of computer-voorspelde) gegevens die door mensen zijn beoordeeld, geverifieerd,
gecatalogiseerd of bijgewerkt), maar het was onmogelijk om te bewaren met de
high-throughput-methoden zoals sequencing van het hele genoom en proteomics.
Bijgevolg, geautomatiseerde (lagere kwaliteit) eiwitannotatie wordt geleverd door TrEMBL. Bij het
retourneren van zoekresultaten van UniProt, maakt de resultatenpagina het nog steeds mogelijk om te
filteren tussen de curated (Swiss-Prot) en not curated resultaten (TrEMBL)
*curate = selected, organized, and presented using professional or expert knowledge.
1
,Hoofdstuk 2
Dotplots zijn een grafische weergave van sequentie-identiteit (d.w.z. gelijkenis). Ze tonen alle mogelijke
vergelijkingen die gemaakt kunnen worden tussen twee reeksen door de ene over de andere te
schuiven en controleren of twee tekens (of meerdere tekens voor woordgroottes > 1) overeenkomen.
Exercise 2.1
1. De diagonale delen geven aan dat de reeksen overeenkomen in die
regio's. De gaps geven aan dat de sequenties in die regio's niet
overeenkomen. Aan het einde van de alignment, de verticale beweging
geeft ofwel een deletie in reeks 2 of een insertie in reeks 1 aan
2. Een deel van reeks 1 komt overeen met reeks 2 aan
een heel andere locatie. Verder zijn de sequenties identiek. Dit geeft
aan dat translocatie. Je kunt dit ofwel interpreteren als een deel van
sequentie 1 die stroomafwaarts in
de sequentie, of een deel van sequentie 2 dat stroomopwaarts is
verplaatst.
3. Ten eerste, de middelste diagonaal, beginnend in de
linkerbenedenhoek helemaal tot aan de rechterbovenhoek, geeft aan
dat het alignment 2 identieke sequenties zijn. De andere diagonalen,
uitgespreid in de dotplot, geven aan dat de rij een of meer repeats
bevat . Deze herhalingen komen meerdere keren overeen, wat
resulteert in een aantal kleinere lijnen.
4. Hoewel het een repeat zou kunnen zijn, kijken we eigenlijk naar
een regio met een lage complexiteit. Dit is het resultaat van
redundantie in de reeks, d.w.z. een gebied waar we een veel van
dezelfde aminozuur (korte) patronen die naast elkaar
voorkomen. Je kan het ook zien als een repeat die meerdere
keren achter elkaar voorkomt.
2
,Exercise 2.2
From the UniProt website, retrieve the protein sequence from histone H1.4 from human and mouse in
FASTA format.
Use the emboss dottup tool to construct a dot plot. Do you see similarities between both sequences?
Vary the word size from 5 to 10. What happens and why?
De woordgrootte bepaalt hoe lang een identiek stuk aminozuren of nucleotiden moet zijn
om een punt op het diagram te genereren. Langere perfecte matches zijn zeldzamer dan korte, maar
korte hits kunnen gewoon ruis zijn. Woordgrootte 10 laat duidelijk zien dat de reeksen erg zijn
vergelijkbaar, omdat er veel identiteit is. De meeste regio's zijn zeer geconserveerd met een aantal
zeer lokale uitzonderingen, waar de lijn wordt onderbroken → Gabs. De woordgrootte verkleinen maakt
de gegevens groffer omdat sommige aminozuurcombinaties vrij vaak lijken voor te komen in de genen.
3
,Exercise 2.3
Of the following sequences, sequence B evolved from sequence A. Draw the dot plot of sequences A
and B (wordsize 10) and based on the dot plot describe what happened to sequence A to get to
sequence B.
1. 1e gap is een deletie in B → Sequentie B heeft niet de aminozuren die in regio 100-200 in
sequentie A voorkomen. Deze regio werd verwijderd in volgorde B
2. 2e gap is een duplicatie → De aminozuren in regio 300-350 in volgorde A verschijnen twee
keer achter elkaar in volgorde B (bij regio's 200-250 en 250-300). Daarom werd dit gebied
gedupliceerd in sequentie B
3. 3e gap is een translocatie → De aminozuren die voorkomen in regio 500-550 in sequentie A
zijn aanwezig in regio 600-650 in sequentie B. Dit is een duidelijk voorbeeld van een
translocatie.
4
,Exercise 2.4
Using the default parameters, perform a global and local alignment of following two sequences.
Needleman-Wunsch
Smith-Waterman
5
, Exercise 2.5
Alignment van humaan UDP-galactose transporter-gerelateerd eiwit 1 en UDP-galactose
transporter homoloog 1 van Neosartorya fumigata
In deze oefening willen we 2 eiwitten die niet op elkaar lijken op één lijn brengen: een eiwit uit
schimmels met 415 aminozuren en een menselijk eiwit met 322 aminozuren. We kiezen er daarom
voor local alignment.
in het algemeen gebruikt de opmaakregel een spatie voor een mismatch of een gap, een ’.’ voor elke
kleine positieve score, een ’:’ voor een overeenkomst die meer dan 1,0 scoort, en een ’|’ voor een
identiteit waarbij beide sequenties hetzelfde hebben residu ongeacht de score. Deze kunnen behouden
blijven of bij toeval aanwezig zijn. Zoals je kunt zien, is de uitlijning geeft geen duidelijk geconserveerd
gebied tussen de twee sequenties.
➢ Mismatch / Gap → Spatie
➢ Een kleine positieve score → “.”
➢ Voor een overeenkomst die > 1,0 → “ : “
➢ Voor een identiteit waarbij beide seq hetzelfde residu hebben → “ J “
6