, 8.4 Gaps and Gap Penalties ............................................................................................................. 151
8.5 Align using EMBOSS................................................................................................................... 152
Les 9: GENE LISTS FROM EXPRESSION ANALYSIS ................................................................................ 153
9.1 UCSC cell browser :.................................................................................................................... 153
9.2 Google: gprofiler........................................................................................................................ 159
9.3 G:Convert................................................................................................................................... 164
9.4 Biomart Ensembl tool ................................................................................................................ 169
9.5 Attributes................................................................................................................................... 170
9.6 BioMart ...................................................................................................................................... 174
9.7 IUPAC ......................................................................................................................................... 179
Les 10 Programming in Python............................................................................................................ 183
Les 11: Phyton programming deel 2.................................................................................................... 198
11.1 Lijsten, dictionaries & de genetische code .............................................................................. 198
11.2 Pandas ..................................................................................................................................... 201
11.3 Uitwerking programming oefeningen ..................................................................................... 214
2
,Cursus Bio-informatica 2020-2021
(Uitgetypt van wat in de les gezegd wordt, zie slides ook voor wat hij zelf toont)
LES 1- ENTREZ 11/02/2021
1.1 NCBI (Amerikaanse databank)
Pubmed→ zoeken op Gene (vb TP53= codeert voor p53
gen)
Verschillende species te zien waar het voorkomt, o.a. Homo
Sapiens
Openen van TP53 Homo Sapiens geeft volgende resultaten:
de namen waar het nog onder voor kan komen aangezien
verschillende wetenschappers dit kunnen ontdekken op
ongeveer hetzelfde tijdstip en dit een andere naam kunnen
geven. Ook een korte samenvatting waar weergegeven wordt wat het is en wat het doet etc.
Bij verder scrollen naar onder kom je volgende afbeelding tegen.
Lijntjes geven de verschillende isovormen aan (in dit geval 15) en
dit wordt aangegeven door een RefSeq nummer (=NM, waarbij de
M staat voor mRNA). Er zijn in dit geval 15 vormen gekend, maar
het kan zijn dat er meer isovormen bestaan vb 16 en de 16e
gewoon nog niet ontdekt is. Elk van de mRNA’s is ook gelinkt
met een eiwti en elk eiwit heeft een NP RefSeq ID (Protein).
Sommige eiwitten van verschillende mRNA’s kunnen toch
hetzelfde zijn aangezien ze dezelfde coding exonen gaan
gebruiken (= donker groene blokjes). In de exonen zijn er nog
twee opties: 1) exonen die een UTR (Niet vertaalde regio) gaan
vormen. CDS stopt waar donker groen stopt. (2?) Sommige
mRNA’s zijn anders dan andere omdat ze een andere translatiestart hebben waardoor ze
onderling gaan verschillen van elkaar. Blauwe balk bovenaan afbeelding toont ons waar het
ligt. (chr 17, plaats 7 milj = plaats TP53)
3
,Rood omcirkelde is volledige transcript dat wordt gevormd waarna pijltjes eruit gezwierd zullen
worden omwv splicing (intronen) en donker
groene blokjes (exonen) overblijven. Verticale
streepje aan begin en einde van intron is splice
acceptor en donor.
Mogelijke vragen: - hoeveel mRNA’s worden er gevormd volgens RefSeq? 15
- waar ligt TP53? Chromosoom 17, meer bepaald rond positie 7. 600. 000
Sectie dat gen zal linken met verschillende andere databanken/ genomebrowsers.
Andere databank= entrez nucleotide → staan enkel DNA sequenties in
Onderzoekers plaatsen hier al meerdere jaren hun resultaten in (chromosomen, genen,
genomen)
Als je naar onder scrolt in entrez gene kom je NCBI Ref Seq tegen:
4
, Daar staan alle individuele 15 isovormen met
de links bij. Als je bij mRNA and Protein(s) op 1e nummer klikt= NM_000546.6 kom je op
entrez nucleotide terecht.
Nu vind je de record terug met annotatie met helemaal
beneden de mRNA sequentie met daarboven de features (alle features samen= annotatie)
5
,Ook nog andere features (misc_ feature) die een regio aanduiden; vb. Interaction with DNA.
Entrez record bevat features/ header met informatie over artikels die geleid hebben tot deze
annotatie/ waar ze deze features hebben ontdekt. Hier staat ook bij van welke specie het is
(source), want in nucleotide staat alles wat ooit gevonden is dus ook bv Xenopus, Drosophilia
etc.
Vb vraag: zoek in entrez tp53 van de muis → eerst via entrez gene naar tp53 van de muis gaan
en vervolgens via NM in nucleotide terecht komen.
Nog een aantal zaken mogelijk: FASTA en graphics
- Graphics: lijkt op entrez gene waar je een overzicht krijgt van opnieuw de exonen en
intronen/ features
6
,mRNA sequentie, intronen zitten hier niet in (= matuur mRNA). Rode deel= NP= eiwit waar
de translatiestart ligt en ook het stopcodon. Eiwit (rood) wordt vertaald over die lengte. Features
zeggen waar het ligt vb van 119 tot 220 → blokje in graphics.
Andere is FASTA= formaat waar enkel de sequentie in zit. Begint steeds met groter dan teken,
dan identifier (= ref seq hier), dan enter gevolgd door sequentie (met line breaks) maar is wel
een streng.
Samenvattend RefSeq:
- Elke refseq vertegenwoordigt een natuurlijk voorkomend molecule van 1 organisme.
- Elke sequentie komt ook maar 1x voor= niet redundant
- Ondergaan voortdurend curaties, wat wil zeggen dat er veranderingen kunnen optreden
tov vorig jaar bv. (vb vorig jaar 14 isovormen en dit jaar 15)
- Karakteristieke code (NT, NM, NP) met _ en gevolgd door een nummer dus bv
NP_XXX = refseq van een eiwit
- XM en XP= mogelijk dat deze bestaan maar is nog niet zeker
7
,Ander voorbeeld gen in een ander organisme: EIF4EI in Drosophilia Melanogaster
Komt van FlyBase nu en niet van NCBI dus nu geen NM nummer maar een FBTR (= FlyBase
transcript)
Bij openen via Entrez Gene:
Klikken op groene balk → opent zodat je isovormen kan zien (9 in totaal). Rood zijn de NP’s
(eiwitten die hiervan gecodeerd worden). De 1e is anders → andere translatiestart, al de anderen
lijken op het eerste zicht dezelfde eiwitsequentie te hebben.
Sequentie downloaden (alles downloaden of FASTA): Send to
Kies complete record als File, kiezen tussen aantal formaten, kies voor Genbank formaat. →
download: sequence.gb
Als je FASTA wil kies dan bij FORMAT voor FASTA (volg zelfde werkwijze om dit in
Notepad ++ te zetten
NOOIT TEXT FILE OPENEN IN WORD!!!!
Dan vervolgens textfile lezer openen: windows Notepad ++ (Mac BBedit)
→ In text editor file openen via downloads
8
, Saven via command S (cntrl+ alt+ s): NM_168333.gb
→ flat file want er staat enkel tekst in (text file) ( niet omdat er eventueel .txt achter zou staan)
FASTA bevat enkel de sequentie en niet de header en features erbij
( Als we gaan kijken naar een genbank formaat dan heeft elk record een header, features en
sequenties. Indien we die file downloaden als tekst file (= flat file= puur tekst), dan is dit een
genbank formaat (.GB)
In genbank zit meer dan enkel RefSeq, die je kan vinden door accession number vb U54…
(staat in header)
Feature table zoals CDS
9
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper lisadebussche65. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €10,49. Je zit daarna nergens aan vast.