Entrez gene is de NCBI website (https://www.ncbi.nlm.nih.gov/gene). Het is een verzameling van
verschillende databanken (o.a. pubmed, nucleotiden, proteïnen, structuur, …). We kunnen er info over
een gen vinden i.v.m.:
• Gen structuur annotatie (5’ UTR, exonen, intronen, 3’ UTR en alternatieve splicing).
• Functionele annotatie
• Interactie met andere proteïnen
• Homologie, mutante fenotypes, ….
Vb van wat we zien als we TP53 opzoeken. Groene blokjes zijn exonen en lijnen zijn intronen. Licht
groen: maakt deel uit van de UTR (5’ en 3’). Donker groen: exonen die samen de coding sequence
vormen → komen in mRNA → EW. Opmerking: Menselijke genen aangeduid met hoofdletters (TP53). Bij
dierlijke is enkel de eerste met hoofdletter (Tp53). In rode cirkel geeft aan dat er een 8 tal transcripten
(isovormen) zijn t.g.v. alternatieve promotors/splicing. Elk transcript heeft een unieke NM_identifier =
refseq identifier en elk transcript komt overeen met een unieke NP_protein. Examenvraag: hoeveel
isovormen heeft TP53? Antwoord: 15 verschillende mRNA voor de mens gekend. Dit kan je vinden door
naar ‘NCBI Reference Sequences (RefSeq)’ te scrollen en dan zie je 15 verschillende isovormen. Voor de
muis is dit bv 6.
,1.2 NUCLEOTIDE DATABASES
1.2.1-1.2.2 NUCLEOTIDE & GENBANK
Deze databank (in NCBI entrez gene) bevat alle gekende nucleotide sequenties. We kunnen gen naam,
eiwitnaam of gen symbool kunnen ingegeven in de zoekbalk. Ook kan het accession nummer (bv U54412
= een non-refseq entry) specifiek voor elk gen) ingegeven worden dat meteen naar de juiste record
leidt.
De nucleotide sequentie kan getoond worden via:
• FASTA-formaat:
eerst informatie, dan sequentie
Examenvraag: download de FASTA sequentie: druk op FASTA → ‘Send to’: complete record →
File of clipboard en dan in tekst editor plakken.
De nucleotide sequentie (FASTA) wordt altijd
aangeduid beginnend met ‘>’. Je kan ook EW
seq in FASTA zetten. FASTA is een formaat.
• Genbank formaat (.gb): (features staan in woorden
embl). Het is een voorbeeld van een nucleotide
recorde, het bestaat uit 3 onderdelen:
Header: loopt tot journal. Bevat o.a. informatie
over organisme, auteur en link naar pubmed
(voor artikel).
Features: bevatten gen naam, mRNA en CDS-
transcripten (eerste cijfer bij CDS geeft
startpositie aan). Het bevat bv. info over het
annoteren: (zeggen waar genen, repeats …
liggen). Wanneer er meerdere mRNA’s
beschikbaar zijn, dan is dit het gevolg van
alternatieve splicing: het exon wordt op een
andere plaats geknipt. De 5’ UTR bevat info over
hoeveel, hoe gemakkelijk en waar het mRNA tot
translatie komt. Source: geeft weer hoe lang
gen is.
Vb CDS: deze heft een CDS van 5 exonen
die start op base 201 en eindigt op base
224, dan is deze samengevoegd met base
paar 1550 tot 1920 … . De komma’s
duiden op een splicing gebeurtenis tussen
, exonen. En elke ‘..’ stelt de streng de streng van letters tussen twee coördinaten voor.
Sequentie
Om genbank/ fastafile te downloaden: ga naar ‘send to’ → file → genbank of fasta. Daarna zijn de
bestanden beschikbaar bij downloads op pc en kunnen ze geopend worden in notepad++.
• Graphics: kijken waar genen liggen. Het toont de verschillende mRNAs en CDS
Oefening:
1) Zoek in Pubmed de publicatie met ID: 29764999
2) Gebruik de link naar Nucleotide database.
3) Bekijk het in fasta, genbank en graphics
4) Aan welk gen is het gelinked?
5) Download de ‘genbank formatted flatfile’ en open het in de tekst editor.
6) Download de flatfile m.b.v. DBFetch (format: default i.p.v. fasta)
oplossing: NCBI → pubmed → 29764999 plakken en zoeken → ‘related information’: nucleotide
(refseq) → E2F1 bekomen → bekijken in FASTA, genebank en graphics (kunt kijken waar exonen en
UTRs liggen). Aan welk gen is het gelinked (moet je bij related information naar ‘gene’ gaan kijken)?
Antwoord aan NM_055225.3 (groene transcripten bij view). Genbank formatted flatfile downloaden:
Moet je bij refseq (mRNA and proteins) om NM_055225.3 klikken of via related info bij pubmed → ‘send
to’: Clipboard → Notepad++. Downloaden via DBFetch: Geef volgende in URL balk in: (zorgen dat er
geen spaties staan tussen de link, bij kopiëren link gebeurd dit)
http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_005225.3;format=default&style=raw
1.2.3 EBI: ENA
EBI (= Europees bio-informatica instituut, European db - EMBL/EBI, https://www.ebi.ac.uk/), hier binnen
bevindt ENA (= Europees Nucleotide Archief, https://www.ebi.ac.uk/ena) zich. Hier kun je ook genen
gaan opzoeken maar hier is het accession nummer anders, maar wel nog steeds gelinkt aan de u54469
van in nucleotide (NCBI).
,Oefening:
1) Vind de record van de vorige oefening (eIF4E) in ENA
(https://www.ebi.ac.uk/ena/data/view/U54469)
2) Download het EMBL-formaat
3) Vergelijk EMBL met genbank (text) formaat van NCBI.
Oplossing: Embl: features staan in 2 letters txt: features staan in woorden.
DBFetch:is een tool waarin je URL kan herinvullen, zodat de sequentie gedownload zal worden.
→http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_000231;format=fasta&style=raw
Vb examenvraag: Haal het raw FASTA-bestand op voor een RefSeq-nucleotide-entry ‘…’.
https://www.ebi.ac.uk/Tools/dbfetch/
,1.2.4 REFSEQ
Vele sequenties komen meer dan één keer (data is redundant) voor in de genbank Refseq lost dit op.
Refseq is een samengestelde secundaire (= komt uit andere databank) database die tot doel heeft een
uitgebreide, geïntegreerde, niet-redundante (= elke referentiesequentie komt maar één keer voor in
RefSeq) reeks sequenties te bieden. Het zoekt dus info over bepaalde data op in verschillende
databanken en brengt deze samen. Alle nucleotiden en proteïnen zijn dus aan elkaar gelinkt in RefSeq.
Van elk molecule voor één bepaald organisme, in het centrale dogma (DNA, mRNA en eiwitten), is er
een referentie sequentie (refseq) bekomen. Als er bv. 7 mRNA’s zijn voor één gen: 7 records nodig.
Nummers hebben bepaald formaat (moet je kennen!) bv NM_684151:
eerst 2 letters: geeft de soort aan (NM: mRNA, NT: nucleotide, NP: proteïne)
6 cijfers. Xp, Xm: niet gecureerd (minder betrouwbaar) door computer voorspeld.
In nucleotide vinden door filter. Als accession nummer = bv NM: refseq. Aantal verschillende NM =
aantal mRNA’s
Vb examenvraag: hoeveel refseq sequenties zijn er gekend voor Tp53?
Oefening:
1) Zoek de nucleotide database voor de record van oefening 1 en filter de records tot Refseq records.
2) Hoeveel alternatieve transcripten zijn er voor Drosophila Melanogaster eIF4E1. Hoeveel
verschillende RefSeq records?
3) Ga terug naar het artikel in Pubmed en verkrijg deze data in de RefSeq databank
Oplossing:
• Eerste manier: Artikel aanklikken (NM_....) in refseq → genbankformaat. Er zit maar één mRNA
meer in elke record. Er zijn 9 records → 9 alternatieve transcripten.
• Tweede manier: accession nummer in nucleotide ingeven → pubmed → nucleotide refseq
,1.4 PROTEIN DATABASE
Deze databanken kunnen gebruikt worden om AZ sequenties op te zoeken. Enkele vbn zijn: NCBI protein,
Swissprot en 3D structures.
1.4.1 PROTEÏNE SEQUENTIE
Eiwitsequenties in databases kunnen worden afgeleid uit de vertaling van nucleotidesequenties
(secundaire databases). Twee vbn van proteïne data bases zie hieronder.
LINK NAAR HET PROTEIN: De info hier komt van
de translatie van nucleotiden sequenties. Door
in NCBI bij refseq op NP_... te klikken. Ja kan via
FASTA de AZ sequentie eruit halen.
UNIPROT (OF SWISSPROT): Uniprot KB
(https://www.uniprot.org/uniprot/). Dit is een
samengestelde database. Je kan hier ook via
NCBI in geraken: dit door op nummer bij
UniProtKB/Swiss-Pro te klikken.
1.4.1.1 SWISSPROT OF UNIPROT
Een voorbeeld voor Swiss prot: TP53_HUMAN, swissprot entry = P04637 → open klikken → Dan zie je
volgende zaken:
• PTM: post-translation modification
• Function: ‘features’: metalbinding: bindt op plaats 88 en 59
• GO: gene-ontology: functie eiwit (binding) en proces (zuurstoftransport)
• Record downloaden: add to basket → basket → download:
voor seq. + features: tekst
alleen sequentie van eiwit: fasta
alleen features downloaden: GFF- formaat
,Je kan de AZ sequentie van het proteïne dat je net opgezocht hebt als GFF Formaat downloaden: Dit kan
via ‘format’ → GFF. Bij dit formaat is elke rij is een feature, elke kolom = specifieke info. Het bestaat
altijd uit 9 kolommen:
• Eerste kolom: staat de naam van de sequentie
• Tweede kolom : afkomst feature source
• Derde kolom: type feature
• Vierde kolom: start
• Vijfde kolom: end
• Negende kolom: free text
Tussen 2 kolommen staat een tab (\t= code) = delimiter. ##: commentaar toevoegen. Strand: + of -: op
positieve of negatieve strand ligt het gen. Een feature representeert een groep van AZ die voor bepaalde
karakteristieken zorgen of belangrijk zijn voor een functie.
Vb examenvraag: wat is het aantal features? Dan moet je al de rijen tellen met notepad++ door de GFF
op te slaan en vervolgens te openen in notepad++, hier zie je links de lijn nummer (= aantal features).
Opgelet, begint op lijn 3 en niet op 1!
,Oefening 1:
1) Zoek ‘human hemoglobin alpha protein’ in UniprotKB (dit staat er op het examen niet bij waar je dit
moet gaan zoeken). Wat is de entrynaam?
2) Welke formaten zijn er beschikbaar?
3) Sla de sequentie op in FASTA (fasta is nucleotide of EW sequentie) formaat op.
4) Sla GFF formaat op.
Oplossing:
1) Entrynaam = P69905 (https://www.uniprot.org/uniprot/P69905)
2) Text, FASTA (canonical), XML, RDF/XML, GFF
3) Dit via basket → Download
4) Dit via basket → Download
Oefening 2:
1) Zoek in Pubmed (https://www.ncbi.nlm.nih.gov/pubmed/) de paper ‘The DCC gene has a role in cellular
differentation and colorectal tumorigenesis. Hendrick et al. 1994’ en geef de Pubmed ID
2) Vind de Swiss-Prot entry van de DCC precursor. Welke residues zorgen voor de signaalsequentie?
Oplossing:
1) Doe dit via google, PMID: 7926722
2) Link in Pubmed naar gene → NM_005215.4 → P43146 (link naar swissprot,
https://www.uniprot.org/uniprot/P43146 ). → Naar PTM processing gaan → Signal peptide: 1-25 →
dus AZ 1-25 zorgt voor de signaal sequentie.
, 1.4.2 PROTEÏNE STRUCTUUR
‘3D structures’ Te vinden op NCBI: 1HMF (https://www.ncbi.nlm.nih.gov/Structure/pdb/1HMF).
Structuren kan je dan ook gaan downloaden bv , stel mutaties, kijken of de structuur zal veranderen.
Oefening 1: Kies een gen/EW → SOX9 → Hoeveel mRNAs? Functie? FASTA van 1 mRNA, fasta van EW,
structuur beschikbaar, annotaed domeinen in swissprot?
Oplossing: Heeft maar 1 mRNA (maar 1 refseq NM_000346.4) → Klik om de NM nummer en vervolgens
op FASTA, download de sequentie via send file to. Functions as tumor Suppressor in Osteosarcoma by
Targeting Sox9 (is dus een transcriptie factor). Structuur: bij 3D structure, we zien date er een structuur
beschikbaar is. FASTA van EW door via refseq en dan NP_000337.1 openen → FASTA downloaden via
send to. Annotated domains: Uniprotkb → sox9 intikken (https://www.uniprot.org/uniprot/P48436) →
Human nemen → Topics linkse blauwe kader → PTM: Processing → DNA binding → Domains compos →
Structure kan je hierop ook vinden
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper labo. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €6,99. Je zit daarna nergens aan vast.