1
LES 1 (Entrez) 11 februari
Databanken
Sequentiedatabanken
• Entrez gene: NCBI → https://www.ncbi.nlm.nih.gov/gene
bv tp53 opzoeken → dan krijg je een samenvatting (“summary”) over wat er geweten is van tp53.
Daaronder staat meer info over de genomische plaats en de transcripten van het gen (“genomic
regions, transcripts and products”)
• RefSeq ID voor mRNA begint altijd met “NM_”
• Je kan aan de linker kant ook links terugvinden naar de Genome Browsers
Nog andere zaken die we kunnen terugvinden op de NCBI website:
• gene structure annotation (e.g., 5’UTR/exons/introns/3’UTR and alternative splice forms)
o cfr mRNAs/CDS features from GenBank
o see also genomic databases
• functional annotation (using a controlled vocabulary, namely Gene Ontology)
• gene expression
• interactions with other proteins (physical and genetic interactions)
• mutant phenotypes
• homology
vb TP53 transcripts:
• Each line is a transcript isoform (due to alternative promoters, and alternative splicing) ; look
at the exons, introns, non-coding exons (light greens: 5’UTR, 3’UTR), coding exons (dark
green)
• Each transcript has a unique NM_ identifier = RefSeq identifier
• Each NM transcript corresponds to a unique NP_ protein entry
• More details about each NM/NP and links to the sequence in Entrez Nucleotide are at the
bottom of the Gene page
• Entrez nucleotide = GenBank → staan enkel DNA-sequenties in
, 2
Hier kan je geraken vanuit Entrez Gene door op een mRNA transcript te staan, dan krijg je de
volgende optie; dan kies je voor de GenBank record, de NM-link:
Een andere manier om hier te geraken van Entrez Gene is om naar beneden op de pagina te scrollen
naar “NCBI Reference Sequences (RefSeq)” → hier staan alle isovormen apart weergegeven, je kan
bij de eerste isovorm op de NM-link klikken weer
Nu zit je op Entrez Nucleotide = GenBank (nog steeds op NCBI) → hier vind je de record van het
mRNA met annotatie terug (alle features samen = annotatie)
• Entrez Nucleotide contains all nucleotide sequences (not only RefSeq curated entries)
• Search Nucleotide db with NM_000564
• (After the dot “.” is the version number)
• Zo een Entrez Nucleotide pagina van een mRNA bestaat uit een header, features en
sequentie
FASTA geeft enkel de sequentie van het gen weer (begint altijd
met > dus hier bv >NM_00127…
Graphics: overzicht van de features (waar zitten de exonen,
intronen en andere); er wordt een mRNA sequentie weergegeven
dus daar zitten geen intronen meer in maar er wordt wel
bijgehouden waar de exonen vandaan komen
, 3
RefSeq
• Many sequences were/are represented more than once in GenBank => redundancy
• RefSeq = curated “secondary” database that aims to provide a comprehensive, integrated,
nonredundant set of sequences
o Goal is to provide a reference sequence for each molecule in the central dogma
(DNA, mRNA, and protein)
o each RefSeq represents a single, naturally occurring molecule from one organism
o each sequence is represented once => RefSeq is non-redundant
o Nucleotide and protein sequences in RefSeq are explicitely linked to one another
o RefSeq entries undergo ongoing curation, assuring that the RefSeq entry represents
the most up-to-date state of knowledge regarding a particular DNA, mRNA, or
protein sequence
o Distinct accession number: 2+6 format (2 letters, underscore, six-digit number)
▪ NT_123456 (Genomic contigs), NM_123456 (mRNAs), NP_123456 (Proteins)
▪ XP_123456 (Model mRNAs), XP_123456 (model proteins): computational
predictions
FLATFILE IN “GENBANK FORMAT” (.GB) → = header en features; andere accesion numbers bv
U54469
• Header: accession number, organisme…
• Features: waar zit de coding sequence (CDS) met de posities waar deze zitten
o Vb van EIF4E1
o sequence has a coding sequence (CDS) made up of five exons
▪ first exon begins at base 201 and ends at base 224
▪ then is joined at basepair 1550 until bp 1920, and so forth.
o Each comma in this line represents a splicing event, and each “..” represents the
string of letters between the two coordinates.
o The gene product is eukaryotic initiation factor 4E-II, and the gene name is eIF4E.
9 mRNA isovormen (paars)
Rood = NP’s = eiwitten die
worden gecodeerd hierdoor
• Sequence
o FASTA formaat: > identifier van de sequentie en dan na een
“enter” staat de sequentie
o Zowel nucleotide als aminozuursequenties
In het voorbeeld van EIF4E1 ga ja weer vanuit Entrez Gene naar Entrez Nucleotide;
daar kan je de sequentie downloaden als (onder andere) GenBank formaat
, 4
TEXT EDITOR
Nadat je de sequentie in GenBank formaat hebt gedownload (je kan hetzelfde doen maar dan voor
de FASTA sequentie), open je je text editor = Notepad++. Via ctrl+o kan je de sequentie openen. Via
ctrl+s kan je deze sequentie opslaan (.gb en evt ook nog .txt erachter zetten)
Europese databank: EMBL/EBI
Komt wat overeen met NCBI (entrez gene)
Heeft een interessante tool = DBFETCH : je kan een FASTA sequentie downloaden met een URL
http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_000231;format=fasta&s
tyle=raw → deze kan je nu van je browser in je computer krijgen door alles te selecteren en te
plakken in de text editor (ctrl+a; ctrl+c; ctrl+n; ctrl+v; ctrl+s) of rechter muis en “save page as”
→ je kan de RefSeq ID veranderen en dan bekom je de FASTA van die sequentie (kan heel nuttig zijn
om in een code om 1000 sequenties te downloaden
Europese databank: ENA (European Nucleotide Archive)
Hier kan je accession numbers van nucleotide sequenties ingeven
Exercise
Opgave:
• Find publication in PubMed with PMID 29764999
• Explore the Gene and Nucleotide(RefSeq) links in the “Related Information”
o Which gene is it linked to?
• There is only one transcript for this gene. Go to Nucleotide, and display Fasta, GenBank, and
Graphics
• Download GenBank formatted flatfile
• Download flatfile using DBFetch (use format=default)
• Open in text editor (NotePad++)
Uitwerking:
• Via de NCBI website de PMID ingeven met als filter pubmed ipv gene of nucleotide
o
o
o Rechts staan verschillende links, hier voor “Related information” kiezen. Dan zowel
klikken op de link “Gene” als de link “Nucleotide (RefSeq)”
o Deze pubmed ID is gelinkt aan het E2F transcriptiefactor 1; dit is een eiwit coderend
gen. Het eiwit dat wordt gecodeerd door dit gen speelt een cruciale rol in de controle
van de celcyclus en werking als tumor suppressor eiwitten
o Het mRNA heeft de volgende ID: NM_005225 → op Entrez Gene zie je dat er maar 1
transcript is
• 1 transcript: hieronder de Fasta, Genbank en Graphics weergegeven: