Summary

Samenvatting - Bio-informatica - B-KUL-E06E2B

237 views 15 purchases

Course
Bio-informatica (BKULE06E2A)

Institution
Katholieke Universiteit Leuven (KU Leuven)

Deze samenvatting bevat: Part 1 databases, Part 2 data analysis, Linux alle oefeningen notebooks

[Show more]

Last document update: 4 year ago

Preview 9 out of 107 pages

View example

Uploaded on April 29, 2020
File latest updated on May 23, 2020
Number of pages 107
Written in 2019/2020
Type Summary

bio informatica
biomedische
wetenschappen
databanken
linux
notebook
samenvatting

Institution
Katholieke Universiteit Leuven (KU Leuven)
Education
Biomedische wetenschappen
Course
Bio-informatica (BKULE06E2A)

labo

Member since 4 year 152 documents sold

$7.49

Add to cart

Add to wishlist

100% satisfaction guarantee
Immediately available after payment
Both online and in PDF
No strings attached

HOOFDSTUK 1: PART 1 - DATABASES

1.1 ENTREZ GENE

Entrez gene is de NCBI website (https://www.ncbi.nlm.nih.gov/gene). Het is een verzameling van
verschillende databanken (o.a. pubmed, nucleotiden, proteïnen, structuur, …). We kunnen er info over
een gen vinden i.v.m.:
• Gen structuur annotatie (5’ UTR, exonen, intronen, 3’ UTR en alternatieve splicing).
• Functionele annotatie
• Interactie met andere proteïnen
• Homologie, mutante fenotypes, ….

Vb van wat we zien als we TP53 opzoeken. Groene blokjes zijn exonen en lijnen zijn intronen. Licht
groen: maakt deel uit van de UTR (5’ en 3’). Donker groen: exonen die samen de coding sequence
vormen → komen in mRNA → EW. Opmerking: Menselijke genen aangeduid met hoofdletters (TP53). Bij
dierlijke is enkel de eerste met hoofdletter (Tp53). In rode cirkel geeft aan dat er een 8 tal transcripten
(isovormen) zijn t.g.v. alternatieve promotors/splicing. Elk transcript heeft een unieke NM_identifier =
refseq identifier en elk transcript komt overeen met een unieke NP_protein. Examenvraag: hoeveel
isovormen heeft TP53? Antwoord: 15 verschillende mRNA voor de mens gekend. Dit kan je vinden door
naar ‘NCBI Reference Sequences (RefSeq)’ te scrollen en dan zie je 15 verschillende isovormen. Voor de
muis is dit bv 6.

,1.2 NUCLEOTIDE DATABASES

1.2.1-1.2.2 NUCLEOTIDE & GENBANK

Deze databank (in NCBI entrez gene) bevat alle gekende nucleotide sequenties. We kunnen gen naam,
eiwitnaam of gen symbool kunnen ingegeven in de zoekbalk. Ook kan het accession nummer (bv U54412
= een non-refseq entry)  specifiek voor elk gen) ingegeven worden dat meteen naar de juiste record
leidt.

De nucleotide sequentie kan getoond worden via:
• FASTA-formaat:
 eerst informatie, dan sequentie
 Examenvraag: download de FASTA sequentie: druk op FASTA → ‘Send to’: complete record →
File of clipboard en dan in tekst editor plakken.

De nucleotide sequentie (FASTA) wordt altijd
aangeduid beginnend met ‘>’. Je kan ook EW
seq in FASTA zetten. FASTA is een formaat.
• Genbank formaat (.gb): (features staan in woorden
 embl). Het is een voorbeeld van een nucleotide
recorde, het bestaat uit 3 onderdelen:
 Header: loopt tot journal. Bevat o.a. informatie
over organisme, auteur en link naar pubmed
(voor artikel).
 Features: bevatten gen naam, mRNA en CDS-
transcripten (eerste cijfer bij CDS geeft
startpositie aan). Het bevat bv. info over het
annoteren: (zeggen waar genen, repeats …
liggen). Wanneer er meerdere mRNA’s
beschikbaar zijn, dan is dit het gevolg van
alternatieve splicing: het exon wordt op een
andere plaats geknipt. De 5’ UTR bevat info over
hoeveel, hoe gemakkelijk en waar het mRNA tot
translatie komt. Source: geeft weer hoe lang
gen is.

Vb CDS: deze heft een CDS van 5 exonen
die start op base 201 en eindigt op base
224, dan is deze samengevoegd met base
paar 1550 tot 1920 … . De komma’s
duiden op een splicing gebeurtenis tussen

, exonen. En elke ‘..’ stelt de streng de streng van letters tussen twee coördinaten voor.
 Sequentie
Om genbank/ fastafile te downloaden: ga naar ‘send to’ → file → genbank of fasta. Daarna zijn de
bestanden beschikbaar bij downloads op pc en kunnen ze geopend worden in notepad++.
• Graphics: kijken waar genen liggen. Het toont de verschillende mRNAs en CDS

Oefening:
1) Zoek in Pubmed de publicatie met ID: 29764999
2) Gebruik de link naar Nucleotide database.
3) Bekijk het in fasta, genbank en graphics
4) Aan welk gen is het gelinked?
5) Download de ‘genbank formatted flatfile’ en open het in de tekst editor.
6) Download de flatfile m.b.v. DBFetch (format: default i.p.v. fasta)
oplossing: NCBI → pubmed → 29764999 plakken en zoeken → ‘related information’: nucleotide
(refseq) → E2F1 bekomen → bekijken in FASTA, genebank en graphics (kunt kijken waar exonen en
UTRs liggen). Aan welk gen is het gelinked (moet je bij related information naar ‘gene’ gaan kijken)?
Antwoord aan NM_055225.3 (groene transcripten bij view). Genbank formatted flatfile downloaden:
Moet je bij refseq (mRNA and proteins) om NM_055225.3 klikken of via related info bij pubmed → ‘send
to’: Clipboard → Notepad++. Downloaden via DBFetch: Geef volgende in URL balk in: (zorgen dat er
geen spaties staan tussen de link, bij kopiëren link gebeurd dit)
http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_005225.3;format=default&style=raw

1.2.3 EBI: ENA

EBI (= Europees bio-informatica instituut, European db - EMBL/EBI, https://www.ebi.ac.uk/), hier binnen
bevindt ENA (= Europees Nucleotide Archief, https://www.ebi.ac.uk/ena) zich. Hier kun je ook genen
gaan opzoeken maar hier is het accession nummer anders, maar wel nog steeds gelinkt aan de u54469
van in nucleotide (NCBI).

,Oefening:
1) Vind de record van de vorige oefening (eIF4E) in ENA
(https://www.ebi.ac.uk/ena/data/view/U54469)
2) Download het EMBL-formaat
3) Vergelijk EMBL met genbank (text) formaat van NCBI.
Oplossing: Embl: features staan in 2 letters  txt: features staan in woorden.

DBFetch:is een tool waarin je URL kan herinvullen, zodat de sequentie gedownload zal worden.
→http://www.ebi.ac.uk/Tools/dbfetch/dbfetch?db=refseqn;id=NM_000231;format=fasta&style=raw
Vb examenvraag: Haal het raw FASTA-bestand op voor een RefSeq-nucleotide-entry ‘…’.
https://www.ebi.ac.uk/Tools/dbfetch/

,1.2.4 REFSEQ

Vele sequenties komen meer dan één keer (data is redundant) voor in de genbank  Refseq lost dit op.
Refseq is een samengestelde secundaire (= komt uit andere databank) database die tot doel heeft een
uitgebreide, geïntegreerde, niet-redundante (= elke referentiesequentie komt maar één keer voor in
RefSeq) reeks sequenties te bieden. Het zoekt dus info over bepaalde data op in verschillende
databanken en brengt deze samen. Alle nucleotiden en proteïnen zijn dus aan elkaar gelinkt in RefSeq.

Van elk molecule voor één bepaald organisme, in het centrale dogma (DNA, mRNA en eiwitten), is er
een referentie sequentie (refseq) bekomen. Als er bv. 7 mRNA’s zijn voor één gen: 7 records nodig.
Nummers hebben bepaald formaat (moet je kennen!) bv NM_684151:
 eerst 2 letters: geeft de soort aan (NM: mRNA, NT: nucleotide, NP: proteïne)
 6 cijfers. Xp, Xm: niet gecureerd (minder betrouwbaar) door computer voorspeld.
In nucleotide vinden door filter. Als accession nummer = bv NM: refseq. Aantal verschillende NM =
aantal mRNA’s

Vb examenvraag: hoeveel refseq sequenties zijn er gekend voor Tp53?

Oefening:
1) Zoek de nucleotide database voor de record van oefening 1 en filter de records tot Refseq records.
2) Hoeveel alternatieve transcripten zijn er voor Drosophila Melanogaster eIF4E1. Hoeveel
verschillende RefSeq records?
3) Ga terug naar het artikel in Pubmed en verkrijg deze data in de RefSeq databank
Oplossing:
• Eerste manier: Artikel aanklikken (NM_....) in refseq → genbankformaat. Er zit maar één mRNA
meer in elke record. Er zijn 9 records → 9 alternatieve transcripten.
• Tweede manier: accession nummer in nucleotide ingeven → pubmed → nucleotide refseq

,1.4 PROTEIN DATABASE

Deze databanken kunnen gebruikt worden om AZ sequenties op te zoeken. Enkele vbn zijn: NCBI protein,
Swissprot en 3D structures.

1.4.1 PROTEÏNE SEQUENTIE

Eiwitsequenties in databases kunnen worden afgeleid uit de vertaling van nucleotidesequenties
(secundaire databases). Twee vbn van proteïne data bases zie hieronder.

LINK NAAR HET PROTEIN: De info hier komt van
de translatie van nucleotiden sequenties. Door
in NCBI bij refseq op NP_... te klikken. Ja kan via
FASTA de AZ sequentie eruit halen.

UNIPROT (OF SWISSPROT): Uniprot KB
(https://www.uniprot.org/uniprot/). Dit is een
samengestelde database. Je kan hier ook via
NCBI in geraken: dit door op nummer bij
UniProtKB/Swiss-Pro te klikken.

1.4.1.1 SWISSPROT OF UNIPROT

Een voorbeeld voor Swiss prot: TP53_HUMAN, swissprot entry = P04637 → open klikken → Dan zie je
volgende zaken:
• PTM: post-translation modification
• Function: ‘features’: metalbinding: bindt op plaats 88 en 59
• GO: gene-ontology: functie eiwit (binding) en proces (zuurstoftransport)
• Record downloaden: add to basket → basket → download:
 voor seq. + features: tekst
 alleen sequentie van eiwit: fasta
 alleen features downloaden: GFF- formaat

,Je kan de AZ sequentie van het proteïne dat je net opgezocht hebt als GFF Formaat downloaden: Dit kan
via ‘format’ → GFF. Bij dit formaat is elke rij is een feature, elke kolom = specifieke info. Het bestaat
altijd uit 9 kolommen:
• Eerste kolom: staat de naam van de sequentie
• Tweede kolom : afkomst feature source
• Derde kolom: type feature
• Vierde kolom: start
• Vijfde kolom: end
• Negende kolom: free text

Tussen 2 kolommen staat een tab (\t= code) = delimiter. ##: commentaar toevoegen. Strand: + of -: op
positieve of negatieve strand ligt het gen. Een feature representeert een groep van AZ die voor bepaalde
karakteristieken zorgen of belangrijk zijn voor een functie.

Vb examenvraag: wat is het aantal features? Dan moet je al de rijen tellen met notepad++ door de GFF
op te slaan en vervolgens te openen in notepad++, hier zie je links de lijn nummer (= aantal features).
Opgelet, begint op lijn 3 en niet op 1!

,Oefening 1:
1) Zoek ‘human hemoglobin alpha protein’ in UniprotKB (dit staat er op het examen niet bij waar je dit
moet gaan zoeken). Wat is de entrynaam?
2) Welke formaten zijn er beschikbaar?
3) Sla de sequentie op in FASTA (fasta is nucleotide of EW sequentie) formaat op.
4) Sla GFF formaat op.
Oplossing:
1) Entrynaam = P69905 (https://www.uniprot.org/uniprot/P69905)
2) Text, FASTA (canonical), XML, RDF/XML, GFF
3) Dit via basket → Download
4) Dit via basket → Download

Oefening 2:
1) Zoek in Pubmed (https://www.ncbi.nlm.nih.gov/pubmed/) de paper ‘The DCC gene has a role in cellular
differentation and colorectal tumorigenesis. Hendrick et al. 1994’ en geef de Pubmed ID
2) Vind de Swiss-Prot entry van de DCC precursor. Welke residues zorgen voor de signaalsequentie?
Oplossing:
1) Doe dit via google, PMID: 7926722
2) Link in Pubmed naar gene → NM_005215.4 → P43146 (link naar swissprot,
https://www.uniprot.org/uniprot/P43146 ). → Naar PTM processing gaan → Signal peptide: 1-25 →
dus AZ 1-25 zorgt voor de signaal sequentie.

, 1.4.2 PROTEÏNE STRUCTUUR

‘3D structures’  Te vinden op NCBI: 1HMF (https://www.ncbi.nlm.nih.gov/Structure/pdb/1HMF).
Structuren kan je dan ook gaan downloaden bv , stel mutaties, kijken of de structuur zal veranderen.

Oefening 1: Kies een gen/EW → SOX9 → Hoeveel mRNAs? Functie? FASTA van 1 mRNA, fasta van EW,
structuur beschikbaar, annotaed domeinen in swissprot?
Oplossing: Heeft maar 1 mRNA (maar 1 refseq NM_000346.4) → Klik om de NM nummer en vervolgens
op FASTA, download de sequentie via send file to. Functions as tumor Suppressor in Osteosarcoma by
Targeting Sox9 (is dus een transcriptie factor). Structuur: bij 3D structure, we zien date er een structuur
beschikbaar is. FASTA van EW door via refseq en dan NP_000337.1 openen → FASTA downloaden via
send to. Annotated domains: Uniprotkb → sox9 intikken (https://www.uniprot.org/uniprot/P48436) →
Human nemen → Topics linkse blauwe kader → PTM: Processing → DNA binding → Domains compos →
Structure kan je hierop ook vinden

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller labo. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $7.49. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

48756 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling

Popular Universities in the United States

Popular books

Find notes and summaries for these qualifications

Seller