100% satisfaction guarantee Immediately available after payment Both online and in PDF No strings attached
logo-home
Bio-informatica cursus $11.24
Add to cart

Class notes

Bio-informatica cursus

1 review
 179 views  9 purchases
  • Course
  • Institution

Volledige uitgeschreven cursus Bio-informatica met screenshots voor uitwerking ('stappenplan') geordend volgens elke les

Preview 10 out of 237  pages

  • May 23, 2021
  • 237
  • 2020/2021
  • Class notes
  • Stein aerts
  • All classes

1  review

review-writer-avatar

By: dittecoopmans • 1 year ago

avatar-seller
KU Leuven
Bio-Informatica
2e Bachelor Biomedische Wetenschappen




Lisa Debussche
Semester 2

,Inhoud
LES 1- ENTREZ 11/02/2021 ...................................................................................................................... 3
1.1 NCBI (Amerikaanse databank) ....................................................................................................... 3
1.2 Europese Databank: EMBL/EBI.................................................................................................... 10
1.3 European Nucleotide Archive (ENA)............................................................................................ 11
1.4 PROTEIN DATABASES................................................................................................................... 13
1.5 Structures .................................................................................................................................... 19
LES 2- GeneOntology 18/02/2021 ......................................................................................................... 20
2.1 Entrez Gene(Pubmed) ................................................................................................................. 20
2.2 Ontology ...................................................................................................................................... 21
2.3 Gene Expression .......................................................................................................................... 32
2.3.1 Gene expression atlas........................................................................................................... 33
2.3.2 Single-cell expression atlas ................................................................................................... 33
2.3.3 Human Cell Atlas (cells.ucsc.edu ?) ...................................................................................... 35
2.4 Phenotype Diseases..................................................................................................................... 36
2.4.1 OMIM ................................................................................................................................... 36
Les 3- Genome Browser ........................................................................................................................ 38
3.1 UCSC genome browser ................................................................................................................ 38
LES 4- UCSC Table Browser& MySQL..................................................................................................... 56
4.1 ENSEMBL ..................................................................................................................................... 57
4.2 DATABASE STRUCTURES .............................................................................................................. 62
4.3 STRUCTURED QUERY LANGUAGE ................................................................................................ 65
4.4 UCSC TABLE BROWSER ................................................................................................................ 69
LES 5 SSH LOGIN-JUPYTER-BASH (18/3/2021) ...................................................................................... 71
5.1 Linux intro .................................................................................................................................... 71
LES 6- Linux Exercises ............................................................................................................................ 78
Les7-Gene Prediction .......................................................................................................................... 122
7.1 Gene prediction Methodes ....................................................................................................... 122
7.2 Exon defining signals ................................................................................................................. 122
7.3 Plotorf ........................................................................................................................................ 125
7.4 Coding statistics ......................................................................................................................... 129
7.5 Gene-ID...................................................................................................................................... 132
LES 8 Gene Prediction recap & Sequence Alignment .......................................................................... 141
8.1 Correlation................................................................................................................................. 146
8.2 Alignment .................................................................................................................................. 147
8.3 similarity& Homology ................................................................................................................ 147

1

, 8.4 Gaps and Gap Penalties ............................................................................................................. 151
8.5 Align using EMBOSS................................................................................................................... 152
Les 9: GENE LISTS FROM EXPRESSION ANALYSIS ................................................................................ 153
9.1 UCSC cell browser :.................................................................................................................... 153
9.2 Google: gprofiler........................................................................................................................ 159
9.3 G:Convert................................................................................................................................... 164
9.4 Biomart Ensembl tool ................................................................................................................ 169
9.5 Attributes................................................................................................................................... 170
9.6 BioMart ...................................................................................................................................... 174
9.7 IUPAC ......................................................................................................................................... 179
Les 10 Programming in Python............................................................................................................ 183
Les 11: Phyton programming deel 2.................................................................................................... 198
11.1 Lijsten, dictionaries & de genetische code .............................................................................. 198
11.2 Pandas ..................................................................................................................................... 201
11.3 Uitwerking programming oefeningen ..................................................................................... 214




2

,Cursus Bio-informatica 2020-2021
(Uitgetypt van wat in de les gezegd wordt, zie slides ook voor wat hij zelf toont)

LES 1- ENTREZ 11/02/2021

1.1 NCBI (Amerikaanse databank)

Pubmed→ zoeken op Gene (vb TP53= codeert voor p53
gen)
Verschillende species te zien waar het voorkomt, o.a. Homo
Sapiens
Openen van TP53 Homo Sapiens geeft volgende resultaten:
de namen waar het nog onder voor kan komen aangezien
verschillende wetenschappers dit kunnen ontdekken op
ongeveer hetzelfde tijdstip en dit een andere naam kunnen
geven. Ook een korte samenvatting waar weergegeven wordt wat het is en wat het doet etc.




Bij verder scrollen naar onder kom je volgende afbeelding tegen.
Lijntjes geven de verschillende isovormen aan (in dit geval 15) en
dit wordt aangegeven door een RefSeq nummer (=NM, waarbij de
M staat voor mRNA). Er zijn in dit geval 15 vormen gekend, maar
het kan zijn dat er meer isovormen bestaan vb 16 en de 16e
gewoon nog niet ontdekt is. Elk van de mRNA’s is ook gelinkt
met een eiwti en elk eiwit heeft een NP RefSeq ID (Protein).
Sommige eiwitten van verschillende mRNA’s kunnen toch
hetzelfde zijn aangezien ze dezelfde coding exonen gaan
gebruiken (= donker groene blokjes). In de exonen zijn er nog
twee opties: 1) exonen die een UTR (Niet vertaalde regio) gaan
vormen. CDS stopt waar donker groen stopt. (2?) Sommige
mRNA’s zijn anders dan andere omdat ze een andere translatiestart hebben waardoor ze
onderling gaan verschillen van elkaar. Blauwe balk bovenaan afbeelding toont ons waar het
ligt. (chr 17, plaats 7 milj = plaats TP53)




3

,Rood omcirkelde is volledige transcript dat wordt gevormd waarna pijltjes eruit gezwierd zullen
worden omwv splicing (intronen) en donker
groene blokjes (exonen) overblijven. Verticale
streepje aan begin en einde van intron is splice
acceptor en donor.
Mogelijke vragen: - hoeveel mRNA’s worden er gevormd volgens RefSeq? 15
- waar ligt TP53? Chromosoom 17, meer bepaald rond positie 7. 600. 000




Sectie dat gen zal linken met verschillende andere databanken/ genomebrowsers.
Andere databank= entrez nucleotide → staan enkel DNA sequenties in
Onderzoekers plaatsen hier al meerdere jaren hun resultaten in (chromosomen, genen,
genomen)
Als je naar onder scrolt in entrez gene kom je NCBI Ref Seq tegen:




4

, Daar staan alle individuele 15 isovormen met
de links bij. Als je bij mRNA and Protein(s) op 1e nummer klikt= NM_000546.6 kom je op
entrez nucleotide terecht.




Nu vind je de record terug met annotatie met helemaal
beneden de mRNA sequentie met daarboven de features (alle features samen= annotatie)




5

,Ook nog andere features (misc_ feature) die een regio aanduiden; vb. Interaction with DNA.
Entrez record bevat features/ header met informatie over artikels die geleid hebben tot deze
annotatie/ waar ze deze features hebben ontdekt. Hier staat ook bij van welke specie het is
(source), want in nucleotide staat alles wat ooit gevonden is dus ook bv Xenopus, Drosophilia
etc.
Vb vraag: zoek in entrez tp53 van de muis → eerst via entrez gene naar tp53 van de muis gaan
en vervolgens via NM in nucleotide terecht komen.
Nog een aantal zaken mogelijk: FASTA en graphics
- Graphics: lijkt op entrez gene waar je een overzicht krijgt van opnieuw de exonen en
intronen/ features




6

,mRNA sequentie, intronen zitten hier niet in (= matuur mRNA). Rode deel= NP= eiwit waar
de translatiestart ligt en ook het stopcodon. Eiwit (rood) wordt vertaald over die lengte. Features
zeggen waar het ligt vb van 119 tot 220 → blokje in graphics.
Andere is FASTA= formaat waar enkel de sequentie in zit. Begint steeds met groter dan teken,
dan identifier (= ref seq hier), dan enter gevolgd door sequentie (met line breaks) maar is wel
een streng.




Samenvattend RefSeq:
- Elke refseq vertegenwoordigt een natuurlijk voorkomend molecule van 1 organisme.
- Elke sequentie komt ook maar 1x voor= niet redundant
- Ondergaan voortdurend curaties, wat wil zeggen dat er veranderingen kunnen optreden
tov vorig jaar bv. (vb vorig jaar 14 isovormen en dit jaar 15)
- Karakteristieke code (NT, NM, NP) met _ en gevolgd door een nummer dus bv
NP_XXX = refseq van een eiwit
- XM en XP= mogelijk dat deze bestaan maar is nog niet zeker



7

,Ander voorbeeld gen in een ander organisme: EIF4EI in Drosophilia Melanogaster
Komt van FlyBase nu en niet van NCBI dus nu geen NM nummer maar een FBTR (= FlyBase
transcript)
Bij openen via Entrez Gene:




Klikken op groene balk → opent zodat je isovormen kan zien (9 in totaal). Rood zijn de NP’s
(eiwitten die hiervan gecodeerd worden). De 1e is anders → andere translatiestart, al de anderen
lijken op het eerste zicht dezelfde eiwitsequentie te hebben.
Sequentie downloaden (alles downloaden of FASTA): Send to




Kies complete record als File, kiezen tussen aantal formaten, kies voor Genbank formaat. →
download: sequence.gb
Als je FASTA wil kies dan bij FORMAT voor FASTA (volg zelfde werkwijze om dit in
Notepad ++ te zetten
NOOIT TEXT FILE OPENEN IN WORD!!!!
Dan vervolgens textfile lezer openen: windows Notepad ++ (Mac BBedit)
→ In text editor file openen via downloads




8

, Saven via command S (cntrl+ alt+ s): NM_168333.gb
→ flat file want er staat enkel tekst in (text file) ( niet omdat er eventueel .txt achter zou staan)
FASTA bevat enkel de sequentie en niet de header en features erbij




( Als we gaan kijken naar een genbank formaat dan heeft elk record een header, features en
sequenties. Indien we die file downloaden als tekst file (= flat file= puur tekst), dan is dit een
genbank formaat (.GB)
In genbank zit meer dan enkel RefSeq, die je kan vinden door accession number vb U54…
(staat in header)
Feature table zoals CDS


9

The benefits of buying summaries with Stuvia:

Guaranteed quality through customer reviews

Guaranteed quality through customer reviews

Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.

Quick and easy check-out

Quick and easy check-out

You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.

Focus on what matters

Focus on what matters

Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller lisadebussche65. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $11.24. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews)

48756 documents were sold in the last 30 days

Founded in 2010, the go-to place to buy study notes for 15 years now

Start selling
$11.24  9x  sold
  • (1)
Add to cart
Added