Bio-informatica course 5
Aantekeningen les week 1
Met de bio informatica willen we leren hoe de cel werkt. Wat zitten hier voor eiwitten, DNA en
RNA in? Hoe werkt dit samen? Als we dit humane genoom hebben, hebben we de oplossing
voor alle ziekten (dat dacht men). Toen ontstond de bio informatica, want wat is de functie
van alle genen? Bio informatica is het maken van tools zodat wij snel onze analyse kunnen
doen. In ieder geval heeft het te maken met DNA, RNA en eiwitten. Alle moleculen hebben
een bepaalde structuur, hier gaan we naar kijken (welke invloed heeft deze structuur). Alle
informatie, sequenties, pathways staan opgeslagen in databases. Bio informatica is de
opslag van data, de analyse hiervan en de interpretatie. Het gaat om heel veel data. Het is
dus begonnen bij het sequencen. De eerste was het griepvirus, deze was ongeveer 1000
basenparen. Ons genoom is 3 miljard basenparen. Die 1000 basenparen konden nog wel
met hand gesequenced worden. Hierna zijn er automatische sequencers ontwikkeld, die het
genoom in stukjes achterhaalde. De ontwikkeling van de sequencing ging steeds verder.
Uiteindelijk hebben we heel veel data en hoe moeten we dat gaan analyseren. Ook is de
vraag hoe slaan we dat allemaal op?
Databases (NCBI is geen database), NCBI is een organisatie die heel veel databases
heeft; protein, gene, nucleotide, PubMed, OMIM (als je moet opzoeken op welke plek
van het gen de ziekte zit).
* Uniprot. Het grootste gedeelte van de Uniprot is TrEMBL (Tr staat voor translation), naast
deze eiwit database heb je ook de Swissprot en deze is speciaal want die is met de hand
gedaan en annotatie. Annotatie is in de Swissprot al de rest, die bijvoorbeeld informatie geeft
over ziekten. In de Uniprot staat dus de volgorde van de aminozuren. Je hebt dus data met
annotatie en de accessie code. Als je dus iets opzoekt in een database, onthoudt dan die
code. Dan kan je vervolgens weer heel specifiek iets terug zoeken. Die code is uniek, elke
database heeft zijn eigen unieke code.
* Kegg. Pathway.
* PDB. 3d structuren pathway.
* Pubmed. Wetenschappelijke artikelen.
* PDBe database. De vouwing van het eiwit staat in deze database.
Wat is essentieel in een database? De data, de annotatie en de accessie code. Heel
belangrijk voor die annotatie is de referentie en wie het erin heeft gezet. Ook moet je kijken
bij de data wanneer het voor het laatst ge-update is. Als er goede literatuur bij is kan je het
vertrouwen, ook als hij van de Swissprot is kan je hem vertrouwen. Niet alle data in een
database is waar. Het ribosoom zet het RNA om in eiwit, dan hebben we te maken met de
tripletten. Die tripletten zijn het reading frame. Het open reading frame. We hadden 6
verschillende reading frames (-1, -2, -3, +3, +2, +1). Een open reading frame kan een
ribosoom gewoon doorlezen (zit geen stop codon in). Dus je moet degene pakken zonder
stopcodons erin.
Je kan verschillende organismen met elkaar vergelijken. Als je een gen hebt die op een
ander gen lijkt waarvan men de functie weet, dan kan je de functie van dat gen bepalen.
Maar je weet het dan niet zeker. Als je iemand sequeced, dan weet je niet wat die sequentie
doet. Bij de annotantie staat ook de literatuurreferentie. Hier staat beschreven dat dat ene
gen iets kan (de functie van het gen). Je moet dus goed opletten of er artikelen bij staan (dus
of het bewezen of dat hij deze functie heeft). Data is dus de sequentie en de rest is
annotatie.
In Amerika heb je de Refsec, in Amerika doen ze alles groot en veel. Er zijn dus veel meer
Refseq entry’s van Swissprot, Swissprot is betrouwbaarder.
* Primaire data betekent experimentele data (die uit het lab komt). Of de annotatie klopt daar
hebben we het niet over. De annotatie houdt het eraf of het automatisch is gedaan of door
mensen.
,* Secundaire data is data gemaakt met primaire data. Bijvoorbeeld veel eiwitten bij elkaar
zetten en dan aminozuren met elkaar vergelijken. Die secundaire data, als die niet
regelmatig ge-update wordt, dan is het oud. Als de informatie over een eiwit 5 jaar oud is dan
is hij niet meer heel betrouwbaar. Als je dus iets opzoekt, pak de Refseq of de Swissprot dan
weet je dat het betrouwbaar is. Zie Refsec codes dia. Als er het tekentje reviewed bijstaat,
dan is hij van de Swissprot. Omim + kegg = secundaire data. PDB = primaire data.
Weektaak 1. Je kan op verschillende eigenschappen scheiden. Bijvoorbeeld op lading,
oplosbaarheid, de zijgroepen, de grootte. Als je wil scheiden op grootte, dan wil je weten hoe
groot IDH 1 is. Bij NCBI zoeken op IDH 1 bij protein bij homo sapiens. Je moet rechts bij
results taxon homo sapiens aanklikken dat is beter dan het gewoon daarboven opschrijven.
Links kan je ook nog filteren in NCBI, je kan dan op Swissprot of Refsec klikken. Dan hou je
er twee over en dan zie je dat de accessiecode overeenkomt met die van een Swissprot.
Cross referenties, via hier kan je naar heel veel andere databases, want hij staat nog in heel
veel andere databases. Om te achterhalen of hij nou hydrofoob of hydrofiel is dan moet je
ook kijken naar de 3d structuur van het eiwit. Dan kan je zien waar de hydrofiele en
hydrofobe delen zitten.
Resolutie betekent hoe groter de resolutie, hoe minder precies het molecuul is. Meestal is de
bovenste structuur het juiste eiwit, andere betreffen meestal mutanten.
cDNA: copy DNA, mRNA EST; delen van het RNA Redundant; een sequentie kan meerdere
keren in de database staan. Nonredundant is beter. RefSeq = betrouwbare sequenties =
nonredundant. Aan accessiecodes kan je zien of het RefSeq is. Begint met N = refseq.
Wat is de beste methode om een eiwit te isoleren. Je kijkt eerst naar de eiwit grootte,
de PI, de cellulaire locatie, de 3D structuur en de hydrofobischiteit. Dit doe je door
middel van de volgende tools te gebruiken, namelijk NCBI, EBI, Uniprot, Expasy
proteomics resources/tools, PDB, PDBe, CLC bio.
Altijd de data checken, de literatuur, hoe oud is deze data en natuurlijk de accesiecode!
Databases voor eiwit families en eiwit domeinen; Pfam, Prosite, Interpro.
Aantekeningen les week 2
Je moet het eiwit op een bepaalde manier beschrijven. De locatie van het eiwit is dus heel
erg van belang bij de functie omschrijving. Tevens is het proces van belang
(citroenzuurcyclus, vetsynthese, etc.). De functie omschrijving is dus wat breder dan
bijvoorbeeld receptor kinase. Bijvoorbeeld als een transcriptie factor in het cytoplasma zit
doet hij helemaal niks. Dus hij moet dan wachten tot hij naar de kern wordt getransporteerd
voordat hij iets kan doen (actief wordt). In de gaten houden dat een eiwit niet altijd zomaar
actief is. Vandaag gaan we het hebben over eiwit domeinen. Eiwit domein definitie (dit is een
stuk van een eiwit dat op een bepaalde manier gevouwen is, wat een bepaalde functie heeft
of een bepaalde locatie in de cel). Zo een domein is vaak onafhankelijk van andere
domeinen (dus hij is uit meerdere eiwit domeinen opgebouwd). Zo een eiwit domein heeft
een eigen vouwing, dan komt de volgende vouwing, dus verschillende domeinen bij elkaar.
De domeinen zijn geconserveerd, dus zo een domein komt bij meerdere eiwitten voor. Een
eiwit familie zijn eiwitten die hetzelfde domein hebben. Voor die eiwit families hebben we
verschillende databases. Hier kan je informatie vinden over die domeinen. Waar vind je het
beste informatie over de domeinen van je eiwit? Bij UniProt. Bij IDH zie je dat hij maar één
domein bevat. EMBL-EBI hier zie je van het hele domein welke letters er zijn geconserveerd,
dus hoe groter de letter hoe meer hij geconserveerd is. Zo een domein heeft een bepaalde
functie en daarvoor heb je bepaalde aminozuren nodig die dat doen. Die lange rode strepen
die zeggen dat er soms een insertie of deletie inzit.
Prosite heeft dat zelfde domein van IDH, hier heeft hij een signature van gemaakt. Hier staat
een heel klein stuk sequentie en als je deze bevat hoor je bij de familie. Prosite is dus een
secundaire database, dit is als je die multiple A. Als er een x staat dan betekent dat dat het
elk aminozuur kan zijn. Interpro is ook een database over eiwit domeinen.
, GO- moleculaire functie en GO- biologisch proces en cellulaire locatie, die gebieden
beschrijven de functie. Op die drie verschillende gebieden kan je dus snel achterhalen wat
de functie precies. De GO is een gene ontology, dit is eigenlijk een groot woordenboek met
termen die iedereen op de wereld kent. Tussen al die termen zitten relaties. Al die termen
zitten ook nog eens aan elkaar vast. Bijvoorbeeld je zegt membraaneiwit, dan zeg je van een
organel, dan zeg je van mitochondriën, dan zeg je binnenste membraan. Op deze manier
kan je op meerdere niveaus je membraaneiwit beschrijven. Data consistency, bijvoorbeeld
een kinase is altijd een enzym dat een fosfaatgroep toevoegt of verwijdert.
Inferred from direct assay, betekent dat hij uitgevonden is met een experiment (is wel
betrouwbaar dus). Inferred from electronic annotation is door de computer. IDH1 zit in het
cytoplasma en in het peroxisoom.
Van belang is dat het eiwit zich op de juiste plek in de cel bevindt om zijn functie te kunnen
vervullen. Er zijn nog heel veel dingen nodig om ervoor te zorgen dat het eiwit uiteindelijk
actief is. Post-translational processing. Op de PowerPoint staan eiwitten die ervoor zorgen
dat andere eiwitten intact blijven.
Hoe komen eiwitten op hun plek? We hebben een vervoersmiddel nodig en een
signaal middel. Het vervoermiddel heeft ook energie nodig. Dus vervoermiddel,
signaal en energie nodig. Het RNA komt in het cytoplasma en wordt door ribosoom tot eiwit
gemaakt. Een signaal kan ergens liggen op de sequentie. Het signaal bindt het
vervoermiddel want die neemt hem mee naar de juiste plek. Signaal aan begin van de
sequentie.
Dit is een hydrofoob kort stukje. De kenmerken van een transmembraaneiwit zijn hydrofoob
en ongeveer 20 aminozuren lang. Een transmembraandomein heeft een alfa-helix structuur.
Dus stukje sequentie op het bord lijkt heel erg op een transmembraandomein. We hebben
twee vormen van ribosomen, namelijk vrije ribosomen en gebonden ribosomen aan het ER.
Vrije ribosomen synthetiseren meestal eiwitten die hun functie vervullen in het cytosol.
Gebonden ribosomen synthetiseren eiwitten van het endomembraan systeem en eiwitten die
uit de cel worden gescheden. Ribosomen kunnen switchen van vrije ribosomen naar
gebonden ribosomen.
Een eiwitsequentie bevat signalen. (A) Een signaal sequentie (is een enkele afzonderlijke
reeks sequentie van aminozuren, in een gevouwen eiwit). (B) Een signaal stukje (worden
gevormd bij juxtaposities van aminozuren van regio’s die fysiek worden gescheiden voordat
het eiwit vouwt.
Signaal sequentie voor transmembraan transsport. Deze signaal sequentie bestaat
meestal uit 13-36 aminozuren; hiervan 10-15 hydrofobe aminozuren, 1 of meer positief
geladen aminozuren vlak bij N-terminus voorafgaand aan de hydrofobe aa; en korte polaire
sequentie na de hydrofobe a.
Er zijn drie intracellulaire transsport mechanismen, namelijk gated transsport, vesiculair
transsport en transmembraan transsport. Vesicular transsport; eiwitten die gemaakt zijn
bij ER-gebonden ribosomen worden getransporteerd naar de celmembraan of