Dit is een uitgebreide samenvatting van het hoorcollege over het 1e hoofdstuk uit de reader. Begrippen die hierin naar voren komen, zijn: wetenschappelijke cyclus, database, data, crAssphage, datasets, data-driven discoveries, nulhypothese, Google, top down, bottom up, ISCB, fourth paradigm, FAIR d...
Biologie als een data wetenschap
Wetenschappelijke cyclus, je begint altijd met een vraag waarna een hypothese
volgt. Om deze te testen, voer je experimenten uit. De resultaten ga je dan
analyseren om tot een conclusie te komen. Zoals je in de cyclus ziet, zit de data bij
het experiment en bio-informatici hebben daar dus veel mee te maken.
Biologische databases, het eerste eiwit werd in 1956 gesequenced en dat
gebeurde dus voordat er DNA sequencing plaatsvond. Dit eiwit was insuline uit
een koe. Naarmate de tijd verstreek werden er steeds meer eiwitten
gesequenced en begon Margaret Oakley Dayhoff met het verzamelen van al deze
sequenties en structuren. Zij bracht deze samen in de Atlas op Protein Sequence and Structure (1965).
In de tussentijd zijn er nog meer databases bijgekomen zoals Protein Data Bank (1972) die met name
structuren bevat, Genbank (1982) die met name sequenties bevat en SWISSPROT (1987) die eiwitten
en gen sequenties bevat met een geteste functie.
Data, hoe meer data er is, hoe meer ontdekkingen er gedaan kunnen worden. Door de toename in
data hebben bio-informatici veel methodes ontwikkeld om de data te analyseren. Zo kan je
bijvoorbeeld een fylogenetische boom maken van cytochroom c eiwitten van verschillende
organismen. Zo lijkt de boom die hieruit volgt heel erg op de evolutionaire fylogenetische boom. M.
Fitch en Emannuel Margoliash hebben dit ontdekt en leverde dus het eerste bewijs voor de
evolutionaire boom. De toename in data is in de grafiek te zien, waar de rode lijn whole genome
sequenties bevat en de blauwe lijn gen sequenties.
Sequencing kosten, waarbij het sequencen van het eerste menselijk
genoom jaren duurde en heel veel kostte, kan dat tegenwoordig een stuk
sneller en goedkoper.
Gebruik van data & de wetenschappelijke cyclus, door data te
gebruiken, kan je sneller door de wetenschappelijke cyclus:
1. Stel je vraag als een data hypothese.
Welke data bevat delen van het antwoord?
Welk patroon in de data bevestigd/verwerpt je hypothese?
2. Schrijf een script om de data te analyseren.
3. Interpreteer de resultaten.
Bevestigd/verwerpt de data je hypothese?
Net als bij wet-lab experimenten moet je oppassen voor fouten en
biases:
In (jouw begrip/interpretatie van) de data
In je analyse methode (script)
4. Trek een conclusie.
Dit levert een andere wetenschappelijke cyclus op dan die van wet-lab experimenten. Zo zie je dat de
hypothese naar een data hypothese is verandert, het experiment naar een script is verandert en dat
het analyseren van de resultaten naar het interpreteren van de resultaten is verandert.
crAssphage, in 2014 is (mede door Bas Dutilh) een nieuw virus ontdekt wat in mensen zit. Voor dit
onderzoek is bestaande data gebruikt om een nieuwe ontdekking te doen. We hebben meer
bacteriën in onze darmen dan dat we lichaamscellen hebben en deze bacteriën worden geïnfecteerd
door virussen. Het is dus van belang dat we deze virussen achterhalen. In dit onderzoek vroegen de
onderzoekers zich ook af waar het virus allemaal voorkomt. Hiervoor zijn ze op zoek gegaan naar een
database waarin informatie stond van over de hele wereld verzamelde monsters van mensendarmen.
Uit eerder onderzoek bleek al dat het virus bij 50% procent van de bevolking voorkomt dus het was
eigenlijk beter om niet naar individuen te kijken, maar juist naar rioolwater. Er bleek al een onderzoek
gedaan te zijn naar rioolzuiveringssamples van over de hele wereld en in alle samples is het virus
teruggevonden. Door het stellen van een gerichte vraag en het gebruik van bestaande data kunnen
bio-informaticus dus vragen beantwoorden.
, Datasets, er worden steeds meer metagenomen gesequenced door bijvoorbeeld HiSeq machines. In
heel veel gevallen zijn de onderzoekers naar 1 ding op zoek of weten ze helemaal niet waar ze naar
zoeken. De data wordt hierdoor soms zo groot dat je de resultaten niet meer kan analyseren en dat
soms zelfs de hypothese niet eens aan te pas komt, omdat mensen zomaar iets gaan sequencen om
hun vraag te kunnen beantwoorden. Deze data tsunami is voor bio-informatici juist voordelig.
Data-driven discoveries, zonder van te voren een vraag te hebben, kunnen ook al ontdekkingen
gedaan worden door gebruik van data:
1. Gebaseerd op een dataset kan je een data hypothese formuleren door je biologische kennis.
Gebaseerd op je biologische kennis, wat verwacht in de data te zien?
Nulhypothese: er is geen patroon
2. Schrijf een script om de data te analyseren
Bio-informatici noemen dit een ‘sanity check’ en hiermee check je of je begrip van de
data klopt zonder dat je van te voren een vraag paraat had.
3. Interpreteer de resultaten.
Bevestigt/verwerpt de data je hypothese?
Net als bij wet-lab experimenten moet je oppassen voor fouten en biases:
In (jouw begrip/interpretatie van) de data
In je analyse methode (script)
Als de data niet consistent is met je verwachting heb je misschien wel iets nieuws
ontdekt.
4. Formuleer een nieuwe hypothese waarin je de potentieel nieuwe ontdekking verwerkt.
Test hem.
Voorbeeld data-driven ontdekking, we gaan even terug naar het onderzoek naar rioolwater. Door je
biologische kennis weet je dat daar bacteriën en virussen in voorkomen en dat kan je dan
bijvoorbeeld testen. De nulhypothese hierbij zou kunnen zijn dat er bacteriën en virussen in de
samples worden aangetroffen en dat deze verdeling over de hele wereld hetzelfde is. Als dit niet zo
blijkt te zijn, kan je een nieuwe hypothese opstellen om te kijken of je ontdekking klopt.
Nulhypothese, hierbij wordt aangenomen dat de methode geen effect heeft of dat het
onderzoek geen verklarende kracht heeft. Als de nulhypothese dus ondersteund wordt,
is er niet bijzonders aan de hand. De nulhypothese wordt meestal gekozen in de
veronderstelling dat het effect niet bestaat en er wordt geprobeerd om de nulhypothese
te verwerpen.
crAssphage2, het begon met de data uit een artikel (2010) waarin ze virussen hadden
geïsoleerd uit de poep van 12 verschillende mensen. Deze mensen waren afkomstig uit
4 families waarbij uit elke familie de poep van de moeder en twee eeneiige
tweelingdochters was onderzocht. De onderzoekers waren namelijk benieuwd naar de
diversiteit van de virussen. Uit dit onderzoek bleek dat de verschillende groepen
functionele virussen erg verschillen tussen de onderzochte mensen, terwijl de bacteriën
juist erg overeenkomen. Bas Dutilh vond dat interessant en zijn begrip van de data was
hiermee vergroot door het feit dat virussen dus heel erg verschillen. In het onderzoek
stond echter dat maar 15% van alle data gebruikt kon worden om de conclusie te
trekken. De rest van het sample bestond uit onbekende sequenties. Voor het poep
onderzoek hebben ze de samples namelijk vergeleken met samples uit een bestaande
database en hierdoor kon 15% gelinkt worden aan een bepaald virus. De rest stond niet
in de database en de onderzoekers gingen ervan uit dat de overige 85% net zo divers zou zijn als de
onderzochte 15%. Wat Bas toen heeft gedaan is kijken of er nieuwe genomen te assembleren waren
en dat bleek zo te zijn. Er bleek één virus te zijn wat een kwart van de overgebleven sequenties
bevatte. Door assembling was dus opeens een groot deel van de data te identificeren. De naam
crAssphage komt dan ook van crossassembly en phage, waarbij crossassembly afkomstig is van het
feit dat Bas alle metagenomen samen heeft geassembleerd en phage is afkomstig van bacterievirus.
Opeens zijn de virussen helemaal niet meer zo divers. Sommige mensen hebben maar liefst een
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller brittheijmans. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.21. You're not tied to anything after your purchase.