Summary

Samenvatting HCO biologie als een datawetenschap

Name: HCO biologie als een datawetenschap
SKU: doc_403007
Rating: 4.00 (4 reviews)
Author: brittheijmans

Rating

4.0

(4)

Sold

Pages

Uploaded on

03-03-2018

Written in

2017/2018

Dit is een uitgebreide samenvatting van het hoorcollege over het 1e hoofdstuk uit de reader. Begrippen die hierin naar voren komen, zijn: wetenschappelijke cyclus, database, data, crAssphage, datasets, data-driven discoveries, nulhypothese, Google, top down, bottom up, ISCB, fourth paradigm, FAIR data, data recycling, sequencing machines, transcriptoom, proteoom, fasta files, Omics revolution, annotatie, metadata, error propagation, experimental validation etc.

Show more Read less

Institution

Course

Whoops! We can’t load your doc right now. Try again or contact support.

Report Copyright Violation

Written for

Institution: Universiteit Utrecht (UU)
Study: Biologie
Course: Systeembiologie

All documents for this subject (27)

Document information

Uploaded on: March 3, 2018
Number of pages: 6
Written in: 2017/2018
Type: Summary

Subjects

wetenschappelijke cyclus
database
data
crassphage
datasets
data driven discoveries
nulhypothese
google
top down
bottom up
iscb
fourth paradigm
fair data
data recycling
sequencing machines
transcriptoo

Content preview

Biologie als een data wetenschap
Wetenschappelijke cyclus, je begint altijd met een vraag waarna een hypothese
volgt. Om deze te testen, voer je experimenten uit. De resultaten ga je dan
analyseren om tot een conclusie te komen. Zoals je in de cyclus ziet, zit de data bij
het experiment en bio-informatici hebben daar dus veel mee te maken.
Biologische databases, het eerste eiwit werd in 1956 gesequenced en dat
gebeurde dus voordat er DNA sequencing plaatsvond. Dit eiwit was insuline uit
een koe. Naarmate de tijd verstreek werden er steeds meer eiwitten
gesequenced en begon Margaret Oakley Dayhoff met het verzamelen van al deze
sequenties en structuren. Zij bracht deze samen in de Atlas op Protein Sequence and Structure (1965).
In de tussentijd zijn er nog meer databases bijgekomen zoals Protein Data Bank (1972) die met name
structuren bevat, Genbank (1982) die met name sequenties bevat en SWISSPROT (1987) die eiwitten
en gen sequenties bevat met een geteste functie.
Data, hoe meer data er is, hoe meer ontdekkingen er gedaan kunnen worden. Door de toename in
data hebben bio-informatici veel methodes ontwikkeld om de data te analyseren. Zo kan je
bijvoorbeeld een fylogenetische boom maken van cytochroom c eiwitten van verschillende
organismen. Zo lijkt de boom die hieruit volgt heel erg op de evolutionaire fylogenetische boom. M.
Fitch en Emannuel Margoliash hebben dit ontdekt en leverde dus het eerste bewijs voor de
evolutionaire boom. De toename in data is in de grafiek te zien, waar de rode lijn whole genome
sequenties bevat en de blauwe lijn gen sequenties.
Sequencing kosten, waarbij het sequencen van het eerste menselijk
genoom jaren duurde en heel veel kostte, kan dat tegenwoordig een stuk
sneller en goedkoper.
Gebruik van data & de wetenschappelijke cyclus, door data te
gebruiken, kan je sneller door de wetenschappelijke cyclus:
1. Stel je vraag als een data hypothese.
 Welke data bevat delen van het antwoord?
 Welk patroon in de data bevestigd/verwerpt je hypothese?
2. Schrijf een script om de data te analyseren.
3. Interpreteer de resultaten.
 Bevestigd/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en
biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
4. Trek een conclusie.
Dit levert een andere wetenschappelijke cyclus op dan die van wet-lab experimenten. Zo zie je dat de
hypothese naar een data hypothese is verandert, het experiment naar een script is verandert en dat
het analyseren van de resultaten naar het interpreteren van de resultaten is verandert.
crAssphage, in 2014 is (mede door Bas Dutilh) een nieuw virus ontdekt wat in mensen zit. Voor dit
onderzoek is bestaande data gebruikt om een nieuwe ontdekking te doen. We hebben meer
bacteriën in onze darmen dan dat we lichaamscellen hebben en deze bacteriën worden geïnfecteerd
door virussen. Het is dus van belang dat we deze virussen achterhalen. In dit onderzoek vroegen de
onderzoekers zich ook af waar het virus allemaal voorkomt. Hiervoor zijn ze op zoek gegaan naar een
database waarin informatie stond van over de hele wereld verzamelde monsters van mensendarmen.
Uit eerder onderzoek bleek al dat het virus bij 50% procent van de bevolking voorkomt dus het was
eigenlijk beter om niet naar individuen te kijken, maar juist naar rioolwater. Er bleek al een onderzoek
gedaan te zijn naar rioolzuiveringssamples van over de hele wereld en in alle samples is het virus
teruggevonden. Door het stellen van een gerichte vraag en het gebruik van bestaande data kunnen
bio-informaticus dus vragen beantwoorden.

, Datasets, er worden steeds meer metagenomen gesequenced door bijvoorbeeld HiSeq machines. In
heel veel gevallen zijn de onderzoekers naar 1 ding op zoek of weten ze helemaal niet waar ze naar
zoeken. De data wordt hierdoor soms zo groot dat je de resultaten niet meer kan analyseren en dat
soms zelfs de hypothese niet eens aan te pas komt, omdat mensen zomaar iets gaan sequencen om
hun vraag te kunnen beantwoorden. Deze data tsunami is voor bio-informatici juist voordelig.
Data-driven discoveries, zonder van te voren een vraag te hebben, kunnen ook al ontdekkingen
gedaan worden door gebruik van data:
1. Gebaseerd op een dataset kan je een data hypothese formuleren door je biologische kennis.
 Gebaseerd op je biologische kennis, wat verwacht in de data te zien?
 Nulhypothese: er is geen patroon
2. Schrijf een script om de data te analyseren
 Bio-informatici noemen dit een ‘sanity check’ en hiermee check je of je begrip van de
data klopt zonder dat je van te voren een vraag paraat had.
3. Interpreteer de resultaten.
 Bevestigt/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
 Als de data niet consistent is met je verwachting heb je misschien wel iets nieuws
ontdekt.
4. Formuleer een nieuwe hypothese waarin je de potentieel nieuwe ontdekking verwerkt.
 Test hem.
Voorbeeld data-driven ontdekking, we gaan even terug naar het onderzoek naar rioolwater. Door je
biologische kennis weet je dat daar bacteriën en virussen in voorkomen en dat kan je dan
bijvoorbeeld testen. De nulhypothese hierbij zou kunnen zijn dat er bacteriën en virussen in de
samples worden aangetroffen en dat deze verdeling over de hele wereld hetzelfde is. Als dit niet zo
blijkt te zijn, kan je een nieuwe hypothese opstellen om te kijken of je ontdekking klopt.
Nulhypothese, hierbij wordt aangenomen dat de methode geen effect heeft of dat het
onderzoek geen verklarende kracht heeft. Als de nulhypothese dus ondersteund wordt,
is er niet bijzonders aan de hand. De nulhypothese wordt meestal gekozen in de
veronderstelling dat het effect niet bestaat en er wordt geprobeerd om de nulhypothese
te verwerpen.
crAssphage2, het begon met de data uit een artikel (2010) waarin ze virussen hadden
geïsoleerd uit de poep van 12 verschillende mensen. Deze mensen waren afkomstig uit
4 families waarbij uit elke familie de poep van de moeder en twee eeneiige
tweelingdochters was onderzocht. De onderzoekers waren namelijk benieuwd naar de
diversiteit van de virussen. Uit dit onderzoek bleek dat de verschillende groepen
functionele virussen erg verschillen tussen de onderzochte mensen, terwijl de bacteriën
juist erg overeenkomen. Bas Dutilh vond dat interessant en zijn begrip van de data was
hiermee vergroot door het feit dat virussen dus heel erg verschillen. In het onderzoek
stond echter dat maar 15% van alle data gebruikt kon worden om de conclusie te
trekken. De rest van het sample bestond uit onbekende sequenties. Voor het poep
onderzoek hebben ze de samples namelijk vergeleken met samples uit een bestaande
database en hierdoor kon 15% gelinkt worden aan een bepaald virus. De rest stond niet
in de database en de onderzoekers gingen ervan uit dat de overige 85% net zo divers zou zijn als de
onderzochte 15%. Wat Bas toen heeft gedaan is kijken of er nieuwe genomen te assembleren waren
en dat bleek zo te zijn. Er bleek één virus te zijn wat een kwart van de overgebleven sequenties
bevatte. Door assembling was dus opeens een groot deel van de data te identificeren. De naam
crAssphage komt dan ook van crossassembly en phage, waarbij crossassembly afkomstig is van het
feit dat Bas alle metagenomen samen heeft geassembleerd en phage is afkomstig van bacterievirus.
Opeens zijn de virussen helemaal niet meer zo divers. Sommige mensen hebben maar liefst een

$3.62

Get access to the full document:

Purchased by 0 students

100% satisfaction guarantee

Immediately available after payment

Both online and in PDF

No strings attached

Get to know the seller

brittheijmans

4.4

(533)

Also available in package deal

Reviews from verified buyers

Showing all 4 reviews

tomlous Biologie · 35 reviews

5 year ago

et98 Health Care Management · 59 reviews

7 year ago

thibaudtegroen Psychologie · 69 reviews

7 year ago

sanneejanssen Biologie · 43 reviews

7 year ago

4.0

4 reviews

Trustworthy reviews on Stuvia

All reviews are made by real Stuvia users after verified purchases.

Get to know the seller

brittheijmans Universiteit Utrecht

View profile

Sold

634

Member since

8 year

Number of followers

290

Documents

381

Last sold

8 months ago

Mijn samenvattingen bevatten altijd kleurtjes om de belangrijke begrippen aan te duiden en verder gebruik ik veel figuren om zaken uit te leggen. Heb je echter toch nog vragen, dan kan je altijd contact met met opnemen. Ik heb eerst 3 jaar biologie gestudeerd en ben nu bezig met een master om zowel arts als klinisch onderzoeker te worden.

4.4

533 reviews

308

149

Why students choose Stuvia

Created by fellow students, verified by reviews

Quality you can trust: written by students who passed their tests and reviewed by others who've used these notes.

Didn't get what you expected? Choose another document

No worries! You can instantly pick a different document that better fits what you're looking for.

Pay as you like, start learning right away

No subscription, no commitments. Pay the way you're used to via credit card and download your PDF document instantly.

“Bought, downloaded, and aced it. It really can be that simple.”

Alisha Student

Frequently asked questions

What do I get when I buy this document?

You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.

Satisfaction guarantee: how does it work?

Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.

Who am I buying these notes from?

Stuvia is a marketplace, so you are not buying this document from us, but from seller brittheijmans. Stuvia facilitates payment to the seller.

Will I be stuck with a subscription?

No, you only buy these notes for $3.62. You're not tied to anything after your purchase.

Can Stuvia be trusted?

4.6 stars on Google & Trustpilot (+1000 reviews) 43680 documents were sold in the last 30 days Founded in 2010, the go-to place to buy study notes for 15 years now