100% tevredenheidsgarantie Direct beschikbaar na betaling Zowel online als in PDF Je zit nergens aan vast
logo-home
Samenvatting HCO biologie als een datawetenschap €2,99   In winkelwagen

Samenvatting

Samenvatting HCO biologie als een datawetenschap

4 beoordelingen
 147 keer bekeken  0 keer verkocht

Dit is een uitgebreide samenvatting van het hoorcollege over het 1e hoofdstuk uit de reader. Begrippen die hierin naar voren komen, zijn: wetenschappelijke cyclus, database, data, crAssphage, datasets, data-driven discoveries, nulhypothese, Google, top down, bottom up, ISCB, fourth paradigm, FAIR d...

[Meer zien]

Voorbeeld 2 van de 6  pagina's

  • 3 maart 2018
  • 6
  • 2017/2018
  • Samenvatting
Alle documenten voor dit vak (27)

4  beoordelingen

review-writer-avatar

Door: tomlous • 4 jaar geleden

review-writer-avatar

Door: et98 • 6 jaar geleden

review-writer-avatar

Door: thibaudtegroen • 6 jaar geleden

review-writer-avatar

Door: sanneejanssen • 6 jaar geleden

avatar-seller
brittheijmans
Biologie als een data wetenschap
Wetenschappelijke cyclus, je begint altijd met een vraag waarna een hypothese
volgt. Om deze te testen, voer je experimenten uit. De resultaten ga je dan
analyseren om tot een conclusie te komen. Zoals je in de cyclus ziet, zit de data bij
het experiment en bio-informatici hebben daar dus veel mee te maken.
Biologische databases, het eerste eiwit werd in 1956 gesequenced en dat
gebeurde dus voordat er DNA sequencing plaatsvond. Dit eiwit was insuline uit
een koe. Naarmate de tijd verstreek werden er steeds meer eiwitten
gesequenced en begon Margaret Oakley Dayhoff met het verzamelen van al deze
sequenties en structuren. Zij bracht deze samen in de Atlas op Protein Sequence and Structure (1965).
In de tussentijd zijn er nog meer databases bijgekomen zoals Protein Data Bank (1972) die met name
structuren bevat, Genbank (1982) die met name sequenties bevat en SWISSPROT (1987) die eiwitten
en gen sequenties bevat met een geteste functie.
Data, hoe meer data er is, hoe meer ontdekkingen er gedaan kunnen worden. Door de toename in
data hebben bio-informatici veel methodes ontwikkeld om de data te analyseren. Zo kan je
bijvoorbeeld een fylogenetische boom maken van cytochroom c eiwitten van verschillende
organismen. Zo lijkt de boom die hieruit volgt heel erg op de evolutionaire fylogenetische boom. M.
Fitch en Emannuel Margoliash hebben dit ontdekt en leverde dus het eerste bewijs voor de
evolutionaire boom. De toename in data is in de grafiek te zien, waar de rode lijn whole genome
sequenties bevat en de blauwe lijn gen sequenties.
Sequencing kosten, waarbij het sequencen van het eerste menselijk
genoom jaren duurde en heel veel kostte, kan dat tegenwoordig een stuk
sneller en goedkoper.
Gebruik van data & de wetenschappelijke cyclus, door data te
gebruiken, kan je sneller door de wetenschappelijke cyclus:
1. Stel je vraag als een data hypothese.
 Welke data bevat delen van het antwoord?
 Welk patroon in de data bevestigd/verwerpt je hypothese?
2. Schrijf een script om de data te analyseren.
3. Interpreteer de resultaten.
 Bevestigd/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en
biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
4. Trek een conclusie.
Dit levert een andere wetenschappelijke cyclus op dan die van wet-lab experimenten. Zo zie je dat de
hypothese naar een data hypothese is verandert, het experiment naar een script is verandert en dat
het analyseren van de resultaten naar het interpreteren van de resultaten is verandert.
crAssphage, in 2014 is (mede door Bas Dutilh) een nieuw virus ontdekt wat in mensen zit. Voor dit
onderzoek is bestaande data gebruikt om een nieuwe ontdekking te doen. We hebben meer
bacteriën in onze darmen dan dat we lichaamscellen hebben en deze bacteriën worden geïnfecteerd
door virussen. Het is dus van belang dat we deze virussen achterhalen. In dit onderzoek vroegen de
onderzoekers zich ook af waar het virus allemaal voorkomt. Hiervoor zijn ze op zoek gegaan naar een
database waarin informatie stond van over de hele wereld verzamelde monsters van mensendarmen.
Uit eerder onderzoek bleek al dat het virus bij 50% procent van de bevolking voorkomt dus het was
eigenlijk beter om niet naar individuen te kijken, maar juist naar rioolwater. Er bleek al een onderzoek
gedaan te zijn naar rioolzuiveringssamples van over de hele wereld en in alle samples is het virus
teruggevonden. Door het stellen van een gerichte vraag en het gebruik van bestaande data kunnen
bio-informaticus dus vragen beantwoorden.

, Datasets, er worden steeds meer metagenomen gesequenced door bijvoorbeeld HiSeq machines. In
heel veel gevallen zijn de onderzoekers naar 1 ding op zoek of weten ze helemaal niet waar ze naar
zoeken. De data wordt hierdoor soms zo groot dat je de resultaten niet meer kan analyseren en dat
soms zelfs de hypothese niet eens aan te pas komt, omdat mensen zomaar iets gaan sequencen om
hun vraag te kunnen beantwoorden. Deze data tsunami is voor bio-informatici juist voordelig.
Data-driven discoveries, zonder van te voren een vraag te hebben, kunnen ook al ontdekkingen
gedaan worden door gebruik van data:
1. Gebaseerd op een dataset kan je een data hypothese formuleren door je biologische kennis.
 Gebaseerd op je biologische kennis, wat verwacht in de data te zien?
 Nulhypothese: er is geen patroon
2. Schrijf een script om de data te analyseren
 Bio-informatici noemen dit een ‘sanity check’ en hiermee check je of je begrip van de
data klopt zonder dat je van te voren een vraag paraat had.
3. Interpreteer de resultaten.
 Bevestigt/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
 Als de data niet consistent is met je verwachting heb je misschien wel iets nieuws
ontdekt.
4. Formuleer een nieuwe hypothese waarin je de potentieel nieuwe ontdekking verwerkt.
 Test hem.
Voorbeeld data-driven ontdekking, we gaan even terug naar het onderzoek naar rioolwater. Door je
biologische kennis weet je dat daar bacteriën en virussen in voorkomen en dat kan je dan
bijvoorbeeld testen. De nulhypothese hierbij zou kunnen zijn dat er bacteriën en virussen in de
samples worden aangetroffen en dat deze verdeling over de hele wereld hetzelfde is. Als dit niet zo
blijkt te zijn, kan je een nieuwe hypothese opstellen om te kijken of je ontdekking klopt.
Nulhypothese, hierbij wordt aangenomen dat de methode geen effect heeft of dat het
onderzoek geen verklarende kracht heeft. Als de nulhypothese dus ondersteund wordt,
is er niet bijzonders aan de hand. De nulhypothese wordt meestal gekozen in de
veronderstelling dat het effect niet bestaat en er wordt geprobeerd om de nulhypothese
te verwerpen.
crAssphage2, het begon met de data uit een artikel (2010) waarin ze virussen hadden
geïsoleerd uit de poep van 12 verschillende mensen. Deze mensen waren afkomstig uit
4 families waarbij uit elke familie de poep van de moeder en twee eeneiige
tweelingdochters was onderzocht. De onderzoekers waren namelijk benieuwd naar de
diversiteit van de virussen. Uit dit onderzoek bleek dat de verschillende groepen
functionele virussen erg verschillen tussen de onderzochte mensen, terwijl de bacteriën
juist erg overeenkomen. Bas Dutilh vond dat interessant en zijn begrip van de data was
hiermee vergroot door het feit dat virussen dus heel erg verschillen. In het onderzoek
stond echter dat maar 15% van alle data gebruikt kon worden om de conclusie te
trekken. De rest van het sample bestond uit onbekende sequenties. Voor het poep
onderzoek hebben ze de samples namelijk vergeleken met samples uit een bestaande
database en hierdoor kon 15% gelinkt worden aan een bepaald virus. De rest stond niet
in de database en de onderzoekers gingen ervan uit dat de overige 85% net zo divers zou zijn als de
onderzochte 15%. Wat Bas toen heeft gedaan is kijken of er nieuwe genomen te assembleren waren
en dat bleek zo te zijn. Er bleek één virus te zijn wat een kwart van de overgebleven sequenties
bevatte. Door assembling was dus opeens een groot deel van de data te identificeren. De naam
crAssphage komt dan ook van crossassembly en phage, waarbij crossassembly afkomstig is van het
feit dat Bas alle metagenomen samen heeft geassembleerd en phage is afkomstig van bacterievirus.
Opeens zijn de virussen helemaal niet meer zo divers. Sommige mensen hebben maar liefst een

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 83750 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen
€2,99
  • (4)
  Kopen