Samenvatting

Samenvatting HCO biologie als een datawetenschap

Name: HCO biologie als een datawetenschap
SKU: doc_403007
Rating: 4.00 (4 reviews)
Author: brittheijmans

4 beoordelingen

0 keer verkocht

Vak
Systeembiologie

Instelling
Universiteit Utrecht (UU)

Dit is een uitgebreide samenvatting van het hoorcollege over het 1e hoofdstuk uit de reader. Begrippen die hierin naar voren komen, zijn: wetenschappelijke cyclus, database, data, crAssphage, datasets, data-driven discoveries, nulhypothese, Google, top down, bottom up, ISCB, fourth paradigm, FAIR d...

[Meer zien]

Voorbeeld 2 van de 6 pagina's

Bekijk voorbeeld

Geupload op 3 maart 2018
Aantal pagina's 6
Geschreven in 2017/2018
Type Samenvatting

wetenschappelijke cyclus
database
data
crassphage
datasets
data driven discoveries
nulhypothese
google
top down
bottom up
iscb
fourth paradigm
fair data
data recycling
sequencing machines
transcriptoo

Instelling
Universiteit Utrecht (UU)
Studie
Biologie
Vak
Systeembiologie

4 beoordelingen

Door: tomlous • 5 jaar geleden

Door: et98 • 6 jaar geleden

Door: thibaudtegroen • 7 jaar geleden

Door: sanneejanssen • 6 jaar geleden

Volgen

brittheijmans

Lid sinds 7 jaar 631 documenten verkocht

308

149

€2,99

Ook beschikbaar in voordeelbundel v.a. €10,49

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Ook beschikbaar in voordeelbundel (1)

Systeembiologie deeltoets 1

(2)

€ 41,86 € 10,49

30x verkocht

14 items

1. Samenvatting - Hco inleiding bio-informatica
2. Samenvatting - Hco biologie als een datawetenschap
3. Samenvatting - Hco praten tegen computers
4. Samenvatting - Kennisclip afstand tussen vectoren
5. Samenvatting - Kennisclip file formats
6. Samenvatting - Hco dimensies in data
7. Samenvatting - Hco fylogenetische bomen
8. Samenvatting - Hco conservatie
9. Samenvatting - Hco kwantificeren van sequentie similarity
10. Samenvatting - Hco algoritmes voor sequentie alignments
11. Samenvatting - Hco heuristic searches
12. Samenvatting - Hco fylogenetische interferentie
13. Samenvatting - Hco permutatie statistieken
14. Samenvatting - Dwo opgaven kansberekening
Meer zien

Biologie als een data wetenschap
Wetenschappelijke cyclus, je begint altijd met een vraag waarna een hypothese
volgt. Om deze te testen, voer je experimenten uit. De resultaten ga je dan
analyseren om tot een conclusie te komen. Zoals je in de cyclus ziet, zit de data bij
het experiment en bio-informatici hebben daar dus veel mee te maken.
Biologische databases, het eerste eiwit werd in 1956 gesequenced en dat
gebeurde dus voordat er DNA sequencing plaatsvond. Dit eiwit was insuline uit
een koe. Naarmate de tijd verstreek werden er steeds meer eiwitten
gesequenced en begon Margaret Oakley Dayhoff met het verzamelen van al deze
sequenties en structuren. Zij bracht deze samen in de Atlas op Protein Sequence and Structure (1965).
In de tussentijd zijn er nog meer databases bijgekomen zoals Protein Data Bank (1972) die met name
structuren bevat, Genbank (1982) die met name sequenties bevat en SWISSPROT (1987) die eiwitten
en gen sequenties bevat met een geteste functie.
Data, hoe meer data er is, hoe meer ontdekkingen er gedaan kunnen worden. Door de toename in
data hebben bio-informatici veel methodes ontwikkeld om de data te analyseren. Zo kan je
bijvoorbeeld een fylogenetische boom maken van cytochroom c eiwitten van verschillende
organismen. Zo lijkt de boom die hieruit volgt heel erg op de evolutionaire fylogenetische boom. M.
Fitch en Emannuel Margoliash hebben dit ontdekt en leverde dus het eerste bewijs voor de
evolutionaire boom. De toename in data is in de grafiek te zien, waar de rode lijn whole genome
sequenties bevat en de blauwe lijn gen sequenties.
Sequencing kosten, waarbij het sequencen van het eerste menselijk
genoom jaren duurde en heel veel kostte, kan dat tegenwoordig een stuk
sneller en goedkoper.
Gebruik van data & de wetenschappelijke cyclus, door data te
gebruiken, kan je sneller door de wetenschappelijke cyclus:
1. Stel je vraag als een data hypothese.
 Welke data bevat delen van het antwoord?
 Welk patroon in de data bevestigd/verwerpt je hypothese?
2. Schrijf een script om de data te analyseren.
3. Interpreteer de resultaten.
 Bevestigd/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en
biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
4. Trek een conclusie.
Dit levert een andere wetenschappelijke cyclus op dan die van wet-lab experimenten. Zo zie je dat de
hypothese naar een data hypothese is verandert, het experiment naar een script is verandert en dat
het analyseren van de resultaten naar het interpreteren van de resultaten is verandert.
crAssphage, in 2014 is (mede door Bas Dutilh) een nieuw virus ontdekt wat in mensen zit. Voor dit
onderzoek is bestaande data gebruikt om een nieuwe ontdekking te doen. We hebben meer
bacteriën in onze darmen dan dat we lichaamscellen hebben en deze bacteriën worden geïnfecteerd
door virussen. Het is dus van belang dat we deze virussen achterhalen. In dit onderzoek vroegen de
onderzoekers zich ook af waar het virus allemaal voorkomt. Hiervoor zijn ze op zoek gegaan naar een
database waarin informatie stond van over de hele wereld verzamelde monsters van mensendarmen.
Uit eerder onderzoek bleek al dat het virus bij 50% procent van de bevolking voorkomt dus het was
eigenlijk beter om niet naar individuen te kijken, maar juist naar rioolwater. Er bleek al een onderzoek
gedaan te zijn naar rioolzuiveringssamples van over de hele wereld en in alle samples is het virus
teruggevonden. Door het stellen van een gerichte vraag en het gebruik van bestaande data kunnen
bio-informaticus dus vragen beantwoorden.

, Datasets, er worden steeds meer metagenomen gesequenced door bijvoorbeeld HiSeq machines. In
heel veel gevallen zijn de onderzoekers naar 1 ding op zoek of weten ze helemaal niet waar ze naar
zoeken. De data wordt hierdoor soms zo groot dat je de resultaten niet meer kan analyseren en dat
soms zelfs de hypothese niet eens aan te pas komt, omdat mensen zomaar iets gaan sequencen om
hun vraag te kunnen beantwoorden. Deze data tsunami is voor bio-informatici juist voordelig.
Data-driven discoveries, zonder van te voren een vraag te hebben, kunnen ook al ontdekkingen
gedaan worden door gebruik van data:
1. Gebaseerd op een dataset kan je een data hypothese formuleren door je biologische kennis.
 Gebaseerd op je biologische kennis, wat verwacht in de data te zien?
 Nulhypothese: er is geen patroon
2. Schrijf een script om de data te analyseren
 Bio-informatici noemen dit een ‘sanity check’ en hiermee check je of je begrip van de
data klopt zonder dat je van te voren een vraag paraat had.
3. Interpreteer de resultaten.
 Bevestigt/verwerpt de data je hypothese?
 Net als bij wet-lab experimenten moet je oppassen voor fouten en biases:
 In (jouw begrip/interpretatie van) de data
 In je analyse methode (script)
 Als de data niet consistent is met je verwachting heb je misschien wel iets nieuws
ontdekt.
4. Formuleer een nieuwe hypothese waarin je de potentieel nieuwe ontdekking verwerkt.
 Test hem.
Voorbeeld data-driven ontdekking, we gaan even terug naar het onderzoek naar rioolwater. Door je
biologische kennis weet je dat daar bacteriën en virussen in voorkomen en dat kan je dan
bijvoorbeeld testen. De nulhypothese hierbij zou kunnen zijn dat er bacteriën en virussen in de
samples worden aangetroffen en dat deze verdeling over de hele wereld hetzelfde is. Als dit niet zo
blijkt te zijn, kan je een nieuwe hypothese opstellen om te kijken of je ontdekking klopt.
Nulhypothese, hierbij wordt aangenomen dat de methode geen effect heeft of dat het
onderzoek geen verklarende kracht heeft. Als de nulhypothese dus ondersteund wordt,
is er niet bijzonders aan de hand. De nulhypothese wordt meestal gekozen in de
veronderstelling dat het effect niet bestaat en er wordt geprobeerd om de nulhypothese
te verwerpen.
crAssphage2, het begon met de data uit een artikel (2010) waarin ze virussen hadden
geïsoleerd uit de poep van 12 verschillende mensen. Deze mensen waren afkomstig uit
4 families waarbij uit elke familie de poep van de moeder en twee eeneiige
tweelingdochters was onderzocht. De onderzoekers waren namelijk benieuwd naar de
diversiteit van de virussen. Uit dit onderzoek bleek dat de verschillende groepen
functionele virussen erg verschillen tussen de onderzochte mensen, terwijl de bacteriën
juist erg overeenkomen. Bas Dutilh vond dat interessant en zijn begrip van de data was
hiermee vergroot door het feit dat virussen dus heel erg verschillen. In het onderzoek
stond echter dat maar 15% van alle data gebruikt kon worden om de conclusie te
trekken. De rest van het sample bestond uit onbekende sequenties. Voor het poep
onderzoek hebben ze de samples namelijk vergeleken met samples uit een bestaande
database en hierdoor kon 15% gelinkt worden aan een bepaald virus. De rest stond niet
in de database en de onderzoekers gingen ervan uit dat de overige 85% net zo divers zou zijn als de
onderzochte 15%. Wat Bas toen heeft gedaan is kijken of er nieuwe genomen te assembleren waren
en dat bleek zo te zijn. Er bleek één virus te zijn wat een kwart van de overgebleven sequenties
bevatte. Door assembling was dus opeens een groot deel van de data te identificeren. De naam
crAssphage komt dan ook van crossassembly en phage, waarbij crossassembly afkomstig is van het
feit dat Bas alle metagenomen samen heeft geassembleerd en phage is afkomstig van bacterievirus.
Opeens zijn de virussen helemaal niet meer zo divers. Sommige mensen hebben maar liefst een

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 65040 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Laatst bekeken door jou

Samenvatting ·

(0)

SANCTIERECHT WERKGROEPUITWERKINGEN

Tentamen (uitwerkingen) ·

(1)

68W LPC Exam Questions And Answers

Samenvatting ·

(0)

Samenvatting omgevingsrecht blok 5

Tentamen (uitwerkingen) ·

(0)

FNAN 522 Exam I-MIDTERM Questions/Answers

Overig ·

(0)

Verwerkingsopdrachten criminologie

Samenvatting ·

(0)

Inleiding geriatrie en gerontologie

Tentamen (uitwerkingen) ·

(0)

ISSC 362 Mid Term All attempt points 100%

Flashcards ·

(0)

Enzymes - A Level Biology OCR A

College aantekeningen ·

(0)

Samenvatting

Samenvatting HCO biologie als een datawetenschap

Document informatie

Onderwerpen

Geschreven voor

4 beoordelingen

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

In een paar klikken geregeld

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?

Laatst bekeken door jou

Samenvatting ·

SANCTIERECHT WERKGROEPUITWERKINGEN

Tentamen (uitwerkingen) ·

68W LPC Exam Questions And Answers

Samenvatting ·

Samenvatting omgevingsrecht blok 5

Tentamen (uitwerkingen) ·

FNAN 522 Exam I-MIDTERM Questions/Answers

Overig ·

Verwerkingsopdrachten criminologie

Samenvatting ·

Inleiding geriatrie en gerontologie

Tentamen (uitwerkingen) ·

ISSC 362 Mid Term All attempt points 100%

Flashcards ·

Enzymes - A Level Biology OCR A

College aantekeningen ·

The relationships between MNCs and trade