Samenvatting

Samenvatting HCO dimensies in data

Name: HCO dimensies in data
SKU: doc_403013
Rating: 4.00 (3 reviews)
Author: brittheijmans

3 beoordelingen

0 keer verkocht

Vak
Systeembiologie

Instelling
Universiteit Utrecht (UU)

Dit is een uitgebreide samenvatting van het hoorcollege over hoofdstuk 3 uit de reader: dimensies in data. Onderwerpen die hier naar voren komen, zijn: heatmap, weefselexpressie, expressiepatroon, vector, magnitude, distance matrix, data visualiseren, principale componenten, PC, PCA, co-expressie, ...

[Meer zien]

Voorbeeld 2 van de 5 pagina's

Bekijk voorbeeld

Geupload op 3 maart 2018
Aantal pagina's 5
Geschreven in 2017/2018
Type Samenvatting

heatmap
weefselexpressie
expressiepatroon
vector
magnitude
distance matrix
data visualiseren
principale componenten
pca
co expressie
microbioom
assen pca
clusters
bi clustered heatmap
clusters make
pc

Instelling
Universiteit Utrecht (UU)
Studie
Biologie
Vak
Systeembiologie

3 beoordelingen

Door: et98 • 6 jaar geleden

Door: thibaudtegroen • 7 jaar geleden

Door: sanneejanssen • 7 jaar geleden

Volgen

brittheijmans

Lid sinds 7 jaar 634 documenten verkocht

308

149

€2,99

Ook beschikbaar in voordeelbundel v.a. €10,49

In winkelwagen

Opslaan

100% tevredenheidsgarantie
Direct beschikbaar na je betaling
Lees online óf als PDF
Geen vaste maandelijkse kosten

Ook beschikbaar in voordeelbundel (1)

Systeembiologie deeltoets 1

(2)

€ 41,86 € 10,49

30x verkocht

14 items

1. Samenvatting - Hco inleiding bio-informatica
2. Samenvatting - Hco biologie als een datawetenschap
3. Samenvatting - Hco praten tegen computers
4. Samenvatting - Kennisclip afstand tussen vectoren
5. Samenvatting - Kennisclip file formats
6. Samenvatting - Hco dimensies in data
7. Samenvatting - Hco fylogenetische bomen
8. Samenvatting - Hco conservatie
9. Samenvatting - Hco kwantificeren van sequentie similarity
10. Samenvatting - Hco algoritmes voor sequentie alignments
11. Samenvatting - Hco heuristic searches
12. Samenvatting - Hco fylogenetische interferentie
13. Samenvatting - Hco permutatie statistieken
14. Samenvatting - Dwo opgaven kansberekening
Meer zien

HCO dimensies in data
Heatmap, is een figuur waar de kleur de waarde of dimensie aangeeft. Zie bijvoorbeeld de
heatmap van genexpressie in de hersenen, het hart, de nieren en de lever. Deze expressie
kan je meten door transcriptomics.
Weefselexpressie, je kan kijken naar de genexpressie van alle genen in verschillende
weefsels, maar je kan ook naar de expressie van verschillende genen kijken over alle
weefsels.
Expressiepatroon, als je naar weefselexpressie van twee verschillende genen gaat kijken
en je een gelijke trend vindt, hebben de genen eenzelfde expressiepatroon.
Vector, in een x-dimensionale ruimte kun je een punt uitdrukken als een vector vanuit het 0 punt van
alle dimensies. Zoals de drie vectoren in de driedimensionale ruimte die in de kennisclip is besproken
(zie samenvatting ‘kennisclip afstand tussen vectoren’). Door gebruik van vectoren is het makkelijker
om genexpressies met elkaar te vergelijken.
Wiskundige toolbox, door het gebruik van vectoren kun je bepaalde wiskunde tools toepassen:
- Je kan de afstand tussen data punten vaststellen.
- Je kan dimensionale data visualiseren met PCA (zie verdere samenvatting).
- Je kan data clusteren.
Hierdoor kan je je data beter begrijpen.
Magnitude, als je kijkt naar de verschillen in hoeveelheid van genexpressie tussen
twee genen, gebruik je de Manhattan of Euclidean distance. Dit zou een lage afstand
opleveren voor het rode en paarse gen, maar een grote afstand tussen rood en blauw.
Expressiepatroon, als je gaat kijken naar de correlatie in expressie gebruik je de Pearson correlation.
Dit zal een grote samenhang opleveren tussen rood en blauw en een lage samenhang tussen paars en
een van de andere genen uit de grafiek.
Distance matrix, als je kijkt naar de expressie van genen in verschillende weefsels kan je door
middel van R alle afstanden uit laten rekenen en deze in een distance matrix verwerken. Rechts
is zo’n matrix weergegeven en deze is symmetrisch doordat de afstand tussen g004 en g011
hetzelfde is als de afstand tussen g011 en g004. Deze afstanden kan je natuurlijk ook met de
hand uitrekenen, maar met R gaat het een stuk sneller.
Data visualiseren, in de grafiek met 3 assen is weergegeven hoe een grote set
van driedimensionale vectoren kan worden weergegeven langs een X, Y en Z as.
De tweedimensionale projecties worden in het blauw, rood en groen
weergegeven. Hierbij moet je je voorstellen dat voor de blauwe projectie een
lamp aan de rechterkant is geplaatst, waardoor alle vectoren in de wolk een
schaduw/afdruk achterlaten. Je bent nu dus van een 3D naar een 2D projectie
gegaan en je kan ook vanaf een duizenddimensionale projectie naar een 2D
projectie. Dit doe je door er vanaf een bepaalde kant naar te kijken. Hierbij gaat
echter wel informatie verloren, want door bijvoorbeeld van de 3D projectie naar
de 2D projectie te gaan, zullen overlappende punten als één punt gezien
worden. Belangrijk is dus dat een N dimensionale projectie altijd alle informatie
bevat van een N dimensionale dataset.
Principale componenten, hierbij projecteer je een hoog dimensionale wolk naar
minder dimensies toe. Deze dimensies noemen we principale componenten. Op
de assen van deze projecties komt dan PC 1 (principale component 1), PC 2 etc. te
staan. In de afbeelding is weergegeven hoe je principale componenten op moet
stellen. Op de Y-as is de expressie van gen 1 weergegeven en op de X-as die van
gen 2. De rode vierkantjes geven de expressie in weefsel 2 en de blauwe ruitjes
geven weefsel 1 aan. Stel je voor dat weefsel 2 hersenweefsel is van veel
verschillende mensen en dat weefsel 1 darmweefsel is. Dan komt gen 1 veel tot
expressie in weefsel 2 en komt gen 2 juist tot expressie in de darmen. Als je een
principale componenten analyse (PCA) doet weet je niet welke puntjes rood of

, blauw zijn, maar je weet wel hun locatie in het 2 dimensionale assenstelsel. Je gaat dan op zoek naar
de as waar de spreiding tussen de punten het grootste is. In dit geval is dat de groene as. Zo kan je de
spreiding van de punten goed visualiseren. De projectie over de groene as noem je dan principale
component 1, omdat die de meeste spreiding heeft. De as die daarna de meeste spreiding geeft,
noem je principale component 2. De tweede component staat altijd haaks op de 1 e anders heb je veel
overeenkomsten met de eerste component en dat wil je juist niet. Je moet het dus zo zien dat je alle
punten die op de 1e principale component weghaalt en dat je daarna kijkt op welke as dan de
grootste spreiding is. Dat is dan component 2 en deze staat altijd haaks op principale component 1.
Visualisatie hoog dimensionale data, in de
afbeelding zie je 3 dimensionale data weergegeven
en daarnaast de projectie van de principale
componenten 1 en 2. Je ziet hier dat de 1 e PC (43%)
meer variatie toont dan de 2e (23%). Deze variatie zet
je er altijd bij op de as, waarbij de 1 e PC altijd op de
X-as staat.
Variatie PC, de variatie per principale component
neemt vrij snel af. Met een paar principale componenten kun je dus al bijna alle variatie in je data
verklaren. Als je een 25 dimensionaal assenstelsel hebt, doordat je naar de expressie van 25 genen in
verschillende weefsel hebt gekeken, kan je deze variatie al na 10 principale componenten verklaren.
Dit komt doordat je al van zoveel kanten gekeken hebt dat je de overlap eruit hebt gehaald, maar ook
co-expressie is hiervoor een verklaring.
Co-expressie, hierbij hebben genen eenzelfde expressieprofiel. Je hoeft dus eigenlijk maar de
expressie van een van deze genen te weten om die van de andere te achterhalen. Hierdoor hoef je
maar 10 principale componentassen te weten om van alle genen de expressie te weten.
Menselijk microbioom, de informatie over het humane
microbioom heeft veel dimensies. In de staafdiagrammen zijn veel
verschillende testpersonen weergegeven en van al deze
testpersonen zijn meerdere locaties/weefsels bekeken. Zo zie je
dat mensen met weinig bacteriodetes (donkerblauw) in hun poep
juist veel firmicutes (donkergroen) bevatten. Als je duidelijk de
verschillen tussen de onderdelen aan wil geven, kan je de vele
dimensies weergegeven in de belangrijkste twee principale componenten: 1
en 2. Zo zie je dat PC1 13% van de variatie vangt en PC 4,4%. Hierin zie je al
belangrijke verschillen. Zo zie je dat de mond heel erg verschilt met andere
locaties. Het op-een-na belangrijkste verschil is op PC2 te zien en hier zie je
dat de darm ook erg verschilt met de rest. Verder zie je ook of er clustering
aanwezig is of niet. Zo zie je bij huid en neus niet echt een clustering (vanuit
deze componenten) maar bij de mond en darm wel.
PCA, principale component analyse, laat zien wat de meest belangrijke
informatie is in PC1 en toont aan of er clusters aanwezig zijn of niet.
Assen, soms staan er genen op de assen en geven de punten in de grafiek de
samples aan waarin de expressie is gemeten. Andere keren zijn de assen juist
monsters en zijn de punten de genen waarvan hun expressie in de monsters is
gemeten. Het belangrijkste is dat alles uiteindelijk een tabel met data is en het maakt niet zoveel uit
of je nu de rijen of de kolommen op de assen zet. Als je genen wil vergelijken dan zet je deze als
punten in de grafiek en als je monster wil vergelijken zet je deze juist als punten in de grafiek.
Assen PCA, de assen die de projectie van de PC’s aangeven lopen altijd door de oorsprong, aangezien
ze de richting aangeven.
Forensisch onderzoek, PCA wordt weleens gebruikt in onderzoek. Als je bijvoorbeeld veel samples
hebt gemeten op veel verschillende locaties zie je dat samples die van dezelfde plek afkomstig zijn
clusteren. Als je dan een monster hebt waarvan je niet weet waar het vandaan komt, kan je deze
toevoegen aan de data en kan je een voorspelling maken over zijn afkomst. In dit geval is de

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

Studenten hebben al meer dan 850.000 samenvattingen beoordeeld. Zo weet jij zeker dat je de beste keuze maakt!

In een paar klikken geregeld

Geen gedoe — betaal gewoon eenmalig met iDeal, Bancontact of creditcard en je bent klaar. Geen abonnement nodig.

Focus op de essentie

Studenten maken samenvattingen voor studenten. Dat betekent: actuele inhoud waar jij écht wat aan hebt. Geen overbodige details!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 76388 samenvattingen verkocht

Opgericht in 2010, al 15 jaar dé plek om samenvattingen te kopen

Start met verkopen

Laatst bekeken door jou

Antwoorden ·

(1)

Samenvatting

Samenvatting HCO dimensies in data

Document informatie

Onderwerpen

Geschreven voor

3 beoordelingen

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Dit zijn jouw voordelen als je samenvattingen koopt bij Stuvia:

Bewezen kwaliteit door reviews

In een paar klikken geregeld

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?

Laatst bekeken door jou

Antwoorden ·

Casussen strafrecht 2