Dit is een uitgebreide samenvatting van het hoorcollege over hoofdstuk 3 uit de reader: dimensies in data. Onderwerpen die hier naar voren komen, zijn: heatmap, weefselexpressie, expressiepatroon, vector, magnitude, distance matrix, data visualiseren, principale componenten, PC, PCA, co-expressie, ...
HCO dimensies in data
Heatmap, is een figuur waar de kleur de waarde of dimensie aangeeft. Zie bijvoorbeeld de
heatmap van genexpressie in de hersenen, het hart, de nieren en de lever. Deze expressie
kan je meten door transcriptomics.
Weefselexpressie, je kan kijken naar de genexpressie van alle genen in verschillende
weefsels, maar je kan ook naar de expressie van verschillende genen kijken over alle
weefsels.
Expressiepatroon, als je naar weefselexpressie van twee verschillende genen gaat kijken
en je een gelijke trend vindt, hebben de genen eenzelfde expressiepatroon.
Vector, in een x-dimensionale ruimte kun je een punt uitdrukken als een vector vanuit het 0 punt van
alle dimensies. Zoals de drie vectoren in de driedimensionale ruimte die in de kennisclip is besproken
(zie samenvatting ‘kennisclip afstand tussen vectoren’). Door gebruik van vectoren is het makkelijker
om genexpressies met elkaar te vergelijken.
Wiskundige toolbox, door het gebruik van vectoren kun je bepaalde wiskunde tools toepassen:
- Je kan de afstand tussen data punten vaststellen.
- Je kan dimensionale data visualiseren met PCA (zie verdere samenvatting).
- Je kan data clusteren.
Hierdoor kan je je data beter begrijpen.
Magnitude, als je kijkt naar de verschillen in hoeveelheid van genexpressie tussen
twee genen, gebruik je de Manhattan of Euclidean distance. Dit zou een lage afstand
opleveren voor het rode en paarse gen, maar een grote afstand tussen rood en blauw.
Expressiepatroon, als je gaat kijken naar de correlatie in expressie gebruik je de Pearson correlation.
Dit zal een grote samenhang opleveren tussen rood en blauw en een lage samenhang tussen paars en
een van de andere genen uit de grafiek.
Distance matrix, als je kijkt naar de expressie van genen in verschillende weefsels kan je door
middel van R alle afstanden uit laten rekenen en deze in een distance matrix verwerken. Rechts
is zo’n matrix weergegeven en deze is symmetrisch doordat de afstand tussen g004 en g011
hetzelfde is als de afstand tussen g011 en g004. Deze afstanden kan je natuurlijk ook met de
hand uitrekenen, maar met R gaat het een stuk sneller.
Data visualiseren, in de grafiek met 3 assen is weergegeven hoe een grote set
van driedimensionale vectoren kan worden weergegeven langs een X, Y en Z as.
De tweedimensionale projecties worden in het blauw, rood en groen
weergegeven. Hierbij moet je je voorstellen dat voor de blauwe projectie een
lamp aan de rechterkant is geplaatst, waardoor alle vectoren in de wolk een
schaduw/afdruk achterlaten. Je bent nu dus van een 3D naar een 2D projectie
gegaan en je kan ook vanaf een duizenddimensionale projectie naar een 2D
projectie. Dit doe je door er vanaf een bepaalde kant naar te kijken. Hierbij gaat
echter wel informatie verloren, want door bijvoorbeeld van de 3D projectie naar
de 2D projectie te gaan, zullen overlappende punten als één punt gezien
worden. Belangrijk is dus dat een N dimensionale projectie altijd alle informatie
bevat van een N dimensionale dataset.
Principale componenten, hierbij projecteer je een hoog dimensionale wolk naar
minder dimensies toe. Deze dimensies noemen we principale componenten. Op
de assen van deze projecties komt dan PC 1 (principale component 1), PC 2 etc. te
staan. In de afbeelding is weergegeven hoe je principale componenten op moet
stellen. Op de Y-as is de expressie van gen 1 weergegeven en op de X-as die van
gen 2. De rode vierkantjes geven de expressie in weefsel 2 en de blauwe ruitjes
geven weefsel 1 aan. Stel je voor dat weefsel 2 hersenweefsel is van veel
verschillende mensen en dat weefsel 1 darmweefsel is. Dan komt gen 1 veel tot
expressie in weefsel 2 en komt gen 2 juist tot expressie in de darmen. Als je een
principale componenten analyse (PCA) doet weet je niet welke puntjes rood of
, blauw zijn, maar je weet wel hun locatie in het 2 dimensionale assenstelsel. Je gaat dan op zoek naar
de as waar de spreiding tussen de punten het grootste is. In dit geval is dat de groene as. Zo kan je de
spreiding van de punten goed visualiseren. De projectie over de groene as noem je dan principale
component 1, omdat die de meeste spreiding heeft. De as die daarna de meeste spreiding geeft,
noem je principale component 2. De tweede component staat altijd haaks op de 1 e anders heb je veel
overeenkomsten met de eerste component en dat wil je juist niet. Je moet het dus zo zien dat je alle
punten die op de 1e principale component weghaalt en dat je daarna kijkt op welke as dan de
grootste spreiding is. Dat is dan component 2 en deze staat altijd haaks op principale component 1.
Visualisatie hoog dimensionale data, in de
afbeelding zie je 3 dimensionale data weergegeven
en daarnaast de projectie van de principale
componenten 1 en 2. Je ziet hier dat de 1 e PC (43%)
meer variatie toont dan de 2e (23%). Deze variatie zet
je er altijd bij op de as, waarbij de 1 e PC altijd op de
X-as staat.
Variatie PC, de variatie per principale component
neemt vrij snel af. Met een paar principale componenten kun je dus al bijna alle variatie in je data
verklaren. Als je een 25 dimensionaal assenstelsel hebt, doordat je naar de expressie van 25 genen in
verschillende weefsel hebt gekeken, kan je deze variatie al na 10 principale componenten verklaren.
Dit komt doordat je al van zoveel kanten gekeken hebt dat je de overlap eruit hebt gehaald, maar ook
co-expressie is hiervoor een verklaring.
Co-expressie, hierbij hebben genen eenzelfde expressieprofiel. Je hoeft dus eigenlijk maar de
expressie van een van deze genen te weten om die van de andere te achterhalen. Hierdoor hoef je
maar 10 principale componentassen te weten om van alle genen de expressie te weten.
Menselijk microbioom, de informatie over het humane
microbioom heeft veel dimensies. In de staafdiagrammen zijn veel
verschillende testpersonen weergegeven en van al deze
testpersonen zijn meerdere locaties/weefsels bekeken. Zo zie je
dat mensen met weinig bacteriodetes (donkerblauw) in hun poep
juist veel firmicutes (donkergroen) bevatten. Als je duidelijk de
verschillen tussen de onderdelen aan wil geven, kan je de vele
dimensies weergegeven in de belangrijkste twee principale componenten: 1
en 2. Zo zie je dat PC1 13% van de variatie vangt en PC 4,4%. Hierin zie je al
belangrijke verschillen. Zo zie je dat de mond heel erg verschilt met andere
locaties. Het op-een-na belangrijkste verschil is op PC2 te zien en hier zie je
dat de darm ook erg verschilt met de rest. Verder zie je ook of er clustering
aanwezig is of niet. Zo zie je bij huid en neus niet echt een clustering (vanuit
deze componenten) maar bij de mond en darm wel.
PCA, principale component analyse, laat zien wat de meest belangrijke
informatie is in PC1 en toont aan of er clusters aanwezig zijn of niet.
Assen, soms staan er genen op de assen en geven de punten in de grafiek de
samples aan waarin de expressie is gemeten. Andere keren zijn de assen juist
monsters en zijn de punten de genen waarvan hun expressie in de monsters is
gemeten. Het belangrijkste is dat alles uiteindelijk een tabel met data is en het maakt niet zoveel uit
of je nu de rijen of de kolommen op de assen zet. Als je genen wil vergelijken dan zet je deze als
punten in de grafiek en als je monster wil vergelijken zet je deze juist als punten in de grafiek.
Assen PCA, de assen die de projectie van de PC’s aangeven lopen altijd door de oorsprong, aangezien
ze de richting aangeven.
Forensisch onderzoek, PCA wordt weleens gebruikt in onderzoek. Als je bijvoorbeeld veel samples
hebt gemeten op veel verschillende locaties zie je dat samples die van dezelfde plek afkomstig zijn
clusteren. Als je dan een monster hebt waarvan je niet weet waar het vandaan komt, kan je deze
toevoegen aan de data en kan je een voorspelling maken over zijn afkomst. In dit geval is de
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
√ Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, Bancontact of creditcard voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper brittheijmans. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €2,99. Je zit daarna nergens aan vast.