Een samenvatting van de meestgebruikte functies van de Pandas library voor Python. De Pandas library is de meest gebruikte library voor het importen en bewerken van tabel data.
De vragen zijn onderdeel van de Python for Data Analysis cursus van School of Data Science.
importeren en exporteren
df = pd.read_csv(“location.csv”) Importeert dataset en slaat het op onder de naam df. De
default is hier csv. Heb je een andere delimiter?
Gebruik de sep parameter.
df.to_csv('mijnDataset.csv') Slaat dataset df op als mijnDataset.csv
Beschrijvende functies
df.head() Laat de eerste 5 rijen zien van je dataset.
df.tail() Laat de laatste 5 rijen zien van je dataset.
df.describe() Geeft beschrijvende statistieken van je dataset. Wanneer er een
numerieke kolom aanwezig is in je dataset, zal de beschrijving
uitsluitend op deze kolom gericht zijn.
df.shape Geeft het aantal rijen en kolommen weer.
df.dtypes Geeft aan welke datatypes aanwezig zijn in je dataset.
df.mean() Geeft van iedere numerieke kolom de gemiddelde waarde.
df.median() Geeft van iedere numerieke kolom de mediaan.
df.isnull() Geeft weer welke rijen missende data bevatten.
df.notnull() Geeft weer welke rijen geen missende data bevatten.
df[‘A’].value_counts() Geeft binnen kolom A weer hoeveel er per waarde aanwezig zijn.
df[‘A’].unique() Geeft alle unieke waarden binnen kolom A.
Sorteren van data
df.sort_values(‘A’, Sorteert je dataset op basis van kolom met naam A. Bij de
ascending = True/False) ascending parameter kun je middels True of False aangeven of
je het oplopend wilt of niet.
pd.crosstab(df[‘A’], Creëert een frequentietabel van kolom A in combinatie met
df[‘B’]) kolom B.
Selecteren van data
df.iloc[0,0] Selecteert het element op index positie rij 0 en
kolom 0.
df.loc[‘rijA’,’kolomA’] Selecteert data in rijA en kolomA
df[‘kolomA’] Selecteert kolom met naam ‘A’.
df[df[‘kolomA’] == ‘A’] Filteren door binnen de kolomA te zoeken naar de
string A en alleen de rijen te selecteren die
binnen die voorwaarde vallen.
df[(df[‘kolomA’] == ‘A’) & Het gebruik van meerdere condities om rijen te
(df[‘kolomB’ > 8)] selecteren die voldoen aan de voorwaarden.
df[df[‘kolomA’].isin(['A',B','C'])] Seleceert rijen binnen kolomA wanneer het element
gelijk is aan de string ‘A’, ‘B’ of ‘C’.
School of Data Science
Lulofsstraat 55, Unit 48 | 2521AL, Den Haag
+31 70 221 1586
schoolofdatascience.nl
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper SchoolOfDataScience. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €0,00. Je zit daarna nergens aan vast.