Samenvatting

Samenvatting Web Data Processing Systems (X_400418), Master Vu Business Analytics/AI/Computer Science/Econometrie

Name: Samenvatting Web Data Processing Systems (X_400418), Master Vu Business Analytics/AI/Computer Science/Econometrie
SKU: doc_2179192
Rating: 4.00 (3 reviews)
Author: thomezechiels

3 beoordelingen

46 keer bekeken 3 keer verkocht

Instelling
Vrije Universiteit Amsterdam (VU)

Een samenvatting van alle lectures (1 t/m 12) van het vak Web Data Processing Systems aan de VU Amsterdam. Kort, duidelijk en overzichtelijk samengevat met ondersteundende afbeeldingen waar nodig.

[Meer zien]

Voorbeeld 3 van de 22 pagina's

Bekijk voorbeeld

Geupload op 14 december 2022
Aantal pagina's 22
Geschreven in 2022/2023
Type Samenvatting

3 beoordelingen

Door: semwierdsma • 9 maanden geleden

Door: julioraulcordal • 11 maanden geleden

Door: kaunpark • 1 jaar geleden

Volgen

thomezechiels Lid sinds 1 jaar 3 documenten verkocht

€5,98

Toegevoegd

In winkelwagen Op verlanglijstje

100% tevredenheidsgarantie
Direct beschikbaar na betaling
Zowel online als in PDF
Je zit nergens aan vast

Knowledge bases
First Information Retrieval was based on keywords. Now it is based on entities.

Symbolic Knowledge Bases (KBs)

● Meaning accessible to humans
● Constructed manually or from unstructured sources
● Can be expressed using first-order logic (knowledge graphs):

Latent Models

● Meaning is hidden
● Learned using machine learning techniques
● Prominent example: Google’s word2vec

RDF (Resource Description Framework)

● Standard used to report statements that describe properties of resources
● Statements can be represented as triplets of the form <s p o> (subject predicate object) and
serialized with different formats (RDF/XML, N3, Turtle)
● RDF dataset can be represented as a directed graph
● SPARQL is used to query RDF databases (inspired by SQL)
○ Finding answers to a query corresponds to finding all possible graph homomorphisms
between the query and the graph

Knowledge bases on the web
WordNet

● Groups words into sets of synonyms called synets.
● Words can be monosemous (one meaning) or polysemous (multiple meanings)
● Each synet has a gloss (short description) and is connected to other synets using relations. Most
important:
○ Hypernyms/Hyponums (isA)
○ Meronym/Holonyms (partOf)

DBpedia

● Project to convert Wikipedia pages to RDF
● Uses structured data on the pages
● Contains links to other KBs (widely popular in the “linked-data-cloud”
● Fairly large ontology but not rich in terms of expressiveness
● Alignment between infoboxes and ontologies is done via community-provided mappings

Yago (Yet another great ontology)

● Goals:
○ Unify Wikipedia and Wordnet

, ○ Extract clean facts
○ Check plausibility of facts via type checking
● High standard in terms of quality

Freebase

● Collaborative knowledge base by its community
● Acquired by Google, but shutdown in 2014

Wikidata

● Mainly text → hard to verify and keep consistency
● “Data version” of Wikipedia
○ Validated by community
○ Keeps provenance of the data
○ Multilingual
○ Supports plurality
● High quality knowledge

Natural Language Processing (NLP)
Knowledge acquisition: process to extract knowledge (to be integrated
into knowledge bases) from unstructured text or other data

Preprocessing
Tokenization

Split sequence into tokens (terms/words)
● Token: instance of a sequence of characters in some particular document that are grouped
together as a useful semantic unit
● Type: class of all tokens containing the same character sequence
● Example: “A rose is a rose is a rose”
○ Tokens: 8
○ Types: 3 ({a, is, rose})
Queries and documents have to be preprocessed identically. It determines which queries match.
Problems:
● Hyphens (Co-education, drag-and-drop)
● Names (San Francisco, Los Angeles)
● Language (compound nouns in German v.s. separate nouns in English)

Lemmatization

Goal: reduce words to base form (Lemma; as defined in dictionary)

, ● Am, are, be, is → be
● Car, cars, car’s, cars’ → car
Stemming

Goal: reduce words to their “roots”
● Are → ar
● Automate, automates, automatic, automation → automat

Stop word removal

Based on a stop list, remove all stop words. All words that are not part of the IR system’s dictionary.
● Saves memory
● Makes query processing faster

Part-of-speech (POS)

Assign a label to each token that indicates what the function is in the context.
● Function words: used to make sentences grammatically correct
○ Prepositions, conjunctions, pronouns, etc.
● Content words: used to carry the meaning of a sentence
○ Nouns, verbs, adjectives, adverbs
Part-of-speech tags allow for a higher degree of abstraction to estimate likelihoods.
How do they work?
● Rule-based taggers
● Stochastic taggers. Most used and rely on Hidden Markov Models. Based on likelihood.

Other NLP tasks
Parsing

Construct a tree that represents the syntactic structure of the string according to some grammars.

Constituency parsing

Breaks the phrase into sub-phrases. Nonterminals in the tree are types of phrases, the terminals are the
words in the sentence, and the edges are unlabeled.

Dependency parsing

Connect the words according to their relationships. Each vertex in the tree represents a word, child
nodes are words that are dependent on the parent, and edges are labeled
by the relationship.

Information Extraction
Two types of information extraction: Named Entity Recognition (NER) and Relation Extraction (RE).

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!

Snel en makkelijk kopen

Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.

Focus op de essentie

Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper thomezechiels. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor €5,98. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews)

Afgelopen 30 dagen zijn er 64438 samenvattingen verkocht

Opgericht in 2010, al 14 jaar dé plek om samenvattingen te kopen

Start met verkopen

Populaire Universiteiten

Populaire Hogescholen

Populaire Scholen

Populaire samengevatte studieboeken voor Communicatie en Taal

Populaire samengevatte studieboeken voor Economie en Bedrijf

Populaire samengevatte studieboeken voor Exact en Informatica

Populaire samengevatte studieboeken voor Gedrag en Maatschappij

Populaire samengevatte studieboeken voor Gezondheid en Geneeskunde

Populaire samengevatte studieboeken voor Onderwijs en Opvoeding

Populaire samengevatte studieboeken voor Recht en Bestuur

De beste samenvattingen om je Wft-diploma te behalen

De beste samenvattingen om je theorie examens te behalen

De beste samenvattingen voor je cursus in de Veiligheidsbranche

De beste samenvattingen voor Gezondheid & Hygiëne cursussen

De beste samenvattingen voor zakelijke cursussen

De beste samenvattingen voor je PABO WisCAT cursus

Populaire vakken

Populaire vakken

Populaire vakken

Boekverslagen en samenvattingen

Verkoper

Samenvatting

Samenvatting Web Data Processing Systems (X_400418), Master Vu Business Analytics/AI/Computer Science/Econometrie

Document informatie

Onderwerpen

Geschreven voor

3 beoordelingen

Verkoper

Ontvangen beoordelingen

Voorbeeld van de inhoud

Voordelen van het kopen van samenvattingen bij Stuvia op een rij:

Verzekerd van kwaliteit door reviews

Snel en makkelijk kopen

Focus op de essentie

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?