Alles wat je nodig hebt voor het tentamen van collectieve intelligentie. Dit omvat H1 & H7 van Aggarwal, de aantekeningen van de hoorcolleges en de gastcolleges en de notebooks samengevat.
Module 1: Intro recommender systems
Recommender systems zijn systemen die aanbevelingen doen aan de hand van bijvoorbeeld
algoritmes. Er zijn twee methodes om dit te doen:
1. Content-based filtering: gaat over de inhoud van een product. Dingen aanbevelen aan de hand
van de inhoud. (Hou je van documentaires?)
2. Collaborative filtering: gaat meer over interactie en gedrag van gebruiker. Interacties die
gebruikers hebben met de service. (welke andere films vind je goed?)
Collaborative filtering
Neighbourhood based collaborative filtering: maakt gebruik van het gedrag van andere gebruikers om
te weten wat onze gebruiker leuk zou kunnen vinden. Je kiest de k nearest neighbors, om te kijken of
je iets wilt aanbevelen of niet. Dus je neemt meerdere groene magneten (personen die een rating
hebben gegeven) die in binnen k in de buurt van de rode magneet (persoon zonder rating) liggen.
Eisen van een neighbourhood:
- K dichtstbijzijnde punten selecteren (similarity) / most similar
- Alleen groene punten meenemen (geen rode) punten die informatie geven.
- Minimale similarity, in praktijk kan het moeilijk zijn om een neighbourhood te vinden.
Hoe kunnen we achterhalen of dit een effectief recommender system is?
- Mean square error: het verschil tussen voorspelling en daadwerkelijke waarde in het kwadraat
- Cosine similarity: Hoek tussen 2 punten berekenen en daar de cosinus van berekenen
User-based collaborative filtering: Item-based collaborative filtering:
- Bereken afstanden/similarities tussen - Bereken afstanden/similarities tussen
gebruikers items
- Bepaal een neighbourhood voor de - Bepaal een neighbourhood voor het
doelgebruiker doelitem
- Berekend een voorspelde rating voor de - Bereken een voorspelde rating voor de
doelfilm doelfilm
- Kijk of deze boven een bepaalde - Kijk of deze boven een bepaalde
drempelwaarde uitkomt drempelwaarde uitkomt
- Zo ja, beveel de film aan - Zo ja, beveel de film aan
Bij een matrix met data waarover je iets wilt voorspellen is het gebruikelijk om op de verticale as de
datapunten te zetten, en op de horizontale as de features. Dus voor user-based collaborative filtering
staan de gebruikers verticaal en de films horizontaal. Voor item- based collaborative filtering zijn de
films de datapunten en de gebruikers de features.
Mean centering: het idee is om elke rating van een gebruiker te verminderen met de gemiddelde rating
van diezelfde gebruiker. Aangezien we in de utility matrix elke kolom de ratings van één gebruiker
staan komt het er dus op neer elke kolom te verminderen met het gemiddelde van die kolom.
Similarity
- Euclidean similarity: de stelling van Pythagoras toepassen op alle datapunten (en dimensies) in
een matrix om de afstand er tussen te berekenen. (getal tussen 0 en 1)
- Pearson correlation: omkeren van datapunten en features, kijken naar de ratings van twee films en
hier de correlatie van berekenen.
- Cosine similarity: de cosinus van de hoek vanaf de oorsprong naar het datapunt (getal tussen -1 en
1)
In een similarity matrix wordt de similarity voor alle features berekend en geplot. In een similarity
matrix kan je zien in hoeverre films op elkaar lijken (als de similarity vergelijkbaar is zijn de films
,vergelijkbaar). De cosine similarity toegepast op een mean centered utility matrix wordt ook wel de
adjusted cosine genoemd.
Neighbourhood bepalen
Benodigd: utility matrix en similarity matrix
Optie 1 : similarity moet hoger zijn dan een bepaalde drempelwaarde. Bijvoorbeeld similarity > 0.1
Optie 2: top K hoogste similarity. Bijvoorbeeld de 3 grootste similarities
Voorspel rating
Gewogen gemiddelde berekenen van de similarity en de utility matrix items van een bepaalde
gebruiker. Neem het gewogen gemiddelde van de geselecteerde films. Dat wil zeggen dat een film die
meer vergelijkbaar is met de target film ook meer bijdraagt aan het gemiddelde.
Module 2: Collaborative Filtering
H1 Aggarwal
- The entity to which the recommendation is provided is called the user.
- The product that is being recommended is called an item.
Recommendation analysis is often based on the previous interaction between users and items, because
past interests and proclivities are often good indicators of future choices.
The basic principle of recommendations is there are notable dependencies between user and
item-centric activity. For example, a user who is interested in a historical documentary is more likely
to be interested in another historical documentary or an educational program, rather than in an action
movie.
The aforementioned description is based on a very simple family of recommendation algorithms,
referred to as neighbourhood models. This family belongs to a broader class of models, referred to as
collaborative filtering. The term "collaborative filtering" refers to the use of ratings from multiple
users in a collaborative way to predict missing ratings.
- In content-based recommender systems, the content plays a primary role in the recommendation
process, where the ratings of users and the attribute descriptions of items are leveraged in order to
make predictions
- The basic idea is that user interests can be modelled on the basis of properties (or attributes) of
the items they have rated or accessed in the past.
The purchase or browsing behavior of a user can be viewed as a type of implicit rating, as opposed to
an explicit rating, which is specified by the user. Many commercial systems allow the flexibility of
providing recommendations both on the basis of explicit and implicit feedback.
Presenting meaningful explanations is important to provide the user with an understanding of why
they might find a particular movie interesting. This approach also makes it more likely for the user to
act on the recommendation and truly improves the user experience.
The act of a user clicking on a news article can be viewed as a positive rating for that article. Such
ratings can be viewed as unary ratings, in which a mechanism exists for a user to express their
affinity for an item, but no mechanism exists for them to show their dislike.
Social networks are heavily dependent on the growth of the network to increase their advertising
revenues. Therefore, the recommendation of potential friends (or links) enables better growth and
connectivity of the network. This problem is also referred to as link prediction in the field of social
network analysis. Such forms of recommendations are based on structural relationships rather than
ratings data.
, Two ways in which the recommendation problem may be formulated:
1. Prediction version of the problem: predicting the rating value for a user-item combination.
Uses training data that indicates user preferences for items. For m users and n items, the result
is a m x n matrix, where the missing values are predicted using the training model.
2. Ranking version of the problem: it is not necessary to predict the ratings of users for specific
items in order to make recommendations, rather it can be able to recommend the top-k items
for a particular user.
Common operational and technical goals of recommender systems are as follows:
1. Relevance: an operational goal of a recommender system is to recommend items that are relevant
to the user. Users are more likely to consume items they find interesting
2. Novelty: Recommender systems are truly helpful when the recommended item is something that
the user has not seen in the past. For example, popular movies of a preferred genre would rarely
be novel to the user. Repeated recommendation of popular items can also lead to reduction in
sales diversity
3. Serendipity: A related notion is that of serendipity, wherein the items recommended are somewhat
unexpected, and therefore there is an element of lucky discovery as opposed to obvious
recommendations.
4. Increasing recommendation diversity: Recommender systems typically suggest a list of top-k items.
When all these recommended items are very similar, it increases the risk that the user might not like any of
these items. On the other hand, when the recommended list contains items of different types, there is a
greater chance that the user might like at least one of these items. Diversity has the benefit of ensuring that
the user does not get bored by repeated recommendation of similar items.
Soft goals that are met by the recommendation process:
- For the user: helps improves overall user satisfaction with the website. This improves user loyalty
and further increases sales
- For the merchant: the recommendation can provide insights into the needs of the user and help the
user experience further.
Basic models of recommender systems
Two types of models for recommender systems:
- Collaborative filtering: works with user-item interactions such as ratings or buying behavior
- Content-based filtering: works with the attribute information about the users and items such as
textual profiles or relevant keywords
Collaborative filtering models use the collaborative power of the ratings provided by multiple users to
make recommendations. The main challenge in designing collaborative filtering methods is that the
underlying ratings matrices are sparse. As a result, most of the ratings are unspecified. The specified
ratings are also referred to as observed ratings. The basic idea of collaborative filtering methods is
that these unspecified ratings can be interpolated because the observed ratings are often highly
correlated across various users and items.
There are two types of methods that are commonly used in collaborative filtering:
1. Memory-based methods: Memory-based methods are also referred to as neighbourhood based
collaborative filtering algorithms. The ratings of user-item combinations are predicted on the
basis of their neighbourhoods. These neighbourhoods can be defined in one of two ways:
a. User-based collaborative filtering: In this case, the ratings provided by like-minded users
of a target user A are used in order to make the recommendations for A. Thus, the basic
idea is to determine users, who are similar to the target user A, and recommend ratings for
the unobserved ratings of A by computing weighted averages of the ratings of this peer
group. Similarity functions are computed between the rows of the ratings matrix to
discover similar users
Voordelen van het kopen van samenvattingen bij Stuvia op een rij:
Verzekerd van kwaliteit door reviews
Stuvia-klanten hebben meer dan 700.000 samenvattingen beoordeeld. Zo weet je zeker dat je de beste documenten koopt!
Snel en makkelijk kopen
Je betaalt supersnel en eenmalig met iDeal, creditcard of Stuvia-tegoed voor de samenvatting. Zonder lidmaatschap.
Focus op de essentie
Samenvattingen worden geschreven voor en door anderen. Daarom zijn de samenvattingen altijd betrouwbaar en actueel. Zo kom je snel tot de kern!
Veelgestelde vragen
Wat krijg ik als ik dit document koop?
Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.
Tevredenheidsgarantie: hoe werkt dat?
Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.
Van wie koop ik deze samenvatting?
Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper matthiaslouws. Stuvia faciliteert de betaling aan de verkoper.
Zit ik meteen vast aan een abonnement?
Nee, je koopt alleen deze samenvatting voor €9,99. Je zit daarna nergens aan vast.