Resumen
En este tema veremos una introducción a dos de las técnicas del Análisis Multivariante. En
primer lugar estudiaremos el Análisis de Componentes Principales; esta técnica permite
una reducción de la dimensión del vector aleatorio que se está estudiando, lo que simplifica
mucho el coste computacional de estudios posteriores.
En segundo lugar estudiaremos el Análisis Cluster o de Clasificación; este análisis
busca obtener grupos de individuos homogéneos dentro de una muestra aleatoria de una
población.
1. Análisis de componentes principales
El Análisis Multivariante estudia técnicas que se van a aplicar sobre vectores aleatorios
o datos muestrales provenientes de un vector aleatorio, en principio de muchas compo-
nentes. Un problema muy importante en Análisis Multivariante es el de la reducción de
la dimensionalidad de la variable. Esto es posible en muchas circunstancias en las que las
distintas componentes están bastante relacionadas entre sı́; de esta forma, si sabemos el
resultado de algunas de las componentes, podemos dar una estimación bastante fiable del
resultado en las otras componentes. Ası́, si tenemos una variable p-dimensional y somos
capaces de representarla en otra variable q-dimensional sin una gran pérdida de informa-
ción, entonces hemos conseguido reducir el coste computacional y de interpretación de la
variable. Este es el objetivo del Análisis de Componentes Principales. Además, veremos
que las componentes principales que resultan de este estudio permiten obtener unas va-
riables incorreladas entre sı́, y esto proporciona múltiples ventajas, como se vio al tratar
el problema de la regresión múltiple.
La idea del Análisis de Componentes Principales es la siguiente: Consideremos una
columna tal y como aparece en la Figura 1 y supongamos ahora que tenemos que re-
presentar esa columna en dos dimensiones. En este caso, lo más razonable es considerar
la cara con mayor superficie, pues es la que más fielmente refleja a toda la columna. Si
ahora queremos representar esa cara en una sola dimensión, lo más razonable parece ser
considerar la longitud de una de las diagonales y no tiene sentido considerar, por ejemplo,
el lado más corto. Nótese que en cada reducción se pierde algo de información sobre la
figura original.
Consideremos una variable p-dimensional X = (X1 , ..., Xp ). Supondremos que este
vector aleatorio tiene como vector de medias 0; en caso de no ser ası́, basta restar al
vector original su vector de medias y la representación no varı́a (sólo varı́a la posición);
en realidad esta suposición se hace para simplificar la notación posterior. Denotemos la
matriz de varianzas-covarianzas de X por Σ. El Análisis de Componentes Principales
consiste en hacer un cambio de variable lineal:
, ⇒ ⇒
Figura 1: Reducción de la dimensión de un vector aleatorio.
⇔ y1 = at1 X,
Y = AX ..., yp = at1 X.
Cada una de estas variables y1 , ..., yp se llaman componentes principales. Este
estudio puede hacerse a partir de la distribución de probabilidad pero en la mayor parte
de las ocasiones esta distribución es desconocida y debe afrontarse a partir de los datos
muestrales que nos proporciona una m.a.s. de tamaño n. En este caso contamos con
n puntos en el espacio p-dimensional y el estudio se hace tomando como referencia la
estimación de Σ proporcionada por la matriz de varianzas-covarianzas muestral. Nótese
que en este caso obtendremos estimaciones de las componentes principales.
En principio el ACP es un cambio de variable; sin embargo, veremos al tratarlo con
más detalle que las últimas variables yi, i = q + 1, ..., p suelen ser casi degeneradas, con
lo que aportan muy poco al vector de cambio de variable o, en otras palabras, conocidas
las componentes anteriores, es posible determinar o dar una buena estimación de las
últimas componentes. Por ello, podemos suprimirlas sin perder mucha información del
vector original y esto redunda en una mayor simplicidad de la variable.
Adicionalmente, el ACP se puede plantear desde otros tres puntos de vista que dan
lugar al mismo resultado:
Enfoque descriptivo. Se trata de encontrar un subespacio de dimensión menor
que p de forma que al proyectar sobre él los puntos (muestrales o poblacionales)
se mantenga lo más posible la estructura de los mismos. Esto se traduce en que la
distancia entre los puntos y sus proyecciones sobre el nuevo espacio sea lo menor
posible (véase la Figura 2).
Si pensamos en un espacio de dimensión 1, entonces este subespacio viene determi-
nado por un vector en él; supongamos sin pérdida de generalidad que este vector es
de módulo 1. Ası́, se busca en primer lugar un vector a de módulo 1 de forma que
la distancia entre el punto xi y su proyección sea mı́nima. Como a es de módulo
1, la proyección viene dada por (atxi )a; esto es ası́ porque atxi = axi cos(a, xi )
(véase la Figura 3).
Buscamos entonces a de módulo 1 de forma que se minimice
, × ×
× ××
×× ×
×
Figura 2: Enfoque descriptivo del ACP.
xi
ri
a (atxi )a
Figura 3: Proyección del vector xi .
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller cvlopez. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $3.16. You're not tied to anything after your purchase.