Tema 3. Estadística.
P1. Introducción a la Estadística.
1.1. La estadística como herramienta científica.
¿Qué es la estadística?
La estadística es una rama de las matemáticas que se encarga de la recogida, análisis e
interpretación de datos.
La estadística es imprescindible en cualquier disciplina científica o técnica donde se
manejen datos, especialmente si son grandes volúmenes de datos, como por ejemplo, la
ingeniería, la física, la química, la medicina y las ciencias biosanitarias, pero también en la
economía, la psicología o las ciencias sociales.
Pero, ¿Por qué es necesaria la estadística?
La variabilidad de nuestro mundo.
El científico trata de estudiar el mundo que le rodea; un mundo que está lleno de
variaciones que dificultan la determinación del comportamiento de las cosas.
¡La variabilidad del mundo real es el origen de la estadística!
La estadística actúa como disciplina puente entre la realidad del mundo y los modelos
matemáticos que tratan de explicarla, proporcionando una metodología´ıa para evaluar las
discrepancias entre la realidad y los modelos teóricos. Esto la convierte en una herramienta
indispensable en las ciencias aplicadas que requieran el análisis de datos y el dise˜no de
experimentos.
1.2. Población y muestra
Población estadística.
Una población es un conjunto de elementos definido por una o más características que
tienen todos los elementos, y sólo ellos. Cada elemento de la población se llama individuo.
El número de individuos de una población se conoce como tamaño poblacional y se
representa como N.
A veces, no todos los elementos de la población están accesibles para su estudio. Entonces
se distingue entre:
- Población Teórica: Conjunto de elementos a los que se quiere extrapolar los
resultados del estudio.
- Población Estudiada: Conjunto de elementos realmente accesibles en el estudio.
,Inconvenientes en el estudio de la población.
El científico estudia un determinado fenómeno en una población para comprenderlo,
obtener conocimiento sobre el mismo, y así poder controlarlo.
Pero, para tener un conocimiento completo de la población es necesario estudiar todos los
individuos de la misma.
Sin embargo, esto no siempre es posible por distintos motivos:
- El tamaño de la población es infinito, o bien es finito pero demasiado grande.
- Las pruebas a que se someten los individuos son destructivas.
- El coste, tanto de dinero como de tiempo, que supondría estudiar a todos los
individuos es excesivo.
Muestra estadística.
Cuando no es posible o conveniente estudiar todos los individuos de la población, se
estudia sólo una parte de la misma.
Una muestra es un subconjunto de la población.
Al número de individuos que componen la muestra se le llama tamaño muestral y se
representa por n.
Habitualmente, el estudio de una población se realiza a partir de muestras extraídas de
dicha población.
Generalmente, el estudio de la muestra sólo aporta conocimiento aproximado de la
población. Pero en muchos casos es suficiente.
Determinación del tamaño muestral.
Una de las preguntas más interesantes que surge inmediatamente es: ¿cuántos individuos
es necesario tomar en la muestra para tener un conocimiento aproximado pero suficiente de
la población?. La respuesta depende de muchos factores, como la variabilidad de la
población o la fiabilidad deseada para las extrapolaciones que se hagan hacia la población.
Por desgracia no se podrá responder hasta casi el final del curso.
En general, cuantos más individuos haya en la muestra, más fiables serán las conclusiones
sobre la población, pero también será más lento y costoso el estudio.
Tipos de razonamiento.
- Características de la deducción: Si las premisas son ciertas, garantiza la certeza de
las conclusiones (es decir, si algo se cumple en la población, también se cumple en
la muestra). SIn embargo, ¡no aporta conocimiento nuevo!
- Características de la inducción: No garantiza la certeza de las conclusiones (si algo
se cumple en la muestra, puede que no se cumpla en la población, así que ¡cuidado
con las extrapolaciones!), pero ¡es la única forma de generar conocimiento nuevo!
La estadística se apoya fundamentalmente en el razonamiento inductivo ya que utiliza la
información obtenida a partir de muestra para sacar conclusiones sobre las poblaciones.
Fases del análisis estadístico.
Normalmente un estudio estadístico pasa por 4 etapas:
, - El estudio de una población comienza por la selección de una muestra
representativa de la misma. De esto se encarga el muestreo.
- El siguiente paso consiste en estudiar las muestras extraídas y obtener resultados
numéricos que resuman la información contenida en las mismas. De esto se encarga
la estadística descriptiva.
- La información obtenida es proyectada sobre un modelo matemático que intenta
reflejar el comportamiento de la población. Tras construir el modelo, se realiza una
crítica del mismo para validarlo. De todo esto se encarga la inferencia estadística.
- Finalmente, el modelo validado nos permite hacer suposiciones y predicciones sobre
la población de partida con cierta confianza.
1.3. Muestreo.
El proceso de selección de los elementos que compondrán una muestra se conoce como
muestreo.
Para que una muestra refleje información fidedigna sobre la población global debe ser
representativa de la misma.
El objetivo es obtener una muestra representativa de la población.
Modalidades de muestreo.
Existen muchas técnicas de muestreo pero se pueden agrupar en dos categorías:
- Muestreo aleatorio: Elección aleatoria de los individuos de la muestra. Todos tienen
la misma probabilidad de ser elegidos (equiprobabilidad).
- Muestreo no aleatorio: Los individuos se eligen de forma no aleatoria.
Sólo las técnicas evitan el sesgo de selección, y por tanto, garantizan la representatividad
de la muestra extraída, y en consecuencia la validez de la inferencia.
Las técnicas no aleatorias no sirven para hacer generalizaciones, ya que no garantizan la
representatividad de la muestra. Sin embargo, son menos costosas y pueden utilizarse en
estudios exploratorios.
Muestreo aleatorio simple.
Dentro de las modalidades de muestreo aleatorio, el tipo más conocido es el muestreo
aleatorio simple caracterizado por:
- Todos los individuos de la población tienen la misma probabilidad de ser elegidos
para la muestra.
- La selección de individuos es con reemplazamiento (y por tanto no se altera la
población de partida).
- Las sucesivas selecciones de un individuo son independientes.
La única forma de realizar un muestreo aleatorio es asignar un número a cada individuo de
la población (censo) y realizar un sorteo aleatorio.
P2. Estadística Descriptiva.
La estadística descriptiva es la parte de la estadística encargada de representar, analizar y
resumir la información contenida en la muestra.
Tras el proceso de muestreo, es la siguiente etapa de todo estudio estadístico y suele
consistir en:
, - Clasificar, agrupar y ordenar los datos de la muestra.
- Representar dichos datos gráficamente y en forma de tablas.
- Calcular medidas que resuman la información que contiene la muestra (estadísticos
muestrales).
Su poder inferencial es mínimo, por lo que nunca deben sacarse conclusiones sobre la
población a partir de las medidas resumen que aporta la estadística descriptiva.
2.1. Variables estadísticas.
Variables estadísticas y atributos.
La característica objeto de estudio puede ser de dos tipos:
- Atributos: de carácter cualitativo.
- Variables estadísticas: de carácter cuantitativo.
A su vez, los atributos se dividen en:
- Nominales: no existe un orden entre las modalidades. Ejemplo: El color de un
material o las tonalidades de las pinturas.
- Ordinales: existe un orden entre las modalidades. Ejemplo: La temperatura de un
producto o la calificación de una asignatura.
Y las variables estadísticas en:
- Discretas: reciben valores aislados. Ejemplo: El número de hijos o el número de
coches.
- Continuas: Pueden recibir cualquier valor de un intervalo. Ejemplo: El peso o la
estatura.
Clasificación de la muestra.
El estudio de una variable estadística comienza por medir la variables en los individuos de
la muestra y clarificar los valores obtenidos.
Existen dos formas de clasificar estos valores:
- Sin agrupar: Ordenar todos los valores obtenidos en la muestra de menor a mayor.
Se utiliza con atributos y variables discretas con pocos valores diferentes.
- Agrupados: Agrupar los valores en clases (intervalos) y ordenar dichas clases de
menor a mayor. Se utiliza con variables discretas con muchos valores diferentes, y
con variables continuas.
2.2. Distribución de frecuencias.
Frecuencias muestrales.
Dada una muestra de tamaño n de una variable X, para cada valor de la variable xi,
observado en la muestra, se define:
- Frecuencia absoluta ni: Es el número de individuos de la muestra que presentan el
valor xi.
- Frecuencia relativa fi: Es la proporción de individuos de la muestra que presentan el
𝑛𝑖
valor xi. 𝑓𝑖 = 𝑛
- Frecuencia absoluta acumulada Ni: Es el número de individuos de la muestra que
presentan un valor menor o igual que xi. 𝑁𝑖 = 𝑛1 +... + 𝑛𝑖