UNIVERSIDAD DE LA RIOJA
Postgrado al que pertenece: Máster Universitario en Inteligencia Artificial
Denominación de la asignatura: Procesamiento del Lenguaje Natural
Contenido: BLOQUE 2. Tratamiento del texto basado en lingüística
Guía de Estudio: TEMA 3. Etiquetado morfosintáctico (POS t...
UNIVERSIDAD DE LA RIOJA
Postgrado al que pertenece: Máster Universitario en Inteligencia Artificial
Denominación de la asignatura: Procesamiento del Lenguaje Natural
Contenido: BLOQUE 2. Tratamiento del texto basado en lingüística
Guía de Estudio: TEMA 3. Etiquetado morfosintáctico (POS tagging)
a. Introducción y objetivos
El etiquetado morfosintáctico, conocido en inglés como Part-Of-Speech tagging (POS tagging), es
un proceso fundamental en el análisis del lenguaje natural. Consiste en asignar una categoría
gramatical a cada palabra de un texto, como sustantivo, verbo, adjetivo, etc. Este proceso es
crucial para diversas aplicaciones en el ámbito de la inteligencia artificial, como la traducción
automática, la búsqueda de información y el análisis de sentimientos.
Objetivos:
1. Proporcionar una comprensión profunda del etiquetado morfosintáctico.
2. Explorar las categorías morfosintácticas o gramaticales.
3. Analizar el funcionamiento y las características del etiquetado morfosintáctico.
4. Examinar los modelos ocultos de Markov (HMM) aplicados al etiquetado morfosintáctico.
5. Evaluar los métodos de etiquetado morfosintáctico basados en aprendizaje automático.
6. Introducir el reconocimiento de entidades nombradas (NER).
b. Categorías morfosintácticas o gramaticales
Las categorías morfosintácticas son etiquetas que definen la función gramatical de una palabra
dentro de una oración. Estas categorías incluyen:
1. Sustantivos (Nouns): Denotan entidades, como personas, lugares, cosas o conceptos.
2. Verbos (Verbs): Indican acciones, estados o procesos.
3. Adjetivos (Adjectives): Modifican a los sustantivos proporcionando características
adicionales.
4. Adverbios (Adverbs): Modifican a verbos, adjetivos u otros adverbios.
5. Pronombres (Pronouns): Sustituyen a los sustantivos.
6. Preposiciones (Prepositions): Indican relaciones entre diferentes elementos de la
oración.
7. Conjunciones (Conjunctions): Conectan palabras, frases u oraciones.
8. Determinantes (Determiners): Acompañan a los sustantivos para especificarlos.
c. Funcionamiento y características del etiquetado morfosintáctico
, El etiquetado morfosintáctico implica varios pasos clave, incluyendo el tokenización, la asignación
de etiquetas y la resolución de ambigüedades. Los etiquetadores morfosintácticos deben ser
capaces de manejar palabras polisémicas y contextos diversos.
Características:
Precisión y exactitud: La calidad del etiquetado depende de la capacidad del sistema
para asignar correctamente las etiquetas.
Rendimiento en tiempo real: En aplicaciones prácticas, el etiquetado debe ser rápido y
eficiente.
Adaptabilidad: Los etiquetadores deben ajustarse a diferentes dominios y lenguajes.
d. Etiquetado morfosintáctico basado en modelos ocultos de Markov (HMM)
Los modelos ocultos de Markov (HMM) son una técnica estadística utilizada para el etiquetado
morfosintáctico. Un HMM es un modelo probabilístico que asume que el proceso de generación
de etiquetas es una cadena de Markov oculta por las observaciones (las palabras).
Definición:
Un HMM consiste en un conjunto de estados ocultos, un conjunto de observaciones, y un
conjunto de probabilidades de transición y emisión.
Características:
Probabilístico: Utiliza las probabilidades de transición entre estados y de emisión de
observaciones para asignar etiquetas.
Eficiente: Los algoritmos de Viterbi y Baum-Welch permiten una implementación eficiente.
Ventajas:
Robustez: Puede manejar incertidumbre y variabilidad en los datos.
Escalabilidad: Adecuado para grandes corpus de texto.
Desventajas:
Dependencia de datos etiquetados: Necesita un corpus etiquetado para entrenar el
modelo.
Limitaciones en contextos largos: Difícil de capturar dependencias a largo plazo entre
palabras.
e. Etiquetado morfosintáctico basado en aprendizaje automático
El aprendizaje automático ha revolucionado el etiquetado morfosintáctico, con enfoques que van
desde clasificadores supervisados hasta redes neuronales profundas.
Definición:
El etiquetado basado en aprendizaje automático utiliza algoritmos que aprenden patrones a partir
de datos etiquetados para predecir etiquetas morfosintácticas.
Características:
Supervisado y no supervisado: Puede ser entrenado con datos etiquetados
(supervisado) o descubrir patrones sin etiquetas (no supervisado).
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ma_medina. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.16. You're not tied to anything after your purchase.