UNIVERSIDAD DE LA RIOJA
Postgrado al que pertenece: Máster Universitario en Inteligencia Artificial
Denominación de la asignatura: Procesamiento del Lenguaje Natural
Contenido: BLOQUE 1. Conceptos básicos del PLN
Guía de Estudio: Tema 2. El texto como dato
UNIVERSIDAD DE LA RIOJA
Postgrado al que pertenece: Máster Universitario en Inteligencia Artificial
Denominación de la asignatura: Procesamiento del Lenguaje Natural
Contenido: BLOQUE 1. Conceptos básicos del PLN
Guía de Estudio: Tema 2. El texto como dato
Introducción y objetivos
El procesamiento del lenguaje natural (PLN) es una rama de la inteligencia artificial que se enfoca
en la interacción entre las computadoras y el lenguaje humano. El texto como dato constituye la
base fundamental para el análisis y la extracción de información valiosa en múltiples aplicaciones,
desde motores de búsqueda hasta asistentes virtuales. El objetivo de esta guía es proporcionar
una comprensión profunda y técnica del texto como dato, abordando sus características,
morfología, técnicas de normalización, recursos lingüísticos, corpus en español y herramientas y
librerías para el PLN.
Características del texto como fuente de datos
El texto, a diferencia de otros tipos de datos, posee una estructura compleja y rica en semántica.
Algunas de sus características distintivas incluyen:
Ambigüedad: Las palabras y frases pueden tener múltiples significados.
Contexto: El significado de una palabra o frase puede depender del contexto en el que se
usa.
Estructura: El texto puede tener diferentes niveles de estructura, como oraciones, párrafos
y documentos completos.
Variabilidad: El lenguaje natural es altamente variable y puede cambiar con el tiempo y
entre diferentes comunidades.
Ventajas:
Riqueza Semántica: Proporciona una gran cantidad de información contextual y
semántica.
Flexibilidad: Puede representar una amplia gama de conceptos y emociones.
Desventajas:
Complejidad: Requiere técnicas avanzadas para el análisis y la interpretación.
Ambigüedad: La interpretación de texto puede ser desafiante debido a su naturaleza
ambigua.
Morfología
La morfología es el estudio de la estructura de las palabras y las reglas para su formación.
Existen dos tipos principales de morfología:
, Morfología Derivativa: Se refiere a la creación de nuevas palabras y puede cambiar la
categoría gramatical de una palabra.
Morfología Flexiva: Afecta la forma de una palabra para expresar diferentes funciones
gramaticales, como tiempo verbal, número o género.
Ventajas:
Análisis Detallado: Permite un análisis más preciso y detallado del lenguaje.
Eficiencia: Facilita la reducción de la variabilidad del texto.
Desventajas:
Complejidad: Requiere un conocimiento profundo de las reglas gramaticales y lingüísticas.
Procesamiento Intensivo: Puede ser computacionalmente intensivo.
Técnicas de normalización de textos
La normalización de textos es un paso crucial en el procesamiento del lenguaje natural. Algunas
técnicas comunes incluyen:
Tokenización: Divide el texto en unidades más pequeñas como palabras o frases.
Lematización: Reduce las palabras a su forma base o lema.
Stemming: Similar a la lematización, pero más agresivo, recorta las palabras a su raíz.
Eliminación de Stopwords: Remueve palabras comunes que no aportan mucho
significado, como “y”, “el”, “de”.
Ventajas:
Consistencia: Mejora la consistencia del texto para su análisis.
Simplicidad: Facilita el procesamiento al reducir la complejidad del texto.
Desventajas:
Pérdida de Información: Algunas técnicas pueden eliminar información útil.
Errores: Técnicas como el stemming pueden producir errores al cortar demasiado las
palabras.
Recursos lingüísticos
Los recursos lingüísticos son fundamentales para el desarrollo de sistemas de PLN y pueden
incluir:
Diccionarios: Listas de palabras y sus significados.
Tesauros: Listas de sinónimos y antónimos.
Ontologías: Representaciones formales de un conjunto de conceptos y sus relaciones.
Ventajas:
Precisión: Mejoran la precisión del análisis del lenguaje.
Eficiencia: Facilitan la integración de conocimiento preexistente.
The benefits of buying summaries with Stuvia:
Guaranteed quality through customer reviews
Stuvia customers have reviewed more than 700,000 summaries. This how you know that you are buying the best documents.
Quick and easy check-out
You can quickly pay through credit card or Stuvia-credit for the summaries. There is no membership needed.
Focus on what matters
Your fellow students write the study notes themselves, which is why the documents are always reliable and up-to-date. This ensures you quickly get to the core!
Frequently asked questions
What do I get when I buy this document?
You get a PDF, available immediately after your purchase. The purchased document is accessible anytime, anywhere and indefinitely through your profile.
Satisfaction guarantee: how does it work?
Our satisfaction guarantee ensures that you always find a study document that suits you well. You fill out a form, and our customer service team takes care of the rest.
Who am I buying these notes from?
Stuvia is a marketplace, so you are not buying this document from us, but from seller ma_medina. Stuvia facilitates payment to the seller.
Will I be stuck with a subscription?
No, you only buy these notes for $7.16. You're not tied to anything after your purchase.