Estos datos fueron utilizados para resolver dos tipos de ambigüedades en el etiquetado morfológico automático de textos:
- Determinante/Clítico
- Nombre/Verbo
El objetivo de este estudio es resolver mediante modelos estadísticos algunas de las ambigüedades observadas con frecuencia durante el proceso de etiquetado de un texto. El modelo estadístico es el de regresión logística. Es estimado a partir de un texto de entrenamiento etiquetado y supervisado manualmente. Las variables explicativas utilizadas para predecir la etiqueta correcta, y así resolver la ambigüedad, son: a) la etiqueta observada en la palabra anterior y b) la etiqueta observada en la palabra siguiente.
El etiquetado se llevó a cabo mediante la utilización del software Smorph, analizador y generador morfosintáctico desarrollado en el GRIL por Salah Aït-Mokhtar y el módulo post-smorph MPS.
La resolución se realizó mediante dos modelos de regresión logística. L DET/CL, determinante/clítico y nombre/verbo (NOM/V). La estimación de dichos modelos se realiza sobre la base de datos que contiene la información de un corpus de entrenamiento etiquetado y luego supervisado manualmente. De esta manera, para cada palabra, se tiene la etiqueta correcta y las etiquetas asignadas por el analizador en el caso que la palabra admitiera más de una etiqueta - que es de donde surge la ambigüedad. Asimismo, se registra la etiqueta observada en la ocurrencia anterior y posterior en cada caso.
Las variables de la tabla de datos son:
- NRO_SECUENCIA: Orden en el que aparece la ocurrencia
- OCURRENCIA: Palabra/ocurrencia observada
- ETIQUETA_1: Etiqueta asignada 1
- ETIQUETA_2: Etiqueta asignada 2
- ETIQUETA_CORRECTA: Etiqueta correcta
- ETIQUETA_ANTERIOR: Etiqueta asignada en la ocurrencia anterior
- ETIQUETA_POSTERIOR: Etiqueta asignada en la ocurrencia siguiente
El trabajo relacionado contiene información detallada sobre la proveniencia y tratamiento de los datos aquí publicados.