<resource xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://datacite.org/schema/kernel-4" xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4.1/metadata.xsd"><identifier identifierType="DOI">10.57715/UNR/REKPWF</identifier><creators><creator><creatorName nameType="Personal">Beltran, Celina</creatorName><givenName>Celina</givenName><familyName>Beltran</familyName><nameIdentifier nameIdentifierScheme="ORCID">0000-0001-8529-894X</nameIdentifier><affiliation>Universidad Nacional de Rosario</affiliation></creator></creators><titles><title>Datos para usar regresión logística para la resolución de ambigüedades en etiquetado de textos</title></titles><publisher>RDA UNR</publisher><publicationYear>2022</publicationYear><subjects><subject>Arts and Humanities</subject><subject>Computer and Information Science</subject><subject>Regresión Logística</subject><subject schemeURI="http://vocabularies.unesco.org/thesaurus/concept3411" subjectScheme="UNESCO">Computational linguistics</subject><subject schemeURI="https://biblioteca.mincyt.gob.ar/ford/6.2" subjectScheme="FORD">Lenguas y literatura</subject></subjects><contributors><contributor contributorType="ContactPerson"><contributorName nameType="Personal">Beltran, Celina</contributorName><givenName>Celina</givenName><familyName>Beltran</familyName><affiliation>Universidad Nacional de Rosario</affiliation></contributor></contributors><dates><date dateType="Created">2008</date><date dateType="Submitted">2020-11-06</date><date dateType="Updated">2022-07-27</date></dates><resourceType resourceTypeGeneral="Dataset"/><relatedIdentifiers><relatedIdentifier relationType="IsCitedBy" relatedIdentifierType="ISSN">1851-1996</relatedIdentifier></relatedIdentifiers><sizes><size>373257</size></sizes><formats><format>text/tab-separated-values</format></formats><version>1.0</version><rightsList><rights rightsURI="info:eu-repo/semantics/openAccess"/><rights rightsURI="http://creativecommons.org/licenses/by/4.0">CC BY 4.0</rights></rightsList><descriptions><description descriptionType="Abstract">&lt;p>Estos datos fueron utilizados  para resolver dos tipos de ambigüedades en el etiquetado morfológico automático de textos:&lt;/p> &lt;ul>
&lt;li>Determinante/Clítico&lt;/li>
&lt;li>Nombre/Verbo&lt;/li> &lt;/ul>
&lt;p>El objetivo de este estudio es resolver mediante modelos estadísticos algunas de las ambigüedades observadas con frecuencia durante el proceso de etiquetado de un texto. El modelo estadístico es el de regresión logística. Es estimado a partir de un texto de entrenamiento etiquetado y supervisado manualmente. Las variables explicativas utilizadas para predecir la etiqueta correcta, y así resolver la ambigüedad, son: a) la etiqueta observada en la palabra anterior y b) la etiqueta observada en la palabra siguiente.&lt;p>
&lt;p>El etiquetado se llevó a cabo mediante la utilización del software Smorph, analizador y generador morfosintáctico desarrollado en el GRIL por Salah Aït-Mokhtar y el módulo post-smorph MPS.&lt;/p>
&lt;p>La resolución se realizó mediante dos modelos de regresión logística. L DET/CL, determinante/clítico y nombre/verbo (NOM/V). La estimación de dichos modelos se realiza sobre la base de datos que contiene la información de un corpus de entrenamiento etiquetado y luego supervisado manualmente. De esta manera, para cada palabra, se tiene la etiqueta correcta y las etiquetas asignadas por el analizador en el caso que la palabra admitiera más de una etiqueta - que es de donde surge la ambigüedad. Asimismo, se registra la etiqueta observada en la ocurrencia anterior y posterior en cada caso.&lt;/p>
&lt;p>Las variables de la tabla de datos son:&lt;/>&lt;ul>
&lt;li>NRO_SECUENCIA: Orden en el que aparece la ocurrencia&lt;/li>
&lt;li>OCURRENCIA: Palabra/ocurrencia observada&lt;/li>
&lt;li>ETIQUETA_1:	Etiqueta asignada 1&lt;/li>
&lt;li>ETIQUETA_2:	Etiqueta asignada 2&lt;/li>
&lt;li>ETIQUETA_CORRECTA: Etiqueta correcta&lt;/li>
&lt;li>ETIQUETA_ANTERIOR: Etiqueta asignada en la ocurrencia anterior&lt;/li>
&lt;li>ETIQUETA_POSTERIOR: Etiqueta asignada en la ocurrencia siguiente&lt;/li>&lt;/ul>
&lt;p>
El trabajo relacionado contiene información detallada sobre la proveniencia y tratamiento de los datos aquí publicados. &lt;/p></description></descriptions><geoLocations/></resource>