Introducción
En el marco del proyecto "Hacia un cambio en la enseñanza y aprendizaje de lenguas desde las tecnologías informáticas" (Resolución CS N° 338/2023), se conformó un corpus de textos producidos por estudiantes de la Facultad de Humanidades y Artes entre agosto y noviembre de 2024. El objetivo fue procesar este corpus de manera automática y establecer un estado lingüístico inicial, para identificar las estructuras gramaticales más frecuentes y reconocer los ítems léxicos más utilizados. En definitiva, se buscó sistematizar la “lengua propia de los jóvenes”, entendida en un nivel puramente descriptivo a partir de los intercambios cotidianos. El objetivo principal del proyecto se centra en dar visibilidad a nuestra lengua: el español rioplatense que se habla en Rosario y, por extensión, en el ámbito de la Universidad Nacional de Rosario. De este modo, se busca legitimar nuestra idiosincrasia y destacar la gran riqueza del español rioplatense y, en un sentido más amplio, del español de Latinoamérica frente al español meridional, poniendo en valor sus particularidades. Contenidos
- Archivo con las producciones de los estudiantes (versión Word y txt)
- Flyer de difusión
- Vista del formulario Google que completaron los estudiantes
- ersión pdf del formulario Google.
Tipos de datos
Producción escrita de estudiantes a partir de una anécdota familiar o de una biografía escolar. Metodología
La recolección de datos se hizo a través de un formulario Google, quienes completaban dicho formulario daban su consentimiento informado de modo que sus producciones escritas fueran utilizadas en un proyecto de investigación. Se requería que fueran mayores de 18 años. El corpus fue cotejado con detector de plagio por IA para asegurar la originalidad de la producción. Organización de los datos
Se presentan en el mismo orden en que fueron completados, uno a continuación del otro, sin ningún tipo de corrección, tal como fueron registrados en las respuestas al formulario. Calidad y valor de los datos
Estos datos pueden ser útiles para quienes trabajan en procesamiento automático del lenguaje como parte de la inteligencia artificial, y también para quienes necesiten producciones textuales auténticas de jóvenes a partir de los dieciocho años. Estas producciones ofrecen un punto de partida para planificar clases, identificar qué estructuras lingüísticas están presentes y reconocer los conocimientos previos que los estudiantes tienen sobre la lengua.
Aunque inicialmente los datos se centraban en el español rioplatense, la diversidad de estudiantes extranjeros aportó también muestras de español de otros países de Latinoamérica. Esta riqueza léxica amplía el corpus y permite establecer un contraste más sólido con el español peninsular.
Introduction
Within the framework of the project “Towards a change in language teaching and learning from computer technologies” (Resolution CS No. 338/2023), a corpus of texts produced by students of the Faculty of Humanities and Arts between August and November 2024 was formed. The objective was to process this corpus automatically and establish an initial linguistic state, in order to identify the most frequent grammatical structures and recognize the most frequently used lexical items. In short, the aim was to systematize the “young people's own language”, understood on a purely descriptive level based on everyday exchanges.
The main objective of the project focuses on giving visibility to our language: the Rioplatense Spanish spoken in Rosario and, by extension, in the area of the Universidad Nacional de Rosario. In this way, we seek to legitimize our idiosyncrasy and highlight the great richness of Rioplatense Spanish and, in a broader sense, of Latin American Spanish as opposed to southern Spanish, highlighting its particularities. Table of contents
- File with the students' productions (Word and TXT version)
- Flyer for dissemination
- View of the Google Form completed by students
- PDF version of the Google form
Types of data
Written production of students based on a family anecdote or a school biography. Methodology
Data collection was done through a Google Form, and those who completed the form gave their informed consent for their written productions to be used in a research project. They were required to be over 18 years of age. The corpus was checked with an AI plagiarism detector to ensure the originality of the production. Organization of the data
They are presented in the same order in which they were completed, one after the other, without any type of correction, as they were recorded in the answers to the form. Quality and value of the data
These data can be useful for those working in automatic language processing as part of artificial intelligence, and also for those who need authentic textual productions of young people from the age of eighteen onwards. These productions provide a starting point for planning lessons, identifying what linguistic structures are present, and recognizing students' prior knowledge of the language.
Although the data initially focused on Rio de la Plata Spanish, the diversity of foreign students also provided samples of Spanish from other Latin American countries. This lexical richness broadens the corpus and allows us to establish a more solid contrast with peninsular Spanish. |