Description:
The reference corpus consists of 46 children's stories in text format (.txt) created by students between 18 and 25 years of age from the primary level teachers of two teacher training institutes in the city of Rosario, Argentina, the Escuela Normal Superior Superior No. 35 "Juan María Gutiérrez" and the Escuela Normal Superior No. 36 "Mariano Moreno".
The stories were the product of a slogan from the Communication and oral and written expression workshop, which is taught in the first year of the degree with three hours a week. The students received classes on basic concepts of Spanish grammar and the story format as a discursive genre. They wrote the texts without any specific slogan, except that of considering the child audience as the recipient. The students revised their stories with instructions from the teacher, doing as many rewrites as necessary. The activity lasted three months. There were no direct corrections to be able to respect the production. The students wrote these stories to accredit their curricular activity. However, they were invited to transfer their production so that it could be automatically processed by the IES_UNR research team and for this they gave their informed consent. In the paper that we were writing, we intended to use this production to account in particular for the structures that had discursive connectors as well as for the lexical items and syntactic structures of their own.
The team has been working since 2015 on the automatic natural language processing of River Plate Spanish. To this end, electronic dictionaries and grammars are created, both inflectional and syntactic, since the NooJ tool with which we work is not a black box, but it is possible that we can load the data of River Plate Spanish in the module that we have assigned. on the NooJ platform created by Max Silberztein (University of Franche-Comte, France). With this objective, we proceeded to collect the texts as they were produced, since these were digitized by their authors, this guaranteed for us to respect the original production without intervention other than that of the authors themselves. As stated, the students gave their informed consent for their work to be the subject of the research work.
Fourteen stories correspond to Escuela Normal Superior No. 35 and thirty-two to Escuela Normal Superior No. 36. There are no significant differences between these two institutions except for the number of students. The students belong to a medium-low socioeconomic level and in this context, the teacher training career represents a quick job opportunity. (2019-11-09)
Data value:
The corpus that is made available here can be used not only for automatic treatment, but for any research on language that seeks to have a record of what are the characteristics of the writing of young people or what are the characteristics of the Rioplatense Spanish compared, for example, to Peninsular Spanish. Of course, to draw more important conclusions, it is necessary to expand the sample, since this corpus is hardly a significant sample.
The value of this production lies in the spontaneity and team vision it translates. Each writer did not have an individual objective but was fully aware that each story was going to be integrated with others in a collaborative work
The corpus produced can become a starting point for pedagogical planning both for teaching classes and for the design of teaching materials. The result we arrived at suggests that it can be positive to start from writing to motivate reading as a didactic strategy. This is usually done the other way around. (2019-11-09)
Descripción:
El corpus de referencia consiste en 46 cuentos infantiles en formato texto (.txt) creados por estudiantes de entre 18 y 25 años del profesorado de nivel primario de dos institutos de formación docente de la ciudad de Rosario, Argentina, la Escuela Normal Superior N° 35 "Juan María Gutiérrez" y la Escuela Normal Superior N° 36 "Mariano Moreno".
Los cuentos fueron producto de una consigna del taller Comunicación y expresión oral y escrita, que se dicta en el primer año de la carrera con tres horas semanales. Los y las estudiantes recibieron clases sobre conceptos básicos de la gramática española y del formato cuento como género discursivo. Escribieron los textos sin ninguna consigna específica, excepto la de considerar al público infantil como destinatario. Los y las estudiantes revisaron sus cuentos con indicaciones de la docente, haciendo tantos trabajos de reescritura como fueron necesarios. La actividad tuvo una duración de tres meses. No hubo correcciones directas para poder respetar la producción. Los y las estudiantes escribieron esos cuentos para acreditar su actividad curricular. Sin embargo, fueron invitados a ceder su producción para que pudiera ser procesada automáticamente por el equipo de investigación IES_UNR y para ello manifestaron su consentimiento informado. En la ponencia que estábamos escribiendo, pretendíamos utilizar dicha producción para dar cuenta en particular de las estructuras que tuvieran conectores discursivos así como de los ítems lexicales y estructuras sintácticas propias.
El equipo se encuentra trabajando desde 2015 dentro del procesamiento automático del lenguaje natural del español rioplatense. A tal fin, se conforman diccionarios y gramáticas electrónicas, tantos flexivas como sintácticas, ya que la herramienta NooJ con la que trabajamos no es una caja negra, sino que es posible que podamos cargar los datos propios del español rioplatense en el módulo que tenemos asignado en la plataforma Nooj, creada por Max Silberztein (Universidad de Franche-Comte, Francia). Con este objetivo, se procedió a recopilar los textos tal como fueron producidos, ya que estos se encontraban digitalizados por sus autores, esto garantizaba para nosotros respetar la producción original sin otra intervención que la de los propios autores. Como se dijo, los y las estudiantes brindaron su consentimiento informado para que sus trabajos fueran objeto del trabajo de investigación.
Catorce cuentos corresponden a la Escuela Superior N° 35 y treinta y dos a la Escuela Superior N° 36. No existen diferencias significativas entre estas dos instituciones salvo el número de alumnos. El alumnado pertenece a un nivel socioeconómico medio-bajo y en este contexto, la carrera de formación docente representa una rápida salida laboral. (2019-11-09)
Valor de los datos:
El corpus que se pone a disposición aquí puede utilizarse no solamente para el tratamiento automático, sino para toda investigación sobre el lenguaje que pretenda tener un registro de cuáles son las características de la escritura de los jóvenes o cuáles son los rasgos propios del español rioplatense frente por ejemplo al español peninsular. Por supuesto que para extraer conclusiones más importantes es preciso ampliar la muestra, ya que este corpus es apenas una muestra significativa.
El valor de esta producción reside en la espontaneidad y en la visión de equipo que traduce. Cada escribiente no tenía un objetivo individual sino que era plenamente consciente de que cada cuento se iba a integrar con otros en un trabajo colaborativo
El corpus producido puede tornarse como punto de partida para hacer una planificación pedagógica tanto del dictado de clases como para el diseño de materiales de enseñanza. El resultado al que arribamos sugiere que puede ser positivo partir de la escritura para motivar la lectura como estrategia didáctica. Esto por lo general se hace al revés. (2019-11-09) |