Introducción
El presente dataset colecciona y clasifica 203 unidades de observación (UO) correspondientes a intervenciones circulantes en la plataforma WhatsApp, relativas a una serie de acontecimientos violentos ocurridos en la ciudad de Rosario (Provincia de Santa Fe, Argentina) entre el 2 de marzo y el 6 de mayo de 2024.
Cada una de estas unidades remite a materiales en diversos soportes significantes —texto, imagen y video— que, en el marco de esta investigación, fueron sistematizados mediante una matriz de datos compuesta por trece variables cualitativas nominales organizadas en tres dimensiones de análisis: la dimensión significante del discurso, la dimensión pragmático-informativa y la dimensión enunciativa.
El conjunto forma parte de una investigación más amplia dedicada a caracterizar las estrategias enunciativas empleadas en discursos sobre asuntos públicos que circulan en plataformas mediáticas contemporáneas.
En su estado original, el dataset comprende 221 registros porque contiene otras 18 UO en soporte audio, que no son compartidas en este repositorio dado que, al ser mensajes de voz, pueden contener identificadores directos e indirectos de la persona cuya privacidad se procura no vulnerar.
Contexto de producción
Estos datos fueron producidos en el marco del proyecto “Discursos sobre lo público-común plataformizado: caracterización interdisciplinaria de las estrategias enunciativas empleadas en plataformas mediáticas contemporáneas y sus flujos de sentido”, acreditado en la Convocatoria a Proyectos Cuatrienales PID-UNR 2023 bajo el código 80020220700094UR y radicado en el Centro de Investigaciones en Mediatizaciones (perteneciente al Instituto de Investigaciones de la Facultad de Ciencia Política y Relaciones Internacionales) de la Universidad Nacional de Rosario.
El dominio empírico del estudio se circunscribe a un caso único de carácter instrumental vinculado con discursos sobre el denominado “narcoterrorismo” en Rosario. En ese marco, este dataset constituye una de las colecciones construidas para delimitar el estudio empírico de discursos relacionados con el caso, junto con otros corpus y datasets referidos a X, Facebook, Instagram y portales de noticias.
Tabla de contenidos
En este repositorio se comparten:
- una carpeta comprimida que contiene las 203 unidades de observación recolectadas y debidamente anonimizadas, correspondientes a intervenciones circulantes en WhatsApp, clasificadas en 124 imágenes, 63 textos lingüísticos, 14 enlaces y 2 videos; dentro del subconjunto de imágenes se distinguen, además, 95 capturas de pantalla, 17 fotografías y 12 composiciones gráficas;
- un archivo en formato XLS que contiene la matriz de análisis mediante la cual se clasifican las UO según las trece variables cualitativas nominales construidas;
- un archivo de la matriz en formato CSV, a fin de facilitar su apertura y reutilización en entornos informáticos diversos;
- el artículo publicado en Revista Animus, donde se presentan las definiciones operativas de las dimensiones, variables y categorías aplicadas a la sistematización de las unidades de observación;
- informe de datos (a incorporar posteriormente).
Tanto en el archivo XLS como en el CSV se incluye, además, un campo de observaciones cualitativas por registro, producto de la observación artesanal de las UO.
Tipos de datos
El conjunto contiene datos primarios multimodales procedentes de WhatsApp y datos derivados de su sistematización analítica. Los datos primarios incluyen intervenciones en formato de texto, imagen y video, así como capturas de pantalla de conversaciones compartidas por informantes a través de la plataforma.
Los mensajes de voz que constituyen las UO en formato audio comprendidas en el dataset original (que en total suman 18 registros) no fueron incluidos en este repositorio para cumplir con criterios de privacidad.
Los datos derivados consisten en una matriz tabular que clasifica cada unidad de observación mediante 13 variables cualitativas nominales agrupadas en tres dimensiones analíticas, junto con observaciones cualitativas por registro. La función de los archivos multimodales es preservar las piezas recolectadas; la función de las matrices tabulares es documentar y hacer reutilizable su clasificación analítica.
Metodología de captura y sistematización
Para la recolección de las unidades de observación se aplicó, a través de la propia plataforma WhatsApp, la técnica de muestreo no probabilístico conocida como estrategia de bola de nieve.
Como protocolo de recogida de información, se solicitó a usuarios contactados que reenviaran todos los mensajes relacionados con los acontecimientos bajo estudio que hubieran enviado o recibido durante el período delimitado, requiriendo que, a su vez, replicaran la solicitud entre sus propios contactos para incrementar progresivamente la cantidad de usuarios informantes.
A diferencia del resto de los datasets construidos en esta investigación, el corpus de WhatsApp fue recuperado de modo artesanal, sin mediación de herramientas automáticas de extracción. Dicho procedimiento permitió reunir un conjunto de intervenciones efectivamente circulantes, pero no recuperar el sistema completo de intercambios discursivos en el que cada una se inscribía originalmente.
Tras un proceso de limpieza y normalización de lo recepcionado, se coleccionaron 221 unidades, posteriormente sistematizadas en una matriz originalmente diseñada en Google Sheets y luego exportada a formatos XLS y CSV. De esos 221 registros, en el dataset compartido en este repositorio se compendian 203 UO, porque las 18 restantes contienen voz y ese soporte puede brindar indicadores directos o indirectos de la persona.
Organización de los datos
Las unidades de observación se encuentran vinculadas a la matriz de análisis mediante su correspondiente registro, lo que permite relacionar cada pieza recolectada con las variables aplicadas en su clasificación.
Dado el carácter multimodal y complejo de las intervenciones, la organización del conjunto procura preservar tanto la singularidad de cada material como su articulación con el instrumento analítico. En particular, la matriz se orienta a reconocer operaciones enunciativas recurrentes en los discursos que circularon en WhatsApp sobre el caso estudiado, razón por la cual resulta fundamental que los archivos y sus identificadores mantengan correspondencia con los registros tabulares.
Aquí convendría agregar, en lo posible, la convención concreta de nombres de archivo y carpetas.
Calidad y alcance del dataset
La naturaleza privada de las interacciones en plataformas de mensajería instantánea como WhatsApp, así como el carácter multimodal de los enunciados que allí circulan, involucran desafíos específicos tanto para el diseño de los protocolos de recolección como para la organización posterior del archivo.
En este caso, el corpus obtenido es necesariamente acotado, heterogéneo, complejo y fragmentario: algunas unidades fueron compartidas por los informantes como audios, videos o mensajes de texto, mientras que otras llegaron en forma de capturas de pantalla de conversaciones.
Por ello, el valor del dataset no reside en ofrecer una representación exhaustiva de la circulación discursiva sobre el caso, sino en poner a disposición un ingreso exploratorio, cuidadosamente sistematizado, a intervenciones que circularon en un entorno comunicacional de difícil acceso empírico.
Protección de datos personales
Las 203 unidades coleccionadas en este repositorio fueron anonimizadas y, según la documentación del dataset, no implican registro ni referencia alguna a la intimidad de las personas que las suministraron ni las identifican personalmente.
Este aspecto resulta central tanto por la especificidad del objeto de estudio como por las condiciones de circulación de los materiales en una plataforma cuyo intercambio no posee estatuto público. En consecuencia, el dataset comparte únicamente materiales previamente revisados y preparados para su difusión académica y, como se advierte en otros apartados, excluye otras 18 UO recolectadas en formato audio, que sí se encuentran clasificadas en la matriz.
Valor de los datos
El principal valor de este conjunto reside en que ofrece un acceso empírico infrecuente a discursos que circularon en WhatsApp en torno a un caso de fuerte impacto en la esfera pública local y nacional, que incluso provocó la injerencia de diferentes estamentos de los poderes ejecutivo, legislativo y judicial.
Dado que WhatsApp no tiene estatuto público, su abordaje empírico presenta dificultades particulares; sin embargo, precisamente por ello, su inclusión permite la aproximación exploratoria a un nivel menos visible —más underground— del sistema hipermediático contemporáneo.
A ello se suma el valor metodológico de la matriz construida, cuya descripción y puesta a disposición pueden constituir un aporte para otras investigaciones que enfrenten desafíos similares en el estudio de discursos multimodales, fragmentarios y circulantes en plataformas de mensajería.
Introduction
This dataset collects and classifies 203 units of observation (UO) corresponding to content circulating on the WhatsApp platform, related to a series of violent events that occurred in the city of Rosario (Santa Fe Province, Argentina) between March 2 and May 6, 2024.
Each of these units refers to materials in different signifying formats—text, image, and video—which, within the framework of this research, were systematized through a data matrix composed of thirteen nominal qualitative variables organized into three analytical dimensions: the signifying dimension of discourse, the pragmatic-informational dimension, and the enunciative dimension.
This dataset forms part of a broader research project aimed at characterizing the enunciative strategies used in discourses on public affairs circulating on contemporary media platforms.
In its original state, the dataset comprises 221 records because it also contains 18 additional UO in audio format, which are not shared in this repository because, as voice messages, they may contain direct or indirect identifiers of the individuals whose privacy the study seeks to protect.
Production context
These data were produced במסגרת the project “Discourses on the platformized public/common: interdisciplinary characterization of the enunciative strategies used in contemporary media platforms and their flows of meaning”, funded under the 2023 PID-UNR Four-Year Research Projects Call with code 80020220700094UR and based at the Center for Research in Mediatization (part of the Research Institute of the Faculty of Political Science and International Relations) at the National University of Rosario.
The empirical domain of the study is limited to a single instrumental case related to discourses on the so-called “narco-terrorism” in Rosario. Within this framework, this dataset constitutes one of the collections built to delimit the empirical study of discourses related to the case, together with other corpora and datasets referring to X, Facebook, Instagram, and news websites.
Table of contents
This repository includes:
- the 203 collected and properly anonymized units of observation corresponding to content circulating on WhatsApp, classified into 124 images, 63 linguistic texts, 14 links, and 2 videos; within the subset of images, 95 screenshots, 17 photographs, and 12 graphic compositions are further distinguished;
- an XLS file containing the analytical matrix used to classify the UO according to the thirteen nominal qualitative variables constructed for the study;
- a CSV version of the matrix, in order to facilitate opening and reuse in different computing environments;
- the article published in Revista Animus, which presents the operational definitions of the dimensions, variables, and categories applied in the systematization of the units of observation;
- a data report (to be added later).
Both the XLS and CSV files also include a field with qualitative observations for each record, resulting from the close manual examination of the UO.
Types of data
The dataset contains multimodal primary data from WhatsApp and derived data resulting from its analytical systematization. The primary data include interventions in text, image, and video format, as well as screenshots of conversations shared by informants through the platform.
The voice messages that make up the UO in audio format in the original dataset (18 records in total) were not included in this repository in order to comply with privacy criteria.
The derived data consist of a tabular matrix that classifies each unit of observation through 13 nominal qualitative variables grouped into three analytical dimensions, together with qualitative observations for each record. The function of the multimodal files is to preserve the collected items; the function of the tabular matrices is to document and make their analytical classification reusable.
Methodology of collection and systematization
To collect the units of observation, the non-probabilistic sampling technique known as snowball sampling was applied through the WhatsApp platform itself.
As an information collection protocol, contacted users were asked to forward all messages related to the events under study that they had sent or received during the defined period, and were also asked to replicate this request among their own contacts in order to progressively increase the number of informants.
Unlike the other datasets constructed in this research, the WhatsApp corpus was recovered manually, without the mediation of automated extraction tools. This procedure made it possible to gather a set of interventions that had effectively circulated, but not to recover the complete system of discursive exchanges in which each item had originally been embedded.
After a process of cleaning and normalizing the received material, 221 units were collected and later systematized in a matrix originally designed in Google Sheets and then exported to XLS and CSV formats. Of these 221 records, the dataset shared in this repository includes 203 UO, since the remaining 18 contain voice and this format may provide direct or indirect indicators of personal identity.
Organization of the data
The units of observation are linked to the analytical matrix through their corresponding record, which makes it possible to relate each collected item to the variables applied in its classification.
Given the multimodal and complex nature of these interventions, the organization of the dataset seeks to preserve both the singularity of each material and its articulation with the analytical instrument. In particular, the matrix is intended to identify recurrent enunciative operations in the discourses that circulated on WhatsApp about the case under study, which makes it essential that the files and their identifiers maintain correspondence with the tabular records.
If possible, the specific file and folder naming convention could be added here.
Dataset quality and scope
The private nature of interactions on instant messaging platforms such as WhatsApp, as well as the multimodal nature of the statements circulating there, involves specific challenges both for the design of collection protocols and for the subsequent organization of the archive.
In this case, the resulting corpus is necessarily limited, heterogeneous, complex, and fragmentary: some units were shared by informants as audio files, videos, or text messages, while others arrived in the form of screenshots of conversations.
For this reason, the value of the dataset does not lie in offering an exhaustive representation of discursive circulation around the case, but rather in making available a carefully systematized exploratory entry point to interventions that circulated in a communicational environment that is empirically difficult to access.
Protection of personal data
The 203 units collected in this repository were anonymized and, according to the dataset documentation, do not record or refer to the private lives of the individuals who supplied them, nor do they identify them personally.
This aspect is central both because of the specificity of the object of study and because of the circulation conditions of the materials on a platform whose exchanges do not have public status. Consequently, the dataset shares only materials that were previously reviewed and prepared for academic dissemination and, as noted in other sections, excludes 18 additional UO collected in audio format, although these are classified in the matrix.
Value of the data
The main value of this dataset lies in providing uncommon empirical access to discourses that circulated on WhatsApp around a case with a strong impact on the local and national public sphere, which even prompted intervention by different branches of the executive, legislative, and judicial powers.
Since WhatsApp does not have public status, its empirical study poses particular difficulties; however, precisely for that reason, its inclusion allows an exploratory approach to a less visible—more underground—level of the contemporary hypermedia system.
Added to this is the methodological value of the matrix developed for the study, whose description and availability may contribute to other research facing similar challenges in the study of multimodal, fragmentary, and circulating discourses on messaging platforms. |