|
Description
| La Encuesta Permanente de Hogares (EPH) es un programa nacional de producción sistemática y permanente de indicadores sociales que lleva a cabo el Instituto Nacional de Estadística y Censos (INDEC), que permite conocer las características sociodemográficas y socioeconómicas de la población.
El relevamiento es de carácter trimestral y cubre 31 aglomerados urbanos de la Argentina. Los microdatos de la encuesta son presentados por INDEC en dos bases de datos: individuos y hogares. Acompaña la presentación, el manual correspondiente para la interpretación de las bases mencionadas, además de documentos metodológicos.
Los datasets de la Encuesta Permanente de Hogares (EPH - Observatorio). Explicada, etiquetada y ampliada que se presentan en este repositorio, consisten en una curadoría y ampliación de los datos originales realizada por el equipo del Observatorio Económico Social | UNR para ser utilizados bajo los programas de código libre R y Python, como así también el software de uso comercial STATA.
La información disponible en este repositorio, coincide con la última metodología de la base de microdatos propuesta por INDEC. Comienza en el 4to trimestre de 2016, y contiene todos los trimestres siguientes hasta el último dato disponible a la fecha.
El nombre de cada dataset indica primero el año al que se hace referencia (por ejemplo: EPH2016 corresponde al año 2016) seguido del trimestre correspondiente (por ejemplo: _T4 corresponde al 4to trimestre). Asimismo, por cada trimestre se presentan dos archivos distintos en formato y contenido. Tomando como ejemplo al cuarto trimestre de 2016, se tiene:
- EPH2016_T4.RData: Archivo en formato R nativo que contiene la base etiquetada y ampliada para el trimestre de referencia. Cada período se presenta como una única base relacionada, producto de las bases originales de individuo y hogar, compiladas a través de las variables CODUSU y NRO_HOGAR. Conserva los tipos R completos (factores, fechas, etiquetas descriptivas) y todas las variables del pipeline. Recomendado para usuarios de R que necesitan acceder al dataset enriquecido en su formato nativo.
- EPH2016_T4.dta: Base en formato Stata 13, ingerida automáticamente por Dataverse. A partir de este archivo el repositorio genera y expone el archivo tabular (.tab) y el codebook DDI XML correspondiente, accesibles también desde la API. Recomendado para Stata, SPSS, Python (pandas / pyreadstat) y para acceso programático al repositorio.
Los datasets que se presentan en este repositorio representan un valor agregado con respecto a la fuente original (INDEC) en los siguientes aspectos:
- El uso intuitivo de la base de datos de EPH. Cada variable ha sido renombrada con un nombre no codificado, y etiquetada para que su significado pueda ser leído directamente desde la interfaz del programa. Lo mismo se ha hecho con los valores internos de cada variable. En vez de presentar números solo interpretables con el manual original de EPH, también se han etiquetado los significados de cada valor.
- Se han incorporado nuevas variables, que se pueden clasificar en tres grupos:
- Producto del cálculo de dos o más variables dentro de la base original; como puede ser el caso del cálculo de Necesidades Básicas Insatisfechas (NBI).
- Producto del cruce con datos externos a EPH; como puede ser las variables deflactadas de las distintas fuentes de ingresos.
- Producto del desglose de clasificadores cerrados; como pueden ser las derivadas del Clasificador Nacional de Ocupaciones.
- Reconstrucción de variables agregadas históricas afectadas por el rediseño metodológico de INDEC del cuarto trimestre de 2024, siguiendo reglas determinísticas documentadas en el documento metodológico complementario.
Valor de los datos:
En consecuencia, se estima que el público al que puede resultarle de utilidad los datos procesados de la Encuesta EPH – Observatorio, es:
- Investigadores y académicos: Especialistas en economía, sociología, demografía y ciencias sociales que podrían aprovechar la base de datos más accesible para realizar estudios sobre pobreza, empleo, desigualdad, distribución del ingreso, entre otros temas.
- Gobiernos y organismos públicos: Tanto a nivel nacional como provincial y local. Estos datos suelen ser utilizados para el diseño, implementación y monitoreo de políticas públicas relacionadas con el empleo, la educación, la salud y la vivienda. Variables como las Necesidades Básicas Insatisfechas (NBI) y los ingresos deflactados pueden proporcionar información valiosa para la planificación de políticas.
- Organizaciones no gubernamentales (ONGs): Las ONGs que trabajan en áreas como la reducción de la pobreza, la mejora de las condiciones laborales o la igualdad de género podrían utilizar estos datos para sustentar informes y acciones específicas.
- Consultoras y empresas privadas: Las consultoras dedicadas al análisis económico y social pueden emplear esta base de datos para realizar informes sectoriales y proveer recomendaciones a sus clientes en función de las tendencias y condiciones sociales que surgen de los datos.
- Periodistas y medios de comunicación: Con una base de datos más accesible e interpretativa, los periodistas podrían elaborar reportajes y análisis más precisos sobre la situación socioeconómica de distintas regiones de Argentina, brindando una mejor comprensión a la población en general.
- Organismos internacionales: Instituciones como el Banco Mundial, el BID, o la CEPAL, que monitorean y brindan apoyo para el desarrollo en América Latina, podrían reutilizar estos datos en sus estudios comparativos y análisis de políticas regionales.
En síntesis, el valor agregado de los datos más comprensibles y la incorporación de nuevas variables permiten que estos actores accedan a información clave de una manera más intuitiva y eficiente, facilitando la toma de decisiones basada en evidencia.
Finalmente, este dataset incluye los siguientes documentos complementarios:
- Diccionario de variables del Observatorio (PDF + HTML interactivo): listado completo de las variables del dataset enriquecido, con tipo, etiqueta descriptiva, valores admitidos y fichas individuales. La versión HTML incluye búsqueda y filtros; la versión PDF está pensada para consulta documental y archivo.
- Documento metodológico (PDF): explica el tratamiento propio del Observatorio sobre la base original de INDEC (Parte A) y la adecuación al rediseño metodológico del cuarto trimestre de 2024 (Parte B), incluyendo las reglas determinísticas de reconstrucción de variables agregadas históricas.
- Diccionario en formato JSON consultable: versión estructurada del diccionario de variables, pensada para uso programático desde R, Python y herramientas de inteligencia artificial.
Abstract:
The Permanent Household Survey (EPH) is a national program for the systematic and ongoing production of social indicators carried out by the National Institute of Statistics and Censuses (INDEC), which provides insight into the sociodemographic and socioeconomic characteristics of the population.
The survey is conducted quarterly and covers 31 urban agglomerations in Argentina. The microdata from the survey is presented by INDEC in two databases: individuals and households. This presentation is accompanied by a manual for interpreting the mentioned databases, along with methodological documents.
The datasets from the Permanent Household Survey (EPH - Observatory). Explained, labeled, and expanded presented in this repository consist of a curation and expansion of the original data carried out by the team at the Economic and Social Observatory | UNR to be used with the open-source programming languages R and Python, as well as the commercial software STATA.
The information available in this repository is consistent with the latest microdata methodology proposed by INDEC. It starts from the 4th quarter of 2016 and includes all subsequent quarters up to the latest available data.
Each dataset name first indicates the reference year (for example: EPH2016 corresponds to the year 2016), followed by the corresponding quarter (for example: _T4 corresponds to the 4th quarter). For each quarter, two different files are presented by format and content. Using the fourth quarter of 2016 as an example, there are:
- EPH2016_T4.RData: This is the R-native file containing the labeled and expanded dataset for the reference quarter. Each period is presented as a single related database, combining the original individual and household databases through the CODUSU and NRO_HOGAR variables. It preserves complete R types (factors, dates, descriptive labels) and all the variables of the pipeline. Recommended for R users who need to access the enriched dataset in its native format.
- EPH2016_T4.dta: Base in Stata 13 format, ingested automatically by Dataverse. From this file the repository generates and exposes the corresponding tabular file (.tab) and DDI Codebook XML, which are also retrievable through the API. Recommended for Stata, SPSS, Python (pandas / pyreadstat), and programmatic access to the repository.
The datasets presented in this repository offer added value over the original source (INDEC) in the following aspects:
- Intuitive use of the EPH database. Each variable has been renamed with a non-coded name and labeled so its meaning can be read directly from the program interface. The internal values of each variable have also been labeled. Instead of presenting numbers only interpretable with the original EPH manual, the meanings of each value have been labeled as well.
- New variables have been incorporated, which can be classified into three groups:
- Derived from the calculation of two or more variables within the original database; such as the calculation of Unsatisfied Basic Needs (UBN).
- Derived from the cross-referencing of EPH data with external data; such as deflated variables from different income sources.
- Derived from the breakdown of closed classifiers; such as those derived from the National Classification of Occupations.
- Reconstruction of historical aggregate variables affected by INDEC's methodological redesign of the fourth quarter of 2024, following deterministic rules documented in the complementary methodological document.
Value of the data:
As a result, the processed EPH – Observatory data may be of utility to the following audiences:
- Researchers and academics: Specialists in economics, sociology, demography, and social sciences who could benefit from a more accessible database for studies on poverty, employment, inequality, income distribution, among other topics.
- Governments and public agencies: At national, provincial, and local levels. This data is often used for the design, implementation, and monitoring of public policies related to employment, education, health, and housing. Variables such as Unsatisfied Basic Needs (UBN) and deflated incomes can provide valuable information for policy planning.
- Non-Governmental Organizations (NGOs): NGOs working in areas like poverty reduction, improving working conditions, or gender equality could use this data to support specific reports and actions.
- Consultancies and private companies: Consultancies dedicated to economic and social analysis can use this database to produce sector reports and provide recommendations to their clients based on trends and social conditions derived from the data.
- Journalists and media: With a more accessible and interpretable database, journalists could develop reports and more precise analyses on the socio-economic situation of different regions of Argentina, providing a better understanding to the general population.
- International organizations: Institutions like the World Bank, the IDB, or ECLAC, which monitor and support development in Latin America, could reuse this data in comparative studies and regional policy analysis.
In summary, the added value of the more understandable data and the incorporation of new variables allows these actors to access key information in a more intuitive and efficient way, facilitating evidence-based decision-making.
Finally, this dataset includes the following complementary documents:
- Variable dictionary of the Observatory (PDF + interactive HTML): complete list of the variables of the enriched dataset, with type, descriptive label, accepted values, and individual variable sheets. The HTML version includes search and filtering; the PDF version is intended for documentary consultation and archival.
- Methodological document (PDF): explains the Observatory's own processing of the original INDEC base (Part A) and the adaptation to the methodological redesign of the fourth quarter of 2024 (Part B), including the deterministic rules for the reconstruction of historical aggregate variables.
- Dictionary in queryable JSON format: structured version of the variable dictionary, intended for programmatic use from R, Python, and artificial intelligence tools.
|