Este dataset recopila datos transcriptómicos y proteómicos de plantas de maíz (
Zea mays) enfocados en el desarrollo de la semilla. Para ello, se realizó una revisión sistemática basada en datos bioinformáticos integrando información de estudios proteómicos y transcriptómicos y fuentes externas. El dataset tiene como objetivo identificar genes coexpresados con la enzima Málica
ZmME3 NADP-dependiente (
Zm-NADPME3), e investigar las vías metabólicas y funciones celulares que coexisten -y que posiblemente estan relacionadas con la actividad de ZmME3- para formular una hipótesis sobre su rol biológico. El dataset también incluye datos de redes reguladoras génicas presentes en semilla, y experimentos sobre Factores de Transcripción (FTs), con el objetivo de identificar FTs candidatos en regular la expresión transcripcional de
ZmME3.
Contenidos del dataset
Los archivos de este dataset se agrupan de la siguiente manera:
- Análisis de coexpresión de Genes
- Análisis de Factores de Transcripción
- Tabla de referencia
- Documentación incluyendo un diccionario de datos y un readme file.
1. Análisis de coexpresión de Genes:
- Genes_co-expressed_with_ZmME3.xlsx
Este archivo contiene una lista de
9497 genes coexpresados con el gen ZmME3 (Zm00001eb371140) de
Z. mays, identificados en 10 clusters de datos transcriptómicos y/o proteómicos, de diseños experimentales de interés. Las columnas incluyen información detallada sobre cada gen, como IDs, descripción genética, patrones de expresión, especificidad en tejidos, sensibilidad a estrés, ortología con
A. thaliana, y análisis de la secuencia promotora. Además, el archivo agrupa genes de interés en 6 grupos claves que ayudan a comprender el rol biológico de ZmME3.
- Orthologs_of_genes_co-expressed_with_ZmME3.tab
Contiene información específica sobre ortología entre
Z. mays y
A. thaliana y otros datos como ser la ortología en
O. sativa. Este archivo complementa el contenido de Genes_co-expressed_with_
ZmME3.xlsx.
- Analysis_of_the_promoter_region_of_transcriptional_variants.tab
Contiene el análisis de promotores de
10916 variantes transcripcionales de genes coexpresados con ZmME3 anotados en la versión 5 del genoma que se enfoca en evaluar la presencia de díada de ABREs a distancias específicas para evaluar una potencial corregulación. Este archivo complementa el contenido de Genes_co-expressed_with_
ZmME3.xlsx.
- Arabidopsis_thaliana_identifiers_co-expressed_with_AtME1.xlsx
Contiene una lista de
350 IDs de A. thaliana provistos por ATTED-II que coexpresan con
AtME1. Este archivo complementa el contenido de Genes_co-expressed_with_
ZmME3.xlsx y de Candidate_transcription_factors_that_may_regulate_
ZmME3.xlsx
2. Análisis de Factores de Transcripción:
- Candidate_transcription_factors_that_may_regulate_ZmME3.xlsx
Este archivo contiene
2077 factores de transcripción (FTs) que podrían regular la expresión de
ZmME3, los cuales, fueron obtenidos de cinco fuentes: tres de estudios de clusterización, una de redes reguladoras génicas (GRN) y otra de experimentos Y1H screening. Las columnas detallan información sobre cada FT, incluyendo IDs, nombres propios, cantidad de genes diana en cada grupo de interés, descripciones genéticas, perfiles de expresión, especificidad en tejidos, sensibilidad a estrés, patrones de splicing, ortología con
A. thaliana, y datos de coexpresión conservada con
AtME1.
- Orthologs_of_the_collected_transcription_factors.tab
Contiene información información adicional sobre ortología entre
Z. mays y
A. thaliana y otros datos como ser la ortología en
O. sativa. Este archivo complementa el contenido de Candidate_transcription_factors_that_may_regulate_
ZmME3.xlsx.
3. Tabla de referencia:
- Gene_and_protein_identifiers_of_Zea_mays.tab
Este archivo contiene
47747 filas de IDs asociados en sus versiones genómicas (3, 4 y 5) del genoma B73 de
Z. mays e IDs proteicos. Además, las columnas detallan información particular sobre cada gen y su ortología con
A. thaliana y otros datos como ser la ortología en
O. sativa. Esta asociación de los IDs génicos fue esencial para el presente trabajo.
4. Documentación:
Este archivo contiene una lista de acrónimos y descripciones.
Este archivo contiene detalles de la metodología completa e información adicional.
Metodología de recolección de datos
La recolección de datos se realizó en etapas, mediante funciones en R. Primero se generó una tabla de referencia que unifica los identificadores génicos y proteicos de Zea mays a través de distintas versiones genómicas, integrando información de MaizeGDB, Phytozome, PAXdb y Ensembl Plants. Luego, se recopilaron genes coexpresados con ZmME3 a partir de ocho conjuntos transcriptómicos y dos proteómicos provenientes de siete publicaciones seleccionadas. Estos datos se integraron con la tabla de referencia para consolidar la tabla Genes_co-expressed_with_ZmME3.xlsx. Posteriormente, se incorporaron características funcionales desde diversas fuentes y bases de datos, incluyendo información sobre expresión, localización, ortología, actividad funcional y genes coexpresados con AtME1.
Finalmente, se identificaron factores de transcripción (FTs) potencialmente reguladores de ZmME3, agrupados según su patrón de expresión, detección en redes reguladoras génicas (GRNs) y evidencia de interacción, consolidando esta información en la tabla Candidate_transcription_factors_that_may_regulate_ZmME3.xlsx. Los detalles completos del procedimiento se encuentran en el archivo Readme.txt del dataset.
Contexto de la investigación
Este dataset es parte de los resultados y material de trabajo de la tesina “Caracterización de genes de relevancia para la funcionalidad biológica y la regulación del inicio transcripcional de la enzima málica
ZmME3”, cuyo objetivo fue proponer roles posibles de la enzima málica
ZmME3 NADP-dependiente, dirigida por el Dr. Gismondi y la Dra. Saigo, en el marco del grupo de investigación "Metabolismo del carbono y su relación con la producción vegetal", perteneciente al Centro de Estudios Fotosintéticos y Bioquímicos (CEFOBI, CONICET-UNR), el cual ha llevado a cabo estudios sobre las enzimas málicas en diversas especies vegetales, y ha surgido el interés de explorar el rol biológico de ZmME3, una isoforma citosólica de la enzima málica en
Z. mays que muestra una interesante relación evolutiva entre monocotiledóneas y dicotiledóneas, y su expresión está específicamente localizada en embriones de grano de maíz durante el desarrollo y en etapas tardías en el desarrollo en grano entero, y también se expresa en diversos tejidos en respuesta a estímulos de estrés, particularmente asociados con la hormona ácido abscísico (ABA).
Calidad de los datos
Si se van a reutilizar estos datos es importante tener en cuenta que se ha preferido incluir en una misma celda (ID_V3, ID_V4 y ID_V5) más de un ID génico cuando la fuente de datos genómicos incluía esa correspondencia. Esto significa que la información de esa fila puede no corresponder a un único gen.
Durante la asignación de ortología entre
Z. mays y
A. thaliana mediante Metaphors, algunos IDs proteicos presentaban un código no convencional. Como resultado, su correspondiente ID génico en
A. thaliana quedó vacío o incompleto, impidiendo asociar la información de coexpresión con
AtME1. Por ello, sólo la tabla
Arabidopsis_thaliana_identifiers_co-expressed_with_
AtME1.xlsx, contiene los IDs génicos de
A. thaliana que conservan la coexpresión con
AtME1.
Relevancia de los datos
Estos datos brindan información valiosa sobre la relación funcional de la enzima málica
ZmME3 con otros genes, sugieriendo su asociación con la síntesis de lípidos, terpenos, su relación al ácido abscísico y tolerancia al estrés. Además, incluyen detalles sobre elementos
cis ubicados en la zona promotora de los genes coexpresados con
ZmME3, destacando la presencia de una díada de ABREs, lo que podría ser relevante para estudiar su posible corregulación.
También se proporciona información sobre genes ortólogos en
A. thaliana, en especial si conserva la coexpresión con
AtME1. Esto no solo permite explorar relaciones evolutivas entre estas especies, sino que también podrían ayudar a estudiar el rol biológico de
AtME1 en
A. thaliana.
También, se identifican factores de transcripción que podrían regular la expresión de
ZmME3 en la semilla, incluyendo datos sobre la cantidad de genes diana coexpresados con
ZmME3.
Por otro lado, la tabla Gene_and_protein_identifiers_of_
Zea_mays.tab facilita la visualización de la correspondencia entre IDs génicos de las versiones 3, 4 y 5 del genoma B73 de
Z. mays y sus respectivos IDs proteicos, así como el ID génico del homologo u ortólogo en
A. thaliana y el ID proteico del ortólogo en
Oryza sativa. Además, incluye información sobre la expresión génica en
Z. mays ante el estrés, y si muestra especificidad hacia algún órgano o tejido.
Finalmente, las tablas permiten realizar búsquedas mediante palabras clave para identificar genes relacionados con características específicas, optimizando su análisis e interpretación.
ENGLISH VERSION
Dataset Content
This dataset compiles transcriptomic and proteomic data from maize plants (
Zea mays), focusing on seed development, with the aim of identifying genes co-expressed with the
NADP-dependent Malic Enzyme ZmME3 (
Zm-NADPME3) and investigating the metabolic pathways and cellular functions that coexist and may be related to ZmME3 activity. The ultimate goal is to formulate hypotheses about its biological role. To achieve this, a systematic review was conducted using bioinformatics data, integrating information from proteomic and transcriptomic studies as well as external sources. Additionally, the dataset includes data on gene regulatory networks present in seeds and experiments on Transcription Factors (TFs), aiming to identify candidate TFs that may regulate the transcriptional expression of
ZmME3.
File Organization
All files in this dataset are grouped as follows:
- Gene Co-Expression Analysis
- Transcription Factor Analysis
- Reference Table
- Documentation
1. Gene Co-expression Analysis:
- Genes_co-expressed_with_ZmME3.xlsx
This file contains a list of
9,497 genes co-expressed with the ZmME3 (Zm00001eb371140) gene in
Z. mays, identified across 10 clusters of transcriptomic and/or proteomic data from relevant experimental designs. The columns include detailed information for each gene, such as IDs, genetic descriptions, expression patterns, tissue specificity, stress sensitivity, orthology with
A. thaliana, and promoter sequence analysis. Additionally, the file categorizes key genes into six main groups that aid in understanding the biological role of ZmME3.
- Orthologs_of_genes_co-expressed_with_ZmME3.tab
Contains specific information on orthology between
Z. mays and
A. thaliana, as well as orthology with O. sativa. This file complements the content of Genes_co-expressed_with_
ZmME3.xlsx.
- Analysis_of_the_promoter_region_of_transcriptional_variants.tab
Includes a promoter analysis of
10,916 transcriptional variants of genes co-expressed with ZmME3 annotated in genome version 5. It focuses on evaluating the presence of ABRE diads at specific distances to assess potential co-regulation. This file complements Genes_co-expressed_with_
ZmME3.xlsx.
- Arabidopsis_thaliana_identifiers_co-expressed_with_AtME1.xlsx
Contains a list of
350 A. thaliana IDs provided by ATTED-II that co-express with
AtME1. This file complements Genes_co-expressed_with_
ZmME3.xlsx and Candidate_transcription_factors_that_may_regulate_
ZmME3.xlsx.
2. Transcription Factor Analysis:
- Candidate_transcription_factors_that_may_regulate_ZmME3.xlsx
This file contains
2,077 transcription factors (TFs) that may regulate
ZmME3 expression. These were obtained from five sources: three clustering studies, one gene regulatory network (GRN) analysis, and one Y1H screening experiment. The columns provide detailed information for each TF, including IDs, names, target gene counts in each group of interest, genetic descriptions, expression profiles, tissue specificity, stress sensitivity, splicing patterns, orthology with
A. thaliana, and conserved co-expression data with
AtME1.
- Orthologs_of_the_collected_transcription_factors.tab
Contains additional information on orthology between
Z. mays and
A. thaliana, as well as orthology with O. sativa. This file complements Candidate_transcription_factors_that_may_regulate_
ZmME3.xlsx.
3. Reference Table:
- Gene_and_protein_identifiers_of_Zea_mays.tab
This file contains
47,747 rows of associated genomic IDs (versions 3, 4, and 5) from the
Z. mays B73 genome, along with protein IDs. Additionally, the columns provide specific information about each gene and its orthology with
A. thaliana, as well as orthology with O. sativa. This gene ID association was essential for this study.
4. Documentation:
This file contains a list of acronyms and descriptions.
This file contains details of the complete methodology and additional information.
Data Collection Methodology
Data collection was carried out in stages using R functions. First, a reference table was generated to unify gene and protein identifiers of Zea mays across different genome versions, integrating information from MaizeGDB, Phytozome, PAXdb, and Ensembl Plants. Then, genes co-expressed with ZmME3 were collected from eight transcriptomic and two proteomic datasets derived from seven selected publications. These data were integrated with the reference table to consolidate the Genes_co-expressed_with_ZmME3.xlsx file. Subsequently, functional features were incorporated from various sources and databases, including information on gene expression, subcellular localization, orthology, functional activity, and genes co-expressed with AtME1.
Finally, transcription factors (TFs) potentially regulating ZmME3 were identified and grouped based on their expression patterns, detection in gene regulatory networks (GRNs), and evidence of interaction, consolidating this information in the Candidate_transcription_factors_that_may_regulate_ZmME3.xlsx file. Full methodological details are provided in the dataset’s Readme.txt file.
Research Context
This dataset is part of the findings and working material of the thesis "Characterization of Genes Relevant to the Biological Functionality and Regulation of the Transcriptional Initiation of the Malic Enzyme
ZmME3." The objective was to propose possible roles of the
NADP-dependent Malic Enzyme ZmME3, under the supervision of Dr. Gismondi and Dr. Saigo, within the research group "Carbon Metabolism and Its Relationship with Plant Production" at the Center for Photosynthetic and Biochemical Studies (CEFOBI, CONICET-UNR). This group has conducted studies on malic enzymes in various plant species, leading to an interest in exploring the biological role of ZmME3, a cytosolic isoform of malic enzyme in
Z. mays. This enzyme shows an interesting evolutionary relationship between monocots and dicots, and its expression is specifically localized in maize grain embryos during development and in late stages of whole grain development. It is also expressed in various tissues in response to stress stimuli, particularly those associated with the hormone abscisic acid (ABA).
Data Quality
If these data are reused for other purposes, it is important to note that more than one gene ID has been included in a single cell (ID_V3, ID_V4, and ID_V5) when genomic data sources indicated such a correspondence. This means that the information in that row may not correspond to a single gene.
During the orthology assignment between
Z. mays and
A. thaliana using Metaphors, some protein IDs contained unconventional codes. As a result, their corresponding
A. thaliana gene ID remained empty or incomplete, preventing the association of co-expression data with
AtME1. Therefore, only the table
Arabidopsis_thaliana_identifiers_co-expressed_with_
AtME1.xlsx contains
A. thaliana gene IDs that retain co-expression with
AtME1.
Data Relevance
This dataset provides valuable information on the functional relationship of the malic enzyme
ZmME3 with other genes, suggesting its association with lipid and terpene biosynthesis, abscisic acid-related pathways, and stress tolerance. It also includes details on cis-regulatory elements located in the promoter regions of genes co-expressed with
ZmME3, highlighting the presence of an ABRE diad, which may be relevant for studying potential co-regulation.
Additionally, information on the orthologous genes in
A. thaliana is provided, particularly regarding its conserved co-expression with
AtME1. This not only allows for exploring evolutionary relationships between these species but may also help study the biological role of
AtME1 in
A. thaliana.
Furthermore, transcription factors that may regulate
ZmME3 expression in seeds have been identified, including data on the number of target genes co-expressed with
ZmME3.
On the other hand, the Gene_and_protein_identifiers_of_Zea_mays.tab table facilitates the visualization of the correspondence between gene IDs from genome versions 3, 4, and 5 of the
Z. mays B73 genome and their respective protein IDs, as well as the gene ID of the homologous or orthologous gene in
A. thaliana and the protein ID of the ortholog in Oryza sativa. Additionally, it includes information on gene expression in
Z. mays under stress conditions and whether it shows specificity for any organ or tissue.
Finally, the tables enable keyword searches to identify genes related to specific traits, optimizing analysis and interpretation.