Talk: ¿Qué es mejor que una buena fuente de datos? Dos buenas fuentes de datos @ Data Day Mexico 2022

Talk: ¿Qué es mejor que una buena fuente de datos? Dos buenas fuentes de datos @ Data Day Mexico 2022

Nov 14, 2022
Acerca de la charla

En esta presentación exploro la importancia de trabajar con múltiples fuentes de datos para crear análisis más robustos y confiables. Abordo estrategias prácticas para identificar, validar y combinar diferentes fuentes de datos, así como las mejores prácticas para mantener la reproducibilidad y transparencia en nuestros proyectos de datos.

In this presentation I explore the importance of working with multiple data sources to create more robust and reliable analyses. I address practical strategies for identifying, validating, and combining different data sources, as well as best practices for maintaining reproducibility and transparency in our data projects.

Detalles
Descripción

Esta charla se centra en la metodología y las mejores prácticas para trabajar con múltiples fuentes de datos en proyectos de análisis y ciencia de datos.

Temas principales:

  • Identificación de fuentes complementarias: Cómo encontrar y evaluar fuentes de datos que se complementen entre sí
  • Validación cruzada: Técnicas para validar la calidad y consistencia entre diferentes fuentes
  • Estrategias de combinación: Métodos para unir datos de diferentes fuentes manteniendo la integridad
  • Reproducibilidad: Crear pipelines documentados que permitan replicar el proceso
  • Transparencia metodológica: Documentar decisiones y limitaciones en el proceso de análisis

La presentación incluye ejemplos prácticos usando herramientas como Python y pandas, y casos de estudio reales donde múltiples fuentes de datos proporcionaron insights más profundos que el análisis de una sola fuente.

Key Topics:

  • Identifying complementary sources: How to find and evaluate data sources that complement each other
  • Cross-validation: Techniques for validating quality and consistency between different sources
  • Combination strategies: Methods for joining data from different sources while maintaining integrity
  • Reproducibility: Creating documented pipelines that allow replicating the process
  • Methodological transparency: Documenting decisions and limitations in the analysis process
Audiencia objetivo

Esta charla está dirigida a científicos de datos, analistas, ingenieros de datos, y investigadores que buscan mejorar la robustez de sus análisis mediante el uso estratégico de múltiples fuentes de datos. También es valiosa para equipos que buscan establecer mejores prácticas en sus flujos de trabajo de datos.

This talk is aimed at data scientists, analysts, data engineers, and researchers looking to improve the robustness of their analyses through strategic use of multiple data sources. It’s also valuable for teams looking to establish better practices in their data workflows.

Sobre Data Day Mexico

Data Day es la conferencia líder en ciencia de datos e ingeniería en México, reuniendo a profesionales, académicos y estudiantes para compartir conocimientos y mejores prácticas en el ecosistema de datos en español.

Data Day is the leading data science and engineering conference in Mexico, bringing together professionals, academics, and students to share knowledge and best practices in the Spanish-speaking data ecosystem.

Contacto
Acerca del speaker

Sergio Sánchez Zavala es Senior Data Engineer en TalkingPoints y fundador de tacosdedatos.com. Originario de Tijuana, Baja California, se dedica a hacer la investigación transparente y reproducible. Es un apasionado de los datos, las políticas públicas, y la tecnología, enfocándose en crear herramientas y recursos de código abierto accesibles para la comunidad de habla hispana.

Sergio Sánchez Zavala is a Senior Data Engineer at TalkingPoints and founder of tacosdedatos.com. Originally from Tijuana, Baja California, he’s dedicated to making research transparent and reproducible. He’s passionate about data, public policy, and technology, focusing on creating accessible open-source tools and resources for the Spanish-speaking community.

Visit website

# data engineering # talk # spanish # data sources # reproducible research
Mastodon