Datatones para la innovación abierta
ixpantia organizó un nuevo datatón que se benefició de nuestro conocimiento técnico para hacer análisis exploratorios eficaces con tecnologías de código abierto. Los participantes fueron en su mayoría profesionales con amplio talento y excelente aptitud para contribuir y generar valor.
Acompañamos en iniciativas y proyectos de ciencia de datos, ingeniería e infraestructura. Visita nuestra página ixpantia y contáctanos.
El sábado 7 de marzo del 2020 se llevó a cabo la celebración del Open Data Day 2020 bajo el auspicio del Gobierno Abierto de Costa Rica. El equipo de dicha entidad nos contactó para invitarnos a colaborar con una asignación clara en mente para nosotros: organizar el Datatón, un componente importante de la celebración. Según Geannina Sojo, Coordinadora de Gobierno Abierto, “el aporte de ixpantia en la Datatón agregó valor a la dinámica propuesta, y a la generación de capacidades en los distintos participantes.”
Aprovechando lecciones aprendidas
El objetivo del Datatón fue que los participantes realizaran análisis exploratorios con los datos abiertos disponibles del gobierno de Costa Rica usando herramientas de código abierto. En el primer Datatón de Colaboración Ciudadana, impulsado por el San Carlos R User Group en agosto 2019 y que apoyamos en pleno, notamos que el día del evento los participantes se retrasaron intentando cargar y leer los conjuntos de datos. Para evitarlo esta vez, previo al evento, ixpantia y un equipo de voluntarios (a quienes les debemos un gran agradecimiento) allanamos el camino. Primero identificamos las fuentes de datos disponibles, lo que llevó a un inventario de 45 fuentes (los interesados pueden explorar la lista). Luego escogimos las más prometedoras, las procesamos para llevarlas a formatos analizables, y en algunos casos desarrollamos exploraciones iniciales. Finalmente, todo ese trabajo lo dejamos listo en el repositorio de código del evento para que los participantes del Datatón pudieran llegar al mismo a concentrarse sólo en analizar la información en los datos. Es decir, desde el inicio generamos procesos reproducibles a base de código.
Ejes y aprendizajes
Las exploraciones de datos se organizaron en torno a los 4 ejes temáticos del Open Data Day: medio ambiente, fiscalización de flujos de dinero público, mapeo abierto y desarrollo equitativo. A continuación los highlights de lo que los equipos que se enfocaron en cada tema descubrieron y aprendieron.
Medio ambiente
El equipo enfocado en datos sobre medio ambiente trabajó con fuentes de datos como el balance energético del MINAE, las pérdidas por desastres naturales de MIDEPLAN, y las cuentas ambientales del BCCR, entre otras. Lo más difícil para el equipo fue interpretar y lograr ingerir archivos en Excel que están diseñados para ser reportes y no como conjuntos de datos en forma de tablas homogéneas. Si las instituciones ofrecieran al público más “tablas” y menos “reportes”, se le podría sacar más provecho a su información.
Fiscalización de flujos de dinero público
Uno de los equipos más grandes fue el interesado en datos asociados a flujos de dinero público. Trabajaron con datos del banco de proyectos de inversión pública de MIDEPLAN y de empleo público del Ministerio de Hacienda. También exploraron finanzas públicas a nivel de ingresos y gastos del gobierno central y las transferencias hechas a instituciones, esto con datos de la Contraloría General de la República. Además de generar estadísticas descriptivas sobre dichos flujos, mencionaron que en futuros datatones les gustaría cruzar fuentes de datos, y por ejemplo asociar las inversiones hechas por FODESAF con los índices de pobreza.
Mapeo abierto
El equipo de mapeo abierto fue el que enfrentó mayores dificultades técnicas, las cuales a su vez nos dejaron importantes aprendizajes para futuros datatones. Primero, los mapas se cargan y manipulan de manera dinámica a través de APIs que requieren de una buena conexión a Internet; sin ella la capacidad de trabajo se ve limitada. Por otra parte, los paquetes y librerías que se requieren son muy especializadas, y los usuarios de Linux tuvieron dificultades para instalar todas las dependencias antes de comenzar. Finalmente, hay tipos de datos que no se pueden cargar directamente desde lenguajes como R, sino que primero deben ser convertidos usando otras herramientas. Los dos puntos anteriores evidencian la mayor preparación requerida para trabajar con datos geoespaciales en comparación con las tradicionales tablas de datos.
El trabajo en mapeo abierto se fundamentó en algunas de las capas de datos provistas por el SINIT del Registro Nacional, de cuya entidad nos acompañó Marta E. Aguilar, Directora a.i del Instituto Geográfico Nacional. El equipo alabó la gran cantidad de capas disponibles ahí y quedó con ganas de explorar más. En cuanto a la interpretación de los datos, resaltaron que aunque varios de los conjuntos de datos disponibles vienen con metadatos, no cuentan con descripciones suficientes que faciliten su interpretación.
Desarrollo equitativo
El trabajo sobre este tema se centró en gran medida en analizar datos de la Encuesta Nacional de Hogares del INEC, los cuales fueron introducidos temprano en el día por Pilar Ramos, Coordinadora del Área de Servicios de Información y Divulgación de dicha entidad. Exploraron qué factores están correlacionados con la pobreza extrema y encontraron que los índices de pobreza varían fuertemente dependiendo de si el jefe del hogar es un hombre o una mujer, entre otras cosas. Por otra parte, notaron que en los 4 años disponibles de datos no se logran apreciar fuertes tendencias, lo que los llevó a concluir que para monitorear cambios en este ámbito se deben estudiar horizontes de tiempo más largos.
Algo muy interesante a nivel técnico que propuso este equipo fue el uso de PivotTable.js como una herramienta para que alguien sin conocimiento de programación pueda explorar estos datos.
Innovación abierta
A todos en ixpantia nos impresionó positivamente tanto la afluencia de participantes voluntarios al evento como su disposición a concentrarse y trabajar con seriedad en la tarea entre manos. Aunque hubo estudiantes, la mayoría de participantes fueron profesionales de empresas privadas y algunas instituciones públicas con ganas de generar valor. Es claro que Costa Rica tiene profesionales con el talento y la aptitud necesaria para innovar. Desde ixpantia esperamos continuar siendo un punto de referencia de conocimiento en ciencia de datos y que podamos continuar impulsando la innovación abierta a lado de esta creciente comunidad datera. El código escrito durante el evento quedó en nuestro GitHub.
Este blog lo mantiene el equipo de ixpantia y la comunidad de gente interesada en datos de la cual estamos contentos de formar parte ¿Tienes una idea para publicar algo aquí? ¡Escríbenos! Estamos siempre interesados en material e ideas nuevas. © 2019-2022 ixpantia