(Existe una versión resumida de este texto).
Una pandemia de la escala y gravedad que estamos viviendo con COVID-19, para la que nadie estaba preparado y en la que los distintos gobiernos han reaccionado de manera desigual, es una muestra de hasta qué punto necesitamos datos fidedignos e información transparente para conocer el alcance y profundidad de la propagación de la enfermedad. Las carencias y dificultades, en un contexto incierto y volátil, para la obtención de una información pública de calidad han hecho aflorar distintas iniciativas colectivas y colaborativas que han dado respuesta a esta demanda de datos e información.
Desde la declaración del Estado de Alarma el 14 de marzo de 2020, las comunidades científica y periodística, así como la ciudadanía en general, hemos esperado que se publicaran datos abiertos sobre la COVID-19 de manera desagregada. Más allá de las series históricas de datos ofrecidas a nivel autonómico por el Instituto de Salud Carlos III, perteneciente al Ministerio de Ciencia e Innovación1, que desde el 21 de mayo no se ha actualizado (con fecha prevista de reanudación el 3 de junio2), no hay otra fuente unificada oficial a nivel estatal. También se anunció una “Oficina del dato” para centralizar toda la información disponible en una web unificada3 que no ha llegado a materializarse.
Somos conscientes de la dificultad de publicar datos en tiempo real durante una crisis como la de la COVID-19 y comprendemos lo compleja que puede llegar a ser la coordinación de múltiples administraciones en esta situación, pero creemos que:
Mientras la necesidad de información fiable, consistente, histórica, desagregada y actualizada ha sido creciente, la puesta a disposición de datos por parte de los administraciones públicas de todos los datos referidos a la pandemia no sólo no ha ido mejorando paulatinamente sino que incluso ha empeorado. Tanto a nivel estatal como autonómico se ha interrumpido la publicación de las series de datos sin conocerse por qué ciertos datos no se han publicado y sin que, además, se haya proporcionado la suficiente información sobre la metodología empleada para generarlos.
La publicación de los datos de número de casos confirmados, hospitalizados, ingresados críticos, altas, defunciones, diagnosticados y pruebas realizadas, nuevos y acumulados, así como de número de camas ocupadas y disponibles y otros recursos disponibles, de manera agregada, por comunidades autónomas, tal y como se indica en diferentes publicaciones del BOE 4 5, ha sido confusa y ha resultado insuficiente para comprender un fenómeno cuyo desarrollo (y desescalada) se produce a nivel local.
Se ha publicado sólo un número limitado de datos6, lo que ha impedido conocer la situación real del sistema sanitario, así como su nivel de ocupación hospitalaria y de UCI en las diferentes comunidades autónomas. Algunas comunidades autónomas sí han tratado de hacer un esfuerzo aportando más datos, en ocasiones con cierto nivel de desagregación, pero esta información tampoco se ha transmitido siempre por las autoridades estatales ni se ha puesto a disposición de la ciudadanía7.
Como consecuencia de estas lagunas han surgido iniciativas8 que, voluntariamente, han dedicado esfuerzos y tiempo en construir bases de datos públicas, útiles y reutilizables a partir de diversas fuentes de información9. Hoy, estas bases de datos están siendo usadas tanto por la comunidad científica como la periodística, gracias a que han suplido la ausencia de repositorios oficiales y han puesto de manifiesto las enormes carencias de estos, como la escasez de los datos aportados, la falta de coherencia de las series temporales y los medios utilizados para proporcionar los datos, que dificultan sobremanera su tratamiento posterior.
Por todo ello, los firmantes de este manifiesto proponemos que:
Todos los datos recabados por las administraciones públicas responsables sean públicos y estén disponibles en una única página web accesible, de forma estructurada, abierta, claramente vinculada y contextualizada, tras haber sido publicados por la agencia o entidad gubernamental encargada de su integración10. Esta página web debería incluir, además, no sólo los datos mínimos y armonizados que el Ministerio de Sanidad está solicitando en ejercicio de sus funciones de coordinación a las comunidades autónomas, sino todos los conjuntos de datos que éstas aporten.
Que los datos tengan un nivel de desagregación suficiente para ser útiles y compatible con la debida anonimización exigida en materia de protección de datos. En particular, deberían proporcionarse series de datos con evolución temporal y una resolución, como mínimo, a nivel provincial o por área sanitaria. Además, con independencia de que a partir de un determinado momento o para algunas comunidades autónomas se pueda pasar a disponer de más datos y de más series, se debería asegurar un tratamiento de la información que, tras estas adiciones, siga permitiendo que la serie antigua pueda también continuar siendo actualizada con los nuevos datos, con el fin de de permitir el estudio de la evolución de la pandemia.
La publicación de los datos se realice en un repositorio abierto11 que, ante cualquier modificación, mantenga los registros históricos y la trazabilidad de los cambios realizados. Este repositorio debería estar integrado con los portales de transparencia tanto de la administración central como de las comunidades autónomas, para facilitar aún más el acceso de la ciudadanía a estos datos.
Los datos sean transparentes y abiertos, entendiéndose así cuando cualquiera es libre de acceder a ellos, usarlos, modificarlos y compartirlos, estando sujetos a lo sumo a medidas que preserven su autoría y apertura (definición de conocimiento abierto12). Asimismo, deben publicarse en un formato abierto y accesible, en consonancia con el modelo de datos 5-estrellas13, lo que implica su publicación en un formato no propietario y estandarizado (como, por ejemplo, los archivos de extensión CSV, XML o JSON), que permita su reutilización más allá de la mera consulta (en contraposición a formatos como los de extensión PDF14).
La actualización pública de los datos sea, en lo posible, lo más próxima en el tiempo respecto a su obtención y tratamiento originales.
La toma de decisiones que afecten a la publicación de los datos se haga de una manera completamente transparente, y tenga en cuenta las necesidades informativas e investigadoras de los colectivos anteriormente mencionados, a través del uso de unos metadatos que describan tanto los campos utilizados como la forma en la que se han obtenido cada uno de ellos.
Y para que quede constancia, suscribimos esta propuesta con la intención de contribuir al bien común, seguir trabajando para conseguir que el acceso al conocimiento sobre esta pandemia sea libre y, así, no sólo favorecer una ciudadanía mejor informada, sino también mejor capacitada para colaborar en la lucha contra ésta y futuras crisis. Y trabajar de esta manera transparente y coordinada debería ser la norma a partir de ahora, no la excepción.
Todavía es posible.
Puedes leer una versión resumida de este texto y quienes lo suscriben.
Este manifiesto está disponible en datoscovid19esposible.github.io.
Iniciativa relacionada: la Coalición Pro Acceso pide en este comunicado al Gobierno que garantice el ejercicio del derecho de acceso a la información.
https://cnecovid.isciii.es/covid19/#documentaci%C3%B3n-y-datos
Nota de prensa en Europa Press: https://www.europapress.es/asturias/noticia-simon-insiste-serie-fallecidos-corregira-importante-ahora-son-muertos-diarios-20200529202654.html
Nota de prensa en Europa Press: https://www.europapress.es/economia/noticia-gobierno-crea-web-unificada-oficina-dato-estudio-movilidad-luchar-contra-covid-19-20200323151757.html
BOE de 15 de marzo: https://www.boe.es/diario_boe/txt.php?id=BOE-A-2020-3702
BOE de 16 de abril: https://www.boe.es/diario_boe/txt.php?id=BOE-A-2020-4493
Se han publicado a nivel nacional los datos de hospitalización y UCI acumulados por COVID-19, pero no así en todos los casos los de prevalencia; ya no se publican los positivos por anticuerpos; no se han publicado a nivel nacional los fallecidos sospechosos; no se ha publicado la ocupación hospitalaria y de UCI teniendo en cuenta a todos los ingresados y no solo los de enfermos de COVID-19; no se han publicado las camas disponibles hospitalarias y de UCI y cuántas han sido creadas por las necesidades actuales; no se han publicado los respiradores disponibles y cuál era su ocupación; no se han publicado los fallecidos en residencias; no se han publicado el número de personas distintas a las que se han hecho los PCR o anticuerpos y sus porcentajes de positivos diarios; muchos de estos datos son los que por orden ministerial en los BOE anteriormente mencionados tienen obligación de facilitar las comunidades autónomas, pero se desconocen si esa información se ha facilitado o es que no se han publicado. Tampoco se han homogeneizado criterios para determinar si una persona se ha curado o no, ni se está publicando la cifra de personas que alguna vez dieron positivo en PCR y que después ya dan negativo o se les considera curados mediante otro criterio. Acerca de los rastreados y los rastreadores, tampoco se sabe a cuántas personas se está rastreando al día, ni qué porcentaje da positivo, ni cuántos rastreadores contratados hay.
Como ocurre en los casos de los los datos de prevalencia de hospitalizaciones que están publicando algunas CC. AA. como Castilla y León; o los datos de fallecidos sospechosos de covid que están publicando Cataluña y Madrid, indicando fallecidos en hospitales, residencias o domicilios.
Por ejemplo, Datadista (https://github.com/datadista/datasets/tree/master/COVID%2019, Fundación Civio (https://datos.civio.es/dataset/pcr-coronavirus-covid19-espana-comunidades-autonomas/), Geovoluntarios (https://www.datoscovid.es/) o la iniciativa colectiva esCOVID19data https://github.com/montera34/escovid19data.
No hay más que ver la disparidad y diversidad de fuentes utilizadas sólo para construir el conjunto de datos provinciales esCOVID19data en su wiki pública: https://github.com/montera34/escovid19data/wiki
De hecho, ya existen iniciativas gubernamentales que trabajan en esta línea y podrían realizar dicha integración, como https://red.es/redes/ o https://datos.gob.es/
Como ocurre en el caso del gobierno italiano, que publica sus datos de manera oficial en https://github.com/pcm-dpc/COVID-19
Véase como ejemplo las capacidades de exportación de datos y API en la web de datos de Castilla y León: https://analisis.datosabiertos.jcyl.es/explore/dataset/tasa-mortalidad-covid-por-zonas-basicas-de-salud/export/