La calidad del dato es uno de los temas de más relevancia cuando se habla de la generación de valor y conocimiento a partir de información. Se trata de un tema de especial importancia en un momento donde tanto actores públicos como privados están interesados en la utilización de esos datos tanto para la toma de decisiones informada, basados en evidencia empírica, como para el entrenamiento de sistemas de Inteligencia Artificial.
En la contratación pública, como no podía ser menos, la calidad de los datos es uno de los principales temas sobre la mesa. La aceleración de la digitalización del procedimiento de contratación pública que hemos vivido en los últimos años ha sentado las bases para la generación de altos volúmenes de datos e información en este ámbito. En consecuencia, se ha expandido la potencialidad del uso de estos datos para tomar mejores decisiones en cuanto a la gestión de la contratación pública, elaborar mejores procedimientos de compra o conocer mejor el mercado. No es de extrañar que los datos de contratación pública sean de los más consumidos a nivel europeo en cuanto a datos abiertos se refiere.
Sin embargo, para poder extraer todo el potencial que nos permiten los datos, y evitar la toma de decisiones de forma ya no desinformada, sino directamente con información errónea, es necesario asegurar la calidad de la información que se está utilizando. En línea con los indicadores de calidad del dato que se están definiendo en el Espacio Europeo de Datos de Contratación Pública (del que hemos hablado previamente aquí), entendemos diversas dimensiones de calidad del dato:
- Integridad. La integridad de los datos es una medida de cuántos de los datos requeridos o esperados están presentes dentro de un conjunto de datos. Por ejemplo, que la información de un determinado campo, como el valor estimado o el presupuesto base de licitación, esté informada.
- Validez. La validez de los datos asegura que los datos se recolecten de acuerdo con reglas y parámetros de negocio definidos, y que cumplan con el formato correcto y estén dentro del rango adecuado. Por ejemplo, que el CPV informado sea correcto de acuerdo con la clasificación oficial, y no sea un número fuera de la clasificación o que no siga el formato correcto.
- Consistencia. La consistencia de los datos se refiere a la uniformidad y coherencia de los datos dentro de diferentes conjuntos de datos y entre ellos. Por ejemplo, si se ha informado que hay 3 PYMEs que han presentado oferta, debe haber al menos 3 empresas también registradas que han presentado ofertas.
- Precisión. La precisión de los datos es el grado en que los datos reflejan escenarios reales. Por ejemplo, se mide que el valor estimado de un contrato esté dentro de unos parámetros razonables, excluyendo aquellos contratos con un importe anormalmente alto (si vemos los datos en crudo, podemos encontrar algunos contratos con valores de más de 100 mil millones de euros).
- Unicidad. La unicidad de los datos asegura que no haya duplicaciones ni solapamientos de valores en todos los conjuntos de datos. Por ejemplo, se deben identificar y tratar los registros de contratos que son duplicados, para evitar una doble contabilidad de estos.
- Puntualidad. La puntualidad de los datos se refiere al grado en que los datos están disponibles y actualizados. Por ejemplo, que los datos estén actualizados en un periodo razonable y no meses o años después de realizarse la contratación.
Es interesante ilustrar el problema de calidad del dato en la contratación pública con un ejemplo más preciso. Uno de los principales problemas de calidad afecta normalmente al valor estimado del contrato o al presupuesto base de licitación, donde dependiendo de la fuente de información, podemos encontrar desde la falta de publicación del dato (fallando en la regla de integridad), la publicación de valores que contienen IVA cuando se debiera reportar el valor neto (fallando en la regla de validez), reportando valores que corresponden según el procedimiento de licitación – por ejemplo un contrato menor con una cuantía que no permite la normativa (fallando en la regla de consistencia), o reportando valores demasiado altos e irreales, o incluso demasiado pequeños (fallando en la regla de precisión). Esto es sólo un ejemplo de distintas reglas de calidad que podríamos aplicar, y sólo para un campo en particular.
Profundizando todavía más en el detalle, tomemos como ejemplo los datos publicados en el Diario Oficial de la Unión Europea (TED) y que se publican como datos abiertos cada año. En los gráficos de abajo se expone un análisis simple del campo valor estimado del contrato en base a los datos TED, (para una base de datos de aproximadamente de 1 millón de contratos correspondientes a 2022).
Como se puede apreciar en la gráfica, es especialmente acuciado el número de contratos que tienen valores por debajo de 10€, que fuera de cualquier duda se puede considerar erróneos, y además se podría inducir el carácter intencionado para evitar reportar la cifra real. Además, es muy preocupante el porcentaje que estos contratos representan sobre el total de contratos que el país reporta, en algunos casos llegando a ser el 50% del total de los anuncios de adjudicación publicados.

Casos como el anterior son muy comunes en la contratación pública y estos dificultan las tareas más básicas de conocer por ejemplo cuánto se ha licitado en realidad en un determinado país, quienes son los principales licitadores, etc. o explorar efectos causales dentro de la contratación que requieren de análisis estadísticos más elaborados: el cómo afecta el valor del contrato a la participación de las PYMEs, o cómo se deberían legislar los umbrales para los distintos procedimientos.
Si el deber de escrudiñar los datos en búsqueda de errores e inconsistencias recae sobre el usuario de dato (ya sea esta otra administración pública, investigadores, o los propios licitadores), y no sobre el responsable de su generación, se está generando una gran barrera de entrada para la utilización de estos, y por lo tanto poder aprovechar los beneficios esperados. Además, existirían diversas personas u organizaciones trabajando en un esfuerzo paralelo de descubrimiento de errores, pero sin que haya una mejora de los datos en origen ni que pueda ser reaprovechada por otros. Por si fuera poco, los propios reutilizadores de la información se encontrarán con el problema de cómo tratar el dato erróneo (¿qué se debe hacer cuándo se detecta un contrato con un importe irreal?, ¿se debe eliminar el registro para realizar cualquier análisis? ¿se debe imputar el valor en base a métodos estadísticos para mantener una base de datos completa?). La calidad del dato abre multitud de incógnitas que afectan directamente a los resultados que se obtendrán en cualquier análisis, pero también a la confianza en los propios resultados obtenidos y a la reproducibilidad de los análisis realizados.
La calidad del dato es algo del que todas las organizaciones y personas encargadas de su generación deben ser cautelosas e implementar los controles y medidas necesarias para la producción de información de buena calidad. La calidad de los datos no es solo una cuestión técnica, sino un imperativo estratégico que define el éxito de las decisiones que se tomen utilizando los datos de la contratación pública. Asegurar la calidad de la información es fundamental para construir un futuro basado en la transparencia, la eficiencia y el pleno aprovechamiento del vasto potencial de la inteligencia artificial.


