Curando los datos registrados


Tras la recolección de los datos del primer estudio del proyecto POSTCOVID-AI, el equipo se ha embarcado en una tarea minuciosa a la par que necesaria: el curado de los datos. Los datos recolectados tienen una naturaleza heterogénea, es decir, diversa. Así podemos encontrar desde datos de sensores como pudieran ser registros numéricos continuos de luminosidad o medidas de ruido ambiental hasta valores categóricos de actividad física o respuestas textuales a algunas de las encuestas planteadas. Todos estos registros son susceptibles de reflejar valores fuera de los rangos permitidos, registros duplicados o incluso la ausencia o pérdida de algunos de ellos. Es por ello que resulta necesario realizar el curado o armonización de los mismos, de cara a generar un banco de datos limpio y funcional.

Si bien existen diversas técnicas de curado, la mayoría provenientes del denominado campo de la Ciencia de Datos, los principales métodos utilizados en nuestro proyecto son el etiquetado, la codificación, el borrado de campos no relevantes, la eliminación de valores fuera de rango y la imputación de valores perdidos. El etiquetado y la codificación permiten realizar la contextualización de algunos de los valores registrados de modo que el usuario de los datos pueda entender claramente a qué están referidos (por ejemplo, indicar la actividad física realizada por cada usuario en cada instante de tiempo registrado). El borrado de campos permite eliminar registros necesarios a nivel técnico pero que no aportan valor añadido a los datos (por ejemplo, el momento en el que el dato ha sido enviado desde la aplicación móvil al servidor). La eliminación de valores fuera de rango está referido al uso de técnicas estadísticas que detectan valores numéricos que escapan a la distribución normal de los mismos (por ejemplo, un valor de ruido ambiental absurdamente alto). Finalmente, la imputación hace uso también de técnicas estadísticas como la interpolación para rellenar algunos de los huecos generados por la falta del registro de datos.