El intérprete de datos

Y, antes de seguir viendo otros pasos, comentemos esta útil herramienta: Tableau Prep Builder incluye una herramienta denominada intérprete de datos que nos permite -hasta cierto punto- automatizar la limpieza de datos en libros Excel, hojas de cálculo de Google y en ficheros CSV y PDF. En todas estas fuentes de datos hay frecuentemente filas sin datos o con títulos o textos que no nos interesa importar, notas, encabezados de filas o columnas apilados, etc., elementos que han sido probablemente añadidos pensando en mejorar el aspecto de la hoja de cálculo, no pensando en la lectura futura de estos datos por un programa de ordenador.

Este intérprete de datos va a detectar todos estos elementos, va a modificarlos o a eliminarlos y nos va a presentar el contenido de las hojas leídas tras este proceso de limpieza.

Por ejemplo, supongamos que estamos trabajando con la siguiente tabla de un libro Excel:

Tabla de datos a transformar

Comprobamos que incluye filas vacías, otras en las que hay textos que no son parte de la tabla de datos, una fila y una columna de totales que tampoco nos interesa y celdas que han sido combinadas ("2019") .

Si leemos este fichero desde Tableau Prep Builder y añadimos un paso de limpieza para poder visualizar los datos, vemos que se han importado todos esos elementos que no nos interesan y que nos impiden obtener los datos correctos:

Datos leídos

Si ahora activamos el intérprete de datos haciendo clic en la casilla de selección que tenemos en el panel de conexiones, el resultado cambia completamente:

Datos leídos tras ser transformados por el intérprete de datos

Comprobamos que se han eliminado todas las filas inútiles, que se ha añadido la etiqueta "2019" a los encabezados de columnas y que se ha eliminado la columna de totales. La fila de totales, por el contrario, no ha sido eliminada, pero la tabla resultante (en rojo) es casi la que queríamos obtener, y no cabe duda de que terminar la limpieza de esta tabla es mucho más sencillo que limpiar desde cero la tabla que había sido leída en un principio.