Data Wrangling: Un nuevo término para el sector del transporte. Por José Manuel Farré, director financiero de GantaBI

El Data Wrangling es el proceso de limpiar, unificar y organizar data sets previo al análisis y la realización de modelos descriptivos, prescriptivos, y predictivos. Para algunos, puede ser la parte más importante de cualquier proyecto de Big Data porque de esta limpieza depende que se puedan obtener resultados de calidad.

Los datos, en su forma natural, dan resultados inexactos básicamente porque es de esperarse que se generen diferencias al momento de registrar la información. Siempre van a existir errores tipográficos o gramaticales, distintas maneras de organizar un mismo valor (como cuando escribimos una misma fecha en números y luego mezclando números y letras, 30/06 vs. 30 de junio), e incluso registros en blanco.

Para llevar un registro casual de la gestión de una empresa, nada de esto es un problema, pero para hacer un análisis profesional de Big Data representan un bloqueo imposible de sortear si no hay un proceso previo de Data Wrangling para unificar toda la información. La manera más común de empezar esta tarea de limpieza es identificando los datos, estableciendo la estructura que han de seguir, limpiar cualquier registro que complique un análisis previo o comprometa la veracidad de la información, agregar información faltante que sea de importancia, validar la consistencia del conjunto de datos y finalmente empezar el análisis.

Si se quiere ir un poco más allá, también se puede hacer un informe para que todos en la empresa estén al tanto de cómo deben estar registrados los datos y en el futuro la etapa del Data Wrangling sea un poco más sencilla porque para cualquier empresa suele ser un proceso bastante largo, sobre todo la primera vez que se lleva a cabo. De hecho, de acuerdo a un estudio realizado por Forbes en el 2017, un científico del dato pasa, en promedio, alrededor del 80% de su tiempo haciendo Data Wrangling.

Y, ¿qué significa esto en el mundo del transporte? Como hemos visto en oportunidades anteriores los vehículos de hoy en día están conectados a toda clase de tecnología que constantemente genera datos. Datos que pueden tener información valiosa que, gracias al Big Data, podemos extraer mediante distintos análisis. El Big Data puede dar respuesta a una cantidad importante de problemas. Por ejemplo, con los datos históricos correctos no habría que adivinar cuándo una unidad necesitará entrar al taller, se podría hacer un análisis predictivo que, al estudiar el uso de vehículos iguales en circunstancias similares, nos dijera cuándo es más probable que
una unidad necesite revisión.

De igual manera, estudiando los datos que se van generando en una ruta podemos conocer su rentabilidad. La clave está en tener muy claro qué información se está buscando para luego poder saber cuáles son los datos que nos permitirán obtenerla. Pero para que eso suceda va a ser necesario que los datos sean adecuados, y aquí es donde el Data Wrangling será clave para cualquier empresa de transporte que quiera apostar por el Big Data.

Comparte en:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *