27-diciembre-2019.

Hace poco al entrar a Facebook me encontré con una memoria de hace 11 años que, desvirtuando mi bien ganada fama de “Grinch”, evidencia que una vez puse luces de navidad en mi apartamento. También he visto otros contenidos generados por Facebook, como videos de aniversario de cuando agregué a alguien como contacto o notas sobre la publicación que obtuvo más “me gusta” en el año. Todo esto evidencia que Facebook no solo está almacenando mis fotos, publicaciones e interacciones, sino que también ha estado analizándolos, clasificándolos, sacando promedios, totales, estadísticas y conclusiones a partir de mis datos. Y hace otro tanto con sus más de 2.45 miles de millones de usuarios activos al mes.   

Para hacer ese tipo de análisis, lo que se hacía tradicionalmente era llevar los datos en una bodega de datos (data warehouse), pero la avalancha de nuevos datos que llega a las empresas como producto de la actividad de sus usuarios hace que este esquema se quede corto. Por eso ahora se está hablando de lago de datos (data lake), que esté en capacidad de manejar las tres “V” de Big DataVolumenVelocidad y Variedad, todas a escala enorme, de las que ya hablamos en otra columna. Aparte de la escala, ¿en qué se diferencian principalmente una bodega y un lago de datos?

Bodega de datos

Usando la analogía de que los datos son como el agua, entonces una bodega de datos sería como una bodega donde se almacena agua embotellada. El agua se transporta desde donde se produce (manantiales, pozos profundos, ríos) y si tiene impurezas, es filtrada y potabilizada en una planta antes de entrar a la bodega. Con los datos ocurre igual: se toman de las aplicaciones y sistemas que los producen, y dependiendo del caso, los datos se corrigen (por ejemplo, “bogota”, “Sta Fé de Bogotá” o “Bogotá DC” se unifican como “Bogotá”), se transforman (por ejemplo, “25/12/19” y “12/25/2019” se formatean como “2019-12-25”), o se eliminan (datos incompletos o con errores) y se llevan hasta la bodega. 

Una vez dentro, el agua se clasifica (por ejemplo, agua pura, con gas, con saborizantes) y empaca (bolsa, botella personal, litro, familiar, botellón) en anaqueles y secciones bien estructurados. En el caso de los datos, si el usuario será un gerente, se verán como un resumen con totales, pero para un analista o un auditor, los datos se verán como un listado con el máximo nivel de detalle. Y si el usuario es del área financiera, se enfocará en ingresos y costos, mientras que los del área de logística preferirán ver tiempos de entrega y tasas de cumplimiento. En ambos casos, cuando se lleva el producto hasta el usuario, está listo para consumir.

Lago de datos

A diferencia de una bodega bien estructurada, en un lago el agua no es transportada sino que se usa donde está. Además, a un lago el agua no entra en intervalos controlados sino que los ríos fluyen continuamente, trayendo impurezas como lodo o ramas, pero también peces y algas que se desarrollan en el lago. De manera similar, en un lago de datos (término acuñado por James Dixon) se guardan todos los datos sin filtrar y en formatos no convencionales, como imágenes, videos, chats, bitácoras de servidores o interacciones en redes sociales.

¿Cómo es posible guardar toda esa información? Antes se necesitaba transportar los datos desde su origen hasta donde serían almacenados, pero dado que la mayor parte de la información procede de Internet o se transporta a través de la red, ahora la mejor opción parece ser dejar todo “en la nube” en vez de “bajar” millones de Gigabytes de datos a la oficina para procesarlos. Es como si montáramos la planta de procesamiento en un barco que  navega por todo el lago. Cuando el barco llega a un punto interesante, el agua se puede extraer y tratar o usar directamente. Los pasajeros también pueden saltar del barco y bucear hasta el fondo del lago, analizar los sedimentos, u observar los cardúmenes de peces que se mueven juntos.

Así es como los buzos aprenden, por ejemplo, que ciertos peces y algas interactúan de tal forma que como consecuencia el agua en la que viven queda libre de impurezas, sin químicos adicionales ni intervención humana. El equivalente a los buzos en un lago de datos son los científicos de datos, que encuentran patrones y tendencias entre los datos (como peces y algas en el agua) con los que pueden entrenar modelos de aprendizaje automático (machine learning) para que los datos se corrijan y clasifiquen prácticamente sin intervención humana.

En conclusión, el tiempo que podemos tomarnos para filtrar y clasificar los datos es cada vez más corto, mientras que el volumen y rapidez con que cambian los datos es cada vez mayor. Tal vez quedó atrás la época en que podíamos esperar como el jefe Tui a que nos llegaran los datos, y es hora de emular a su hija Moana aventurándonos lejos de la costa.