AWS Glue DataBrew: Ahora podemos “limpiar” los datos sin conocimientos profundos de Ciencia de Datos
El 2020 nos trajo mucho retos complejos para la humanidad, pero por otro lado, también nos trajo soluciones y herramientas que nos van a permitir construir soluciones para afrontar los retos que se vienen en 2021 con este Mundo hiperconectado.
Amazon Web Services anunció un nuevo producto llamado Glue Databrew https://aws.amazon.com/glue/features/databrew/
El cual podemos resumir en una definición acorde: Una Herramienta de Preparación de Datos visual. Pero que es eso de preparar los Datos? Si revisamos una definición colgada en Wikipedia: https://en.wikipedia.org/wiki/Data_preparation
cito:
“La preparación de datos es el acto de manipular (o preprocesar) datos en bruto (que pueden provenir de fuentes de datos dispares) en una forma que pueda analizarse de forma rápida y precisa, por ejemplo, con fines comerciales.”
Pero la parte que más interés me genera es la siguiente…
cito:
“La preparación de datos es el primer paso en los proyectos de análisis de datos y puede incluir muchas tareas discretas como la carga de datos o la ingestión de datos , la fusión de datos , la limpieza de datos , el aumento de datos y la entrega de datos.”
Y es que la idea de preparar los Datos radica en limpiarlos, enriquecerlos y transformarlos para que sean de alta calidad, y nos permitan tomar decisiones basadas en datos. Un proyecto de análisis de datos por ejemplo, terminan en fracaso total cuando los datos no se les pasa por un proceso de higiene, es decir, tener los datos como realmente los necesitamos para responder a preguntas, predecir, recomendar, entre otros casos de uso prácticos. os datos sin procesar son confusos (por lo general, inutilizables al principio) y tendrá que arremangarse para llegar al lugar correcto. Por esta y otras razones, todo el esfuerzo que se realice para hacerlo lo suficientemente “limpio y ordenado” es tan (o más)importante que los algoritmos con los que se elija trabajar para los distintos análisis que se ejecuten sobre ellos.
El gran Danilo Poccia nos compartió el siguiente articulo https://aws.amazon.com/es/blogs/aws/announcing-aws-glue-databrew-a-visual-data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/ en donde nos introduce en la herramienta de una manera sencilla y magistral.
Personalmente tuve el placer de disfrutar unas charlas del grupo de usuarios de AWS de Perú https://www.meetup.com/awsperu/ https://pe.linkedin.com/company/awsperu , comandados por Carlos Cortéz, y allí pude conocer un poco más a detalle de las capacidades que tiene Glue Databrew, gracias a Luis Grados https://www.linkedin.com/in/luisgrados/ que nos mostró de forma práctica como integrar jobs de Glue Databrew para preparar datos usando Step Functions y enviando las ordenes a través de Skills de Alexa, y Mirina Gonzales https://www.linkedin.com/in/mirina-gonzales-rodriguez/ que nos hizo una deconstrucción más completa sobre el servicio.
Mi conclusión de lo que hasta ahora he visto es que AWS Glue Databrew será esa herramienta que los que no somos Científicos de Datos o afines, podamos utilizarla para que de una manera totalmente visual abordemos una iniciativa de Análisis de Datos ó Machine Learning comenzando desde la limpieza y normalización delos datos de una manera inimaginablemente rápida, y sin tener que escribir ni una línea de código (al menos en los casos de uso más sencillos).
Pero, ¿Cómo podemos comenzar? (No, no haré un how to de la herramienta :P)
- Lo primero, es hacerse las preguntas correctas, y hacer muchas preguntas, para definir las variables. Las decisiones comerciales eficientes y precisas solo se pueden tomar con datos limpios
- Definir cuales datos necesito para cruzar las preguntas, y encontrar las respuestas, es decir, reunir los datos.
- Después de reunir los datos que realmente necesitas, es importante descubrir cada conjunto de datos (o Dataset, en los términos técnicos). Este paso se resume en conocer bien los datos, su formato, el contenido, su estructura, etc., y luego, comprender qué se debe hacer antes de que los datos sean útiles en un caso particular.
- Limpiar y normalizar los datos…y es allí donde entra esta maravillosa herramienta, sólo debes abrir un nuevo proyecto en tu consola de AWS, y comenzar tu propio viaje.
La mejor manera de entender que debes hacer en la consola es revisando su documentación: https://docs.aws.amazon.com/es_es/databrew/latest/dg/what-is.html
:D