#Columna: Quiénes trabajan en ciencias de datos

#Columna: Quiénes trabajan en ciencias de datos

Quiénes trabajan en ciencias de datos

Una de las frases que más me gustó de “Ratatouille (2007)” es la interpretación que hacía el crítico astronómico Anton Ego del lema del chef Gusteau “Todos pueden cocinar”. Para Ego, significa que “no todos pueden convertirse en un gran artista, pero un gran artista puede venir de cualquier parte”. Me parece que algo similar ocurre con las Ciencias de Datos (Data Science), donde se ha pretendido que todo aquel que trabaje en ese campo debe cumplir toda una serie de requisitos que cada vez es más difícil de cumplir en su totalidad. Por el contrario, yo considero que las ciencias de datos son un campo donde prosperan los equipos compuestos por integrantes lo suficientemente especializados para aportar profundidad, pero también de orígenes y habilidades lo suficientemente diversos como para tener puntos de encuentro donde se complementen entre ellos.

Las tres grandes áreas que componen las Ciencias de Datos según Drew Conway

El diagrama de Conway explica la visión tradicional de las Ciencias de Datos: tres grandes áreas que representan Habilidades tecnológicas (hacking skills), Habilidades matemáticas (Math and Statistics Knowledge) y Experticia temática (Substantive expertise). Las habilidades tecnológicas implican no solamente saber programar sino también ser recursivo para obtener datos de fuentes muy diferentes entre sí, como conversaciones en audio, imágenes, bases de datos, sistemas de información, chats o redes sociales. Las habilidades matemáticas requieren saber lo suficiente de Estadística para obtener conclusiones del análisis de los datos, además de poder entender y optimizar las matemáticas que están detrás de los algoritmos con los que se procesan los datos.

Por último, la experticia temática implica un conocimiento profundo y estructurado de un área de conocimiento, como medicina, educación, finanzas, agricultura, entre muchas otras, y suficiente experiencia como para reconocer si una conclusión tiene sentido para un problema específico o si un valor muy atípico en un dato se debe a un error en la captura del dato. Entonces para Drew Conway, alguien que trabaje en ciencias de datos debería reunir esas tres grandes áreas. Y si antes era difícil, ahora que cada una de esas áreas están creciendo (rápidamente) tanto en amplitud como en profundidad es todavía más complicado.

Las sub-áreas donde hay encuentros y salen nuevas disciplinas

Por eso han surgido nuevas sub-áreas o campos intermedios, que ya ni siquiera intentan cubrir las tres grandes áreas sino al menos dos de ellas. Por ejemplo, donde se encuentran las habilidades tecnológicas y las habilidades matemáticas florecen campos de la Inteligencia Artificial como Aprendizaje Automático (Machine Learning) o Procesamiento de Lenguaje Natural. Incluso hay quienes definen funcionalmente a un Científico de Datos como “aquel que es mejor en Estadística que cualquier Ingeniero de Software, y mejor en Ingeniería de Software que cualquier Estadístico”.

Por el lado de las habilidades matemáticas y la experticia temática, cuando se encuentran, se da lo que Conway llama la investigación tradicional, donde yo también incluiría a la Inteligencia de Negocios (Business Intelligence) y a la Analítica de Datos (Data Analytics). Por ejemplo, aquí cabe el campo de Learning Analytics que se ocupa de “la medición, recolección, análisis y reporte de datos sobre los estudiantes y sus contextos, con el propósito de entender y optimizar el aprendizaje y los entornos en los que ocurre”. Evidentemente, incluso en esta sub-área donde se encuentran habilidades matemáticas y experticia temática cada vez hay más participación de la parte tecnológica, por lo que no es fácil “encasillar” aquí a estas disciplinas, cada vez más relacionadas con las de otras áreas como Minería de Datos (Data Mining) o Aprendizaje Automático. Sobre la relación y las diferencias entre Inteligencia de Negocios y Aprendizaje automático ya hablamos en otra columna.

Finalmente, donde se encuentran las Habilidades Tecnológicas y la Experticia Temática hay una zona donde ha surgido la creciente disciplina de la Ingeniería de Datos. Drew Conway llama a esta sub-área la “zona de peligro”. Según él aquí están quienes saben cómo obtener y procesar datos y además saben de un tema específico, pero carecen de las bases estadísticas para darse cuenta de si una conclusión extraída de los datos fue simplemente una coincidencia y no realmente el descubrimiento de una relación de correlación o incluso de causalidad, entre dos fenómenos. Por ejemplo, un transeúnte desprevenido armado con un Excel podría concluir a partir de las noticias de políticos investigados por corrupción que la política es inevitablemente corrupta, pero alguien que sepa de Estadística podría probar que, en el mejor de los casos, hay correlación entre ser político y ser corrupto pero no podría probar una relación de causalidad porque no todos los corruptos son políticos ni todos los políticos son corruptos.

En conclusión, mucho ha cambiado desde que Conway planteó sus áreas de conocimiento que componen las ciencias de datos y en una futura columna hablaremos del papel crucial que juega actualmente la Comunicación. Por eso ya no deberíamos aspirar a convertirnos por un breve instante en el “unicornio” que está en la zona donde se encuentran las tres grandes áreas de Conway, sino aportar desde las muchas nuevas sub-áreas y disciplinas que están surgiendo y evolucionando permanentemente. De esta manera y parafraseando al chef Gusteau de Ratatouille, “Todos pueden trabajar en Ciencias de Datos”.

 

Escrita por:

Andrés Meza Escallón

@ApoloDuvalis

https://elclavo.com/columnas-en-el-clavo/columnistas/andres-meza/

https://elclavo.com/author/ameza/

Comentarios

comentarios

Leave a Reply