Antes de la pandemia, la decisión de ver una película con mi novia era fácil. Los datos relevantes eran las seis películas de la cartelera de cine. De esas, sacaba las que le llamaban a ella la atención, comparaba con las que me gustaría ver a mí, y a la primera coincidencia, esa fue. ¿Y si no había coincidencia? Obviamente íbamos a ver la que ella quisiera y ya.

Ahora, uno va directamente a los catálogos de Netflix, Amazon Prime o Disney+. Allí el número de posibilidades es tan abrumador, que no es raro que pasemos más tiempo decidiendo cuál película ver, que viéndola. Lo mismo pasa con la televisión: en el siglo pasado solo podíamos ver lo que estuvieran dando en alguno de los dos canales. Punto. Ahora, en RTVCPlay podemos ver cuando queramos series retro colombianas como “Dejémonos de Vainas” o “Los Pecados de Inés de Hinojosa”. Y en YouTube hay tantas buenas opciones de entretenimiento y educación en español que ni siquiera hace falta ver lo que hay en inglés para sentirse abrumado. 

Para la muestra, un botón

Algo parecido nos pasa al tomar decisiones en el trabajo. Por ejemplo, si queremos validar un producto, pues le preguntamos a nuestros clientes potenciales. Si el mercado se limita a los vecinos de nuestra cuadra, es fácil preguntar en todas las casas, es decir hacer un censo.  ¿Pero qué pasa si el mercado es toda una ciudad? Ya no es práctico preguntar a toda la población. Lo mejor que podemos hacer es preguntarle a un grupo más pequeño, o sea una muestra. Allí es donde la Estadística nos dice cómo diseñar una muestra útil.

Volviendo a nuestro ejemplo de las películas, si con las opciones de la cartelera de cine podíamos hacer un censo, con la avalancha de contenido disponible en Internet toca hacer un muestreo. Pero por primera vez en la historia todo ese contenido es digital, ya está en línea. Las plataformas como YouTube, Netflix o Facebook, además saben desde qué ciudad vemos dichos contenidos, a qué hora, por cuántos segundos, si llegamos por recomendación de la misma plataforma o si llegamos Googleando o dando click en un enlace de WhatsApp. Si además somos usuarios registrados, también saben detalles como nuestra edad, sexo, idioma, historial de visualizaciones previas o a qué le hemos dado “me gusta”.

El auge de Big Data

Ahora multipliquemos esos datos por todas las transacciones que circulan a diario por Internet (YouTube solito aporta más de mil millones al día). Sumemos todo lo que aportan cada segundo aplicaciones como Waze o Google Maps cuando dejamos prendido el GPS del celular. Ahí vamos dimensionando a qué se refieren con el término Big Data del que hablamos en otra columna.

Pero entonces, como ya tenemos datos de una proporción tan grande de la población total, ya no debemos contentarnos con la ‘muestrica’ a la que le sacábamos todo el jugo posible a punta de Estadística. Algunos ingenieros incluso pronostican que “con suficientes datos, los números hablan por sí mismos” y que ya no necesitamos inventar modelos imperfectos que traten de explicarlos.

Sin embargo, que la muestra sea cada vez más grande no significa que equivalga a un censo. Por ejemplo, los datos de Twitter solo hablan de sus usuarios activos, que suelen ser jóvenes educados con un buen celular. ¿Entonces qué pasa con los jubilados que no usan Twitter? Pues no van a estar representados en la muestra. Y si queremos generalizar conclusiones a partir de lo que dicen los usuarios de Twitter, vamos a caer en dos problemas clásicos identificados por la Estadística: el error de muestreo y el sesgo de muestreo.

La teoría al rescate

El error de muestreo es la diferencia entre el promedio de los datos de la muestra con respecto al promedio de los datos de la población total. En otras palabras, cuanto mayor sea el tamaño de la muestra, menor será el error. Por su parte, el sesgo de muestreo ocurre cuando ciertos segmentos de la población tienen una mayor probabilidad de aparecer en la muestra que en el mundo real. Por ejemplo, si mis datos vienen de una aplicación disponible solamente en iPhone, en la muestra los usuarios de Android no van a estar representados a pesar de que en el mundo real están cerca de ser el 87% del mercado.

Por otro lado, la fuerza bruta de las máquinas moliendo datos es muy útil para encontrar patrones y correlaciones. Por ejemplo, que durante el invierno la gente se resfría con más frecuencia. Sin embargo, la correlación entre invierno y resfriado no significa que haya relación de causación. Solo un análisis de causalidad revelaría que en invierno la gente se resfría más porque se contagia al pasar más tiempo en espacios cerrados con gente resfriada, no a causa del “sereno”. Por eso seguimos necesitando la teoría para entender los fenómenos.

En conclusión, todavía es muy pronto para decir que solo con grandes volúmenes de datos ya no debamos preocuparnos por entender, o que no debamos tener en cuenta los sesgos que tienen los datos conseguidos de forma no controlada. Sin embargo, Big Data sí está cambiando la forma cómo obtenemos y procesamos los datos y que la Estadística debe adaptar sus herramientas para la cambiante realidad. Ojalá entender esto nos dé tranquilidad la próxima vez que pasemos media hora escogiendo qué ver en Netflix.