Big data, bajado a tierra

    Por Mario Lia

    Mercado entrevistó a Hugo Delfino, licenciado en Estadísticas con especialización en Dirección Estratégica y Planeamiento Empresario; al licenciado en Ciencias de la Computación Eduardo Poggi, y al doctor Marcelo Soria, los tres profesores de la Maestría en Explotación de Datos y Descubrimiento del Conocimiento. Los entrevistados hablaron sobre diferentes aspectos de big data y este artículo trata de ser un aporte en el que el lector encuentre una orientación conceptual.
    Refiriéndose a big data como concepto, Poggi dice que “la industria de TI lo ha tomado como la nueva ola que le permite vender nuevo software, viejo software reciclado y mucho hardware. También lo han tomado ciertos actores sociales aumentando la borrosidad del término. Como suele suceder con estas cosas, el tiempo le irá dando su verdadera dimensión. Pero mientras tanto el tema está y sería necio ignorarlo. Es más, desde la academia deberíamos hacer un esfuerzo para tratar de encauzarlo.”

    Para Soria, “hay bastante confusión respecto al significado de big data. En realidad es la aplicación de métodos conocidos. Por supuesto que hay algunos elementos nuevos porque siempre se va innovando, pero el núcleo es un conjunto de métodos o bien de agrupamiento, o de clasificación, o de análisis que ya existían. La diferencia en la actualidad consiste en que se pueden aplicar a decenas, centenas o miles de millones de datos. A mí, el término que más me gusta utilizar es el de ciencia de datos. Es el más abarcador. Dentro de ciencia de datos uno puede incluir una pata estadística, una pata que tenga que ver con aprendizaje automático, inteligencia artificial o redes neuronales. La cantidad de datos con la que se está trabajando, podría decirse que pasa a un segundo plano.”

    La historia del procesamiento de datos se ha escrito con ciencia y sufridos procesos de prueba/error en los que han padecido alegrías y desencantos tanto proveedores como usuarios. Muchas buenas tecnologías y soluciones no lograron aterrizar en el mercado por falta de adopción o aptitud de parte del sector usuario. “Hay muchas organizaciones donde no tienen claro qué cosas se pueden hacer. Y tal vez sea esa una tarea pendiente de la enseñanza o aprendizaje desde el ambiente académico. Hay empresas en las que, dentro del modelo de negocio, no está claro qué se puede hacer con la explotación de los datos. No se tiene clara esa primera parte, que es más conceptual que determinar la herramienta a utilizar. Se trata de establecer cuáles son los datos claves para el negocio. Los estadísticos, históricamente solíamos padecer la carencia de datos. Hoy hay una sobreabundancia de datos y no sabemos qué hacer con ellos. Si bien la estadística siempre trata de resumir los datos y organizarlos para presentarlos aplicando analíticos, se nos presenta un nuevo problema: determinar si vamos a usar todos los datos o si utilizaremos técnicas de muestreo para sacar subconjuntos de datos y modelar sin entrar en big data”, sostiene Delfino.


    Eduardo Poggi

    Cuándo tiempo real es ventaja

    Poggi agrega que hoy “tenemos una enorme disponibilidad de datos en ‘tiempo real’ que antes no teníamos o solo en casos determinados. Por lo menos, hoy hay datos con un gran caudal (mucho volumen en poco tiempo) con incidencia social, mientras que antes estaba limitado a aspectos científicos, militares, etc. Con lo que este tema ha entrado en otros ámbitos.

    Por buscar una analogía, antes podíamos pensar los reservorios de datos como un gran lago; de a poco se iban sumando datos (por medio de la lluvia o afluentes) y algunos se iban, pero el núcleo se mantenía, siempre estaban ahí para que los estudiáramos. Hoy tendríamos que pensar que, además de todo esto, tenemos otros reservorios de datos que corren como un río de montaña y los datos que no usamos y dejamos pasar ya no los vamos a ver más (o, lo que es parecido, el costo de ir a buscarlos es prohibitivo). Aquí es donde empieza a jugar big data, que no reemplaza, se agrega y debería enriquecer lo que ya tenemos.

    Ejemplos hay muchos: los twits mientras un presidente habla por cadena nacional o un cantante famoso da un recital permiten percibir lo que opina la audiencia mientras el evento transcurre. Las cámaras ciudadanas captan ilícitos o accidentes mientras ocurren o cuando están por ocurrir. Sensores de todo tipo en los camiones de basura, patrulleros, taxis, etc. pueden estar monitoreando muchas más cosas que las que cualquier NOC puede llegar a procesar con personas mirando las pantallas. Y todavía no llegamos a todo tipo de artefactos conectados a Internet.”

    Pero el tiempo real no siempre es necesario o indicado. Delfino da el ejemplo de ciertos modelos donde el tiempo real no tiene un impacto de valor. “En general, en los modelos se trabaja con los patrones comunes y el tiempo real no es algo que se puede incorporar a todos los modelos de riesgo. Los hechos puntuales siempre ocurren y las empresas como los seguros, se manejan con grandes números. También hay que tener cuidado con la ansiedad de tener los comportamientos del consumidor en “tiempo real” y tomar decisiones apresuradas. Los consumidores no cambian de un día al otro sus preferencias básicas o su perfil. Hay cosas que no son “accionables”.

    “Aun en ciertas actividades muy promocionadas por los proveedores de soluciones big data, tales como la venta masiva de servicios, el tiempo real puede no ser impactante. Incluso cuando se trata de actividades veloces, como la venta de planes telefónicos o viajes, necesariamente se tienen que dar ciertos pasos y su control en tiempo real no va a cambiar mucho el resultado. El tiempo real se hace más necesario en empresas de logística, o retailers que trabajan con stocks mínimos. Hay empresas donde ahorrar tiempos y espacios de depósito es ahorrar mucho dinero, si bien esto ya es un tema más operativo”, comenta Soria.


    Hugo Delfino

    Facilidad de uso: ¿mayor riesgo?

    En su libro titulado Antifrágil, Nassim Nicholas Taleb se refiere a la sobreabundancia de datos y su manejo en la construcción de variables diciendo: “Si tenemos un conjunto de 200 o más variables aleatorias, sin relación alguna entre sí, entonces resultará casi imposible no hallar entre ellas cierta correlación elevada, digamos del 30%, pero será una correlación completamente engañosa”.
    Respecto a poner ciertas herramientas al alcance de una mayor cantidad de gente posiblemente no capacitada, Soria comenta que “a principios de los años 90 apareció software estadístico que facilitaba mucho el trabajo. Todos podían hacer estadísticas fácilmente. Pero esa facilidad de uso hizo que se cometieran muchos errores. Por suerte, los paquetes estadísticos de ahora son bastante difíciles de usar. El que mete mano es el que conoce. No puede haber “estadísticas para todos”. Con big data pasa algo parecido. Los proveedores ofrecen “acercarle big data a todos”. Posiblemente se facilite, por ejemplo, la interrogación de bases de datos enormes desde una tablet, pero si no tengo conocimientos me voy a equivocar. Y muchas veces es peor el error de equivocarse, que el de no haber hecho nada. Es importante que la gente que usa los modelos tenga experiencia. Que se dé cuenta cuándo los modelos muestran inestabilidades incipientes. Es importante la intuición o el “olfato” que da la experiencia.

    Todo depende del área de negocio. En algunos negocios se puede conducir con intuición. En otros hace falta conocimiento crítico de las herramientas, como en los modelos de riesgo crediticio, donde el consumidor no importa tanto como los elementos explicativos de la predicción. Si el modelo funciona bien, no ven la necesidad real de cambiarlo”.


    Marcelo Soria

    Carencia de profesionales y conocimiento

    Para Poggi, más allá de la finalidad, “la realidad es que sabemos poco de cómo tratar grandes volúmenes de datos complejos (textos, imágenes, videos, sonidos…), esencialmente sucios y en poco tiempo. Tenemos que aprender a manejar ruido, redundancia, errores no sistemáticos, falta de estructura, vocabularios y dominios ilimitados, reglas de negocio (privacidad) para poder sacar conclusiones razonables en poco tiempo. La mayoría de las metodologías y algoritmos que manejamos en estadística, inteligencia artificial e informática no soportan esto. Esta es precisamente la demanda de big data y considero que es genuina”.

    “Estas fuentes de datos no reemplazan a las tradicionales, se suman. Y seguramente el valor estará dado en la interrelación de ambas fuentes. Además, debemos aprender a sacar conclusiones mezclando nuestros datos puros, sanos y estructurados con otros que no lo son. Seguramente lo que salga de todo esto será aproximado, el desafío es entonces lograr herramientas que nos permitan entregar junto con nuestras hipótesis factores de confianza de forma similar a lo que hacemos con los métodos tradicionales”.

    Soria prefiere hablar de ciencia de datos. “Dentro de big data hay como una tendencia a olvidarse de las estadísticas. Y eso no lo comprendo porque no se pueden dejar de lado las técnicas tradicionales de la estadística. En informes y white papers vemos que se dice que con big data no hace falta hacer estadísticas, que es algo más fácil porque se trabaja con todos los datos. Y en general ese enfoque lleva al fracaso. El científico de datos, por ejemplo, debe ser un profesional cada vez mejor preparado precisamente en estadística”.

    “Pero también hay deficiencias en los estadísticos tradicionales. Deberían estar más asociados a departamentos de IT o ciencias de la computación, además de los de matemáticas. A menudo no tienen buenas nociones de estructuras de bases de datos como No-SQL, por ejemplo, y el manejo de las bases de datos les resulta complicado.

    Otra dificultad de los estadísticos está en transmitir los resultados de los análisis en forma efectiva, hablando sobre el negocio y utilizando gráficos y otros medios de presentación. Precisamente es aquí donde la del científico de datos se presenta como una formación que lo hace sólido en estadísticas y en computación. Puede no ser un buen programador, pero sabe hablar con un programador y establecer los requisitos de lo que necesita. No es un administrador de bases de datos, pero sabe diseñar consultas. Y es sólido en la comunicación, en la visualización. Y la visualización ha crecido como un campo casi independiente. Cuanto más complejos son los datos, no más grandes, el poder contar lo que se está viendo se hace cada vez más difícil. Están naciendo herramientas y personas especializadas en visualización”.

    Equipos interdisciplinarios

    “Big data no es solo pararse sobre millones de datos. Es lograr que se integre un equipo del que el científico de datos forme parte y perseguir objetivos del negocio, responder a interrogantes que pueden convertirse en resultados para el negocio. Y lo pueden hacer usando estadísticas, aprendizaje automático u otras técnicas”.

    Delfino, desde su enfoque como estadístico y familiarizado con la aplicación de su disciplina a problemas del negocio, no concuerda respecto a que los estadísticos no saben transmitir los resultados de manera efectiva.

    “Es una visión parcializada del mundo de los profesionales de la estadística. A los estadísticos suele planteársele: “tengo estos conjuntos de datos ¿Qué puedes extraer?” y en realidad debería ser lo inverso, pedir que se extraiga algo que se necesita descubrir. Los estadísticos formados hace algunos años, es cierto, tienen todavía deficiencias en el manejo de la tecnología. Pero las nuevas generaciones están superando eso. Un estadístico francés Crivisqui dijo “si tienes una base de datos y aplicas un método estadístico, si la computadora no falla, algunos resultados vas a obtener, sin importar si son razonables o no”. “Solo el conocimiento de las propiedades lógicas de los métodos estadísticos permite evitar su empleo ‘a ciegas’”.

    “Cuando los científicos de datos vienen de otras ciencias, el problema es que a veces aplican la técnica para cualquier cosa, con redundancias de variables, regresiones donde les incluyen variables sin importar qué tienen,” afirma Delfino. “La profesión de Data Cientist tiene un perfil que puede llevarlo a aplicar métodos estadísticos sin considerar las propiedades de los mismos y carece todavía de carácter interdisciplinario, donde actúen otras ramas de la ciencia, la psicología y la sociología, que desde algunos ángulos tienen un enfoque más de negocio. Estamos demasiado enfocados a cómo extraemos información de esas grandes masas de datos. En síntesis, tienen que ser equipos interdisciplinarios”.