Big data y la revolución que trae

    Estamos generando cantidades inmensas de datos. Un solo laboratorio científico puede hoy secuenciar más cadenas de ADN en un día de lo que secuenció en los últimos 10 años. El presidente de la Biblioteca del Congreso de Estados Unidos ha dicho que estamos generando más información cada dos días que toda la generación humana hasta 2003.
    Almacenar, procesar y entender esos billones de bits de datos antes resultaba imposible. Pero hoy es maravillosamente barato almacenar datos, mucho más fácil procesarlos y existe una biblioteca con algoritmos sofisticados para comprenderlos. Más todavía, las empresas, otras organizaciones e individuos comienzan a conocer una creciente cantidad de maneras novedosas de usarlos.
    Con esas cantidades impresionantes de datos, resulta más interesante encontrar el qué que el porqué de las cosas, lo que supone un drástico cambio de enfoque en la forma de ver el mundo: el valor de la información no reside en los datos concretos, sino en la forma de correlacionarlos para descubrir patrones que ni siquiera se habían imaginado. En este mar de información, merece la pena tolerar la imprecisión, la confusión, “aceptar el desorden natural del mundo”, si a cambio se obtiene “un sentido más completo de la realidad”. Y ese nuevo sentido se alcanza a través de las predicciones basadas en correlaciones, capaces de extraer auténtico oro de la “minería” de los datos.
    Así, la tienda Target puede deducir cuándo determinadas mujeres han quedado embarazadas, o pueden quedar en cualquier momento, a partir de sus patrones de compras. “Google Flu Trends” (tendencias de gripe) compite con los centros para el control y prevención de la enfermedad simplemente contabilizando los miles de millones de búsquedas de síntomas de gripe y temas relacionados con varios millones de algoritmos diferentes.
    En los laboratorios de HP los científicos pueden saber anticipadamente cuáles películas van a ser un éxito de taquilla analizando la cantidad de tweets que postea la gente. La lista de aplicaciones rentables de big data es larguísima y en permanente aumento.
    Viktor Mayer-Schönberger, profesor en la Universidad de Oxford y Kenneth Cukier, editor en The Economist, exploran las profundidades de este fenómeno en su libro Big Data: A Revolution That Will Transform How We Live, Work, and Think. Fundamentan la audacia del título en tres afirmaciones.

    Las tres afirmaciones

    Primero, big data es cualitativamente diferente del muestreo de datos y genera conocimientos que son solo posibles cuando el tamaño de la muestra es cercano a la totalidad de la población observada. El cuadro verdaderamente grande puede revelar detalles que eran invisibles con muestras menores.
    Segundo, big data permite pronósticos valiosos de una amplia cantidad de fenómenos a través del uso de la correlación, aunque se ignoren las causas. “La sociedad va a tener que dejar a un lado su obsesión por la causalidad y cambiarla por la simple correlación”, sugieren los autores. O sea, “no saber por qué sino solo qué”. Este hecho es uno de los temas clave en el libro, que “la sociedad tendrá que arrojar algo de su obsesión por la causalidad a cambio de correlaciones simples: sin saber por qué, pero solo lo que pase.
    Tercero, big data es algo desprolijo e impreciso: “No abandonamos totalmente la exactitud,” dicen, “solo abandonamos nuestra devoción por la exactitud.”
    La parte más preocupante del libro es el análisis que hacen los autores de los riesgos potenciales y las posibles maneras de abordarlas. Brindan allí una plataforma de lanzamiento para una conversación muy necesaria con respecto a lo que hay que hacer con grandes volúmenes de datos.
    Además de la privacidad Mayer-Schönberger y Cukier sostienen que en la era de las grandes cantidades de información, se hace cada vez más difícil o incluso imposible preocuparse a la vez por el riesgo.
    La posibilidad de que nuestra fascinación con los datos pueda convertirse en una adicción peligrosa es el tercer riesgo para los autores de Big Data. La posibilidad que existe para el abuso de los datos por parte de personas con malas intenciones y el mal uso que se le puede dar a esa información es tan grande como los propios datos.