Por Leticia Pautasio
Ya podemos hablar de big data como todas las tecnologías capaces de analizar y procesar grandes volúmenes de información, de diversas fuentes, con diferentes estructuras y a gran velocidad.
Big data no es tal si no soluciona un problema específico de un cliente. De nada sirve tener acumulados grandes cantidades de información si no se puede hacer uso de ellas. Hay que separar la paja del trigo, saber qué dato es valioso y para ello exista una tecnología útil para resolver los problemas.
Big data es importante porque, además, es un concepto que engloba, se conecta y dialoga con todas las tendencias IT: cloud computing, movilidad, Internet de Todo (IoE, por sus siglas en inglés), ciberseguridad, analytics son algunas de las palabras claves por donde se mueve el mundo de la tecnología y en todas ellas hay espacio para big data.
Big data es sin duda una revolución. Pero es también la evolución lógica de las herramientas de business intelligence ante un mundo hiperconectado que genera cada vez más cantidad de información. Las empresas deberán aprovechar esta marea de información para lograr un diferencial competitivo y no quedarse detrás en la carrera.
Las redes sociales, los dispositivos móviles, las aplicaciones y todo el nuevo universo de dispositivos que se abre a través de Internet de Todo –que comprende las conexiones entre personas, procesos y máquinas– son nuevas fuentes de información que se deberán incorporar para tomar mejores decisiones.
Según información divulgada por IBM, cada día generamos 2,5 trillones de bytes de datos de una variedad casi infinita de fuentes.
El último informe de EMC sobre el universo digital, presentado a mediados de abril, reveló que en 2013 se generaron 4,4 trillones de gigabytes en todo el mundo. El estudio de EMC intenta clasificar y pronosticar la cantidad de datos producidos anualmente a escala mundial. Para poner en perspectiva, esta información comprendida en el universo digital representaría una pila de tabletas iPad Air de 128 Gb tan alta que cubriría dos tercios de la distancia hacia la Luna, que es de 253.704 kilómetros. El informe augura que este universo crecerá cerca de 40% año a año y alcanzará 44,4 trillones de gigabytes para 2020.
Es interesante destacar que actualmente 70% de la información del universo digital es generada por seres humanos. De este total, 85% es responsabilidad de organizaciones –por ejemplo, un correo electrónico laboral–.
Rodrigo Gazzaneo, EMC Executive Briefing Sr Manager en Río de Janeiro, consideró que recién estamos transitando la primera era de big data. Pero ya se está abriendo la oportunidad de entrar en la próxima era, donde la posibilidad de contar con sensores y diversos tipos de dispositivos conectados a la red modificarán definitivamente los modelos de negocio de las compañías gracias a la posibilidad de automatizar y agregar inteligencia. “Ya vemos los primeros ejemplos. En Wall Street la mayor cantidad de transacciones se realiza sin intervención humana”, apuntó el ejecutivo.
El incremento exponencial en la cantidad de datos que se mueven, trafican, almacenan y comparten dentro del universo digital no sería posible sin, primero, un aumento del número de dispositivos móviles conectados a Internet y, en segundo lugar, la Internet de las Cosas, ese mundo de miles y millones de objetos cotidianos equipados con la capacidad de grabar, enviar y recibir datos.
Según IDC, la cantidad de dispositivos capaces de conectarse a Internet ya superó los 200.000 millones, aunque solo 7% –unos 14.000 millones– está efectivamente conectado y comunicándose a través de la red de redes. La consultora pronostica que para 2020 la cantidad de dispositivos conectados aumente hasta 32.000 millones, que representarán 10% de los datos mundiales.
La mayoría de las empresas han tomado conciencia de la importancia de los datos provenientes de fuentes internas y externas, pero pocas han sabido cómo aprovechar realmente la información que les puede proporcionar esos datos.
De acuerdo con IBM, solo 12% de los datos que almacena una organización son efectivamente procesados y analizados. Para EMC, en tanto, solo 22% de los datos en el universo digital se consideraron útiles –es decir, datos que se pueden analizar–, pero menos de 5% de esos datos útiles fueron analizados. Para 2020, EMC estima que más de 35% de todos los datos podrán considerarse útiles, gracias al crecimiento de la información proporcionada por Internet de las Cosas.
Sin duda, el cambio ya está entre nosotros. Ahora resta que las empresas sepan aprovechar las nuevas tecnologías para maximizar el uso y análisis de la información almacenada.
Otro desafío por delante es la capa de seguridad de la información, uno de los puntos fundamentales ante la siempre latente amenaza de los ciberdelincuentes.
Daniel Yankelevich
Un cambio cultural
La historia nos muestra que diversas situaciones confluyeron para dar forma a lo que hoy denominamos big data. Por un lado, la variedad de información –audio, video, textos, imágenes, comentarios en redes sociales, información estadística, datos generados por sensores, etcétera– que se puede ser almacenada y procesada aumenta día a día.
Por otro lado, la reducción de los costos de almacenamiento y procesamiento gracias a una caída natural de los precios del hardware y el software, –sumada a la innovación e implementación de tecnologías que antes no existían– permite procesar cantidades muy grandes de información de manera más eficiente y efectiva. “Esto abre un mundo nuevo de aplicaciones que antes ni se consideraban y que agregan muchísimo valor al negocio”, resaltó Daniel Yankelevich, CEO de Pragma Consultores.
Una de las tendencias fuertes en materia de big data es la posibilidad de utilizar un modelo de cloud computing para ofrecer las herramientas de análisis de datos, infraestructura y hasta la capacidad de la red que provee la conectividad.
La alta escalabilidad y flexibilidad que ofrecen las plataformas en la nube permite a las compañías contar con servicios a la medida de sus necesidades y con el beneficio de pagar únicamente por el uso que hacen de esta tecnología. Cloud computing asociado a big data permite que tanto grandes compañías como pequeñas y medianas empresas puedan acceder a soluciones de procesamiento y almacenamiento de grandes volúmenes de datos, masificando la adopción de la tecnología. Los clientes pueden optar así por comprar procesamiento –por ejemplo, con máquinas virtuales– y almacenamiento a medida de sus necesidades y con la posibilidad siempre abierta de escalar en capacidad. Si bien es una solución que ya existe en el mercado, se espera que en los próximos años se vea fortalecida.
Pero no solo los cambio en el hardware y el software permite llevar adelante exitosamente un proyecto de big data. En el mercado, todos parecen coincidir en que el éxito no está en la cantidad de datos almacenados, sino en la posibilidad de centrarse y enfocar el trabajo hacia la solución de un problema de negocio.
Big data, además, requiere un cambio cultural fuerte dentro de la organización y la modalidad de trabajo de las áreas de IT y management. El tradicional “método científico”, es decir, partir de una hipótesis que luego se comprueba en el proceso de análisis, no tiene lugar en el mundo de big data. De hecho, lo que hace interesante a big data es precisamente que no se sigue un método científico. El proceso implica para las empresas surfear entre una marea de datos no estructurados, estructurados y semiestructurados para descubrir patrones de conducta de sus clientes, reconocer sentimientos hacia la marca y a partir de allí generar previsiones y modelizaciones con expectativas de comportamiento de un determinado mercado.
Los límites que tenían las anteriores soluciones de base de datos desaparecen, y los encargados del área de sistemas y IT están en condiciones de innovar y ofrecer nuevas aplicaciones. Sin embargo, la falta de restricciones también supone un problema. ¿Cuál es el siguiente paso? ¿Qué más podemos hacer? La clave está en pensar más allá de los límites y animarse a innovar.
Por este motivo, la primera barrera que deberá resolver una compañía que quiera implementar un proyecto de big data no será tecnológica, sino cultural. Adicionalmente, las nuevas de tecnologías de big data demandan personal con ciertas habilidades en programación, matemática, estadística y hasta management, todos perfiles muy difíciles de conseguir en el mercado laboral actual. El científico de datos –data scientist– debe ser una persona que tenga una base estadística, pero que también tenga conocimientos de tecnología y administración. Hoy en día, esos perfiles no se encuentran en un área tradicional de IT. Si bien desde la industria tecnológica se están haciendo esfuerzos para llevar a los clientes soluciones que no requieran de programadores o matemáticos para construir algoritmos complejos, lo cierto es que con la llegada de big data, también llegarán nuevos perfiles de responsables IT. La estructura organizacional deberá modificarse para darle lugar a nuevos cargos y perfiles que serán los encargados de llevar adelante toda la estrategia de big data.
Conocer al cliente
Big data no solo sacudió al mercado de proveedores de software de análisis de datos y business intelligence, sino que también trajo consigo innovaciones en el área de hardware y creó nuevos jugadores para el desarrollo de plataformas para el procesamiento o el almacenamiento de grandes volúmenes de información. Uno de los desarrollos más importantes es Hadoop, una solución de código abierto para el almacenamiento y procesamiento de grandes volúmenes de datos. La plataforma es la base para gran parte de las soluciones que hoy se comercializan en el mercado.
Este año empezamos a ver un mercado más consolidado, con grandes jugadores y propuestas más claras. También, vemos nuevas inversiones como el caso de Intel Corporation y Cloudera, que anunciaron recientemente una estrategia de colaboración de negocios y tecnologías, junto con una inversión de capital de Intel que lo convierte en el mayor accionista estratégico de la compañía. El objetivo detrás de la alianza es acelerar la adopción de la tecnología.
Sap también está trabajando en la innovación en big data, con la construcción de un centro de co-innovación en Porto Alegre, Brasil, en donde desarrolladores trabajan sobre la plataforma de procesamiento in memory Hana para montar aplicaciones.
Si bien big data tiene hoy en día múltiples aplicaciones –y se espera que las alianzas entre proveedores fomenten el desarrollo de nuevas alternativas hoy inimaginables–, la primera aproximación que realizan las compañías es a partir de la necesidad de tener un mayor conocimiento de los clientes actuales y potenciales. De esta manera, big data comienza como una solución para el área de Marketing, que requiere esta tecnología para contar con una evaluación efectiva de gustos, hábitos de consumo, actividades, sensaciones y otros comportamientos de sus clientes.
Las redes sociales son en este caso la fuente de información más importante. Allí los usuarios se quejan, reclaman, expresan sus sentimientos, recomiendan sitios que les han gustado, anuncian grandes momentos de su vida personal –casamiento, llegada de un hijo, etcétera– y muestran su gusto o rechazo por determinadas marcas y productos. Toda esa información puede ser utilizada por las empresas para llegar con sus productos a un determinado target, ofrecer productos y servicios a la medida de cada cliente y hasta pensar en posibles alianzas con otras compañías en base a los gustos que comparten sus usuarios. Además, las redes sociales son un buen termostato de cuál es la opinión que tienen las personas de una determinada marca, programa, y hasta de un político.
Sin embargo, toda esta ventana de oportunidades también tiene sus desafíos. La información que los usuarios comparten en redes sociales como Facebook es usualmente privada, por lo que las empresas deben encontrar nuevas maneras de contactar con sus usuarios. Una de las soluciones más difundidas es la creación de aplicaciones en las que para poder acceder, un usuario deba aceptar compartir con la compañía su información de perfil en Facebook.
Las aplicaciones son también una nueva fuente de información y un método eficaz para que las empresas logren tener un contacto directo y fomenten una retroalimentación por parte de sus consumidores.
Big data y ciudades digitales
Cuando hablamos de big data solemos relacionarlo con la necesidad que tienen las compañías de aprovechar la información disponible para tomar mejores decisiones, ser más eficientes, conocer a sus clientes y, por supuesto, ganar más dinero. Sin embargo, existe toda un área de aplicación que se abre desde las administraciones públicas y que tienen por objetivo generar Estados más eficientes y mejorar la calidad de vida de las personas.
Si bien todavía no se ha logrado un gran desarrollo en este sentido, muchos organismos públicos están analizando la información de fuentes externas para conocer mejor a sus contribuyentes, mejorar sus procesos y tomar mejores decisiones.
También big data se relaciona mucho con la necesidad de generar ciudades más eficientes, en donde se pueda prever cuál es el movimiento del tráfico, cuánta energía se va a consumir en un determinado momento, cuáles son los fenómenos meteorológicos con mayor porcentaje de ocurrencia, cuáles son las necesidades de los ciudadanos y hasta cómo es el rendimiento de los alumnos de las escuelas públicas.
Una mirada hacia adelante
Una de las tendencias que ya ha empezado a tomar forma entorno a big data es el análisis de la información en tiempo real. Si bien es una característica que puede no ser útil en todas las aplicaciones, hay ciertos momentos en que la posibilidad de contar con toda la información relevante procesada es indispensable para tomar mejores decisiones. Un ejemplo de uso de big data en tiempo real es la Fórmula 1. Cada auto de McLaren cuenta con 5.000 sensores que envían información en tiempo real en diferentes puntos distribuidos a lo largo de toda la pista. En boxes, los técnicos y mecánicos pueden visualizar la información de los diferentes indicadores y pueden determinar cómo afectaría al desempeño del auto, por ejemplo, un cambio de ruedas o una posible lluvia en la pista.
Todavía queda camino por recorrer, pero todas las flechas apuntan a que el próximo paso será mejorar la velocidad de procesamiento.
Para IBM, el futuro está en añadir más capacidades cognitivas a la tecnología, volviendo al proceso cada vez más inteligente. En la misma línea se encuentra EMC, que prevé un mundo con procesos industriales más automatizados.
Pero sin duda uno de los más grandes desafíos está en el área de visualización. La posibilidad de ver la información de manera simple y desde cualquier dispositivo es uno de los temas que aún queda desarrollar. IBM está abriendo camino en este sentido, y este año espera lanzar su solución de visualización para su tecnología de big data Watson, con la que espera lograr un diferencial en el mercado.
La evolución de big data, no obstante, estará determinada por las aplicaciones y el uso que las empresas le den a esta tecnología. El marketing y el conocimiento de los clientes es una pata fuerte, pero existen otras que se irán desarrollando a medida que la tecnología se masifique y evolucione. Lo más probable es que big data encuentre “nichos” de negocio específicos en donde pueda aportar valor, y allí permanezca y se desarrolle.
EMC
Hay inversiones, falta explotación
Hasta ahora, uno de los principales temas era que el concepto de big data era abstracto “¿Es almacenamiento, business intelligence, analytics, seguridad?”, se pregunta Alfredo Meneses, Big Data, Greenplum México & NOLA.
Alfredo Meneses
La percepción es que el mercado de big data ha ido madurando en la región. Sin embargo, consideró que el problema es realmente conocer qué desea el cliente. “Hay conceptos entrelazados, business intelligence, big data y analytics, tenemos información estructurada, por ejemplo, de sistemas transaccionales, información de la organización e información externa y no estructurada”, afirmó.
Meneses apuntó que en el último tiempo “los clientes llegan con mayor entendimiento, más preguntas y se van encontrando diferentes aplicaciones en distintas áreas de negocio”. Las aplicaciones que más desarrollo están experimentando son aquellas de marketing inteligente, optimización de inventarios y fidelización con clientes. “También estamos viendo algunos temas en educación, como ser el análisis de los estudiantes”, afirmó Meneses.
Este 2014 aparece con una inversión ya realizada por parte de las empresas y una necesidad de explotar mejor los datos. “Este año hay otra tendencia que es lo que llamamos tercera plataforma”.
Existen tres plataformas: la primera es todo lo vinculado a mainframe, y la segunda, todas las soluciones basadas en la Web y browsers. “La tercera plataforma son las aplicaciones. Aquí cambia todo el modelo y hay comunicación directa con el cliente final. Toda la información de las aplicaciones es un alimento para la parte analítica”, resaltó el ejecutivo.
Para Meneses, la toma de decisiones es actualmente “como manejar un automóvil viendo el retrovisor”. Sin embargo, con las herramientas analíticas se puede prever qué ocurrirá en el futuro.
La evolución de big data, afirma Meneses, llegará del lado de real time analytics, es decir el análisis de información en tiempo real. “Hay muchas situaciones que requieren que una persona tenga en el momento toda la información disponible para tomar decisiones”. Ejemplos de estas situaciones son la posibilidad de que un vendedor cuente con toda la información histórica de consumos de un cliente para ofrecerle productos y beneficios específicos o la provisión de recomendaciones según los patrones de uso de energía eléctrica, entre otros.
Microsoft
Big data crecerá más aún en la región
Mientras que en el mundo se espera un incremento de 36%, en la región se pronostica que será de 48%, explica Gastón Fourcade, director de Herramientas y Servidores.
Gastón Fourcade
El ejecutivo asegura que Microsoft cuenta con ventajas competitivas que otros jugadores del mercado no tienen: sus soluciones de big data y analytics están soportadas sobre tecnologías que el staff tecnológico de las empresas ya conocen y están acostumbradas a manejar. “La falta de conocimiento es un factor muy limitante para la adopción de big data”, destacó.
Fourcade resaltó que la utilización de herramientas que ya conocen los clientes es un factor determinante para eliminar las barreras de entrada. “Con Microsoft Office una pequeña empresa ya puede comenzar a hacer explotación de datos”.
Las barreras de entrada también se reducen gracias a la incorporación de cloud computing que permite a las empresas incorporar hardware y máquinas virtuales de manera flexible y adquiriéndolas como servicio. “Hoy se puede hacer análisis de datos con infraestructura como servicio, cuando antes se podía realizar solamente comprando hardware”, apuntó Fourcade.
“Con el correr del tiempo lo que evolucionan son las tres V –variedad, volumen y velocidad–, las empresas comienzan a explotar datos de afuera, que provienen de dispositivos móviles y la Web 2.0”, remarcó el ejecutivo. La Internet de las cosas es una tendencia que se complementa con big data y puede ayudar a generar información que permita a las empresas tomar mejores decisiones: “Vamos a poder pensar en proyectos de gran escala”, subrayó.
Dentro de Microsoft, big data se utiliza para analizar el uso de sus productos, conocer los patrones de navegación de los sitios web, y, en el caso de equipos como Microsoft X-Box, conocer patrones de juego para mejorar el envío de sugerencias a los clientes. “Es importante para determinar a qué información se le da valor y a cuál no por parte de los usuarios”. “Big Data está en un escenario fundacional. Estamos generando las capacidades que nos permitan crecer en un escenario más avanzado”, planteó Fourcade. Todavía queda mucho por hacer en este terreno y hay un potencial casi infinito para encontrar nuevos usos y aplicaciones de esta tecnología.
QlikView
Una visión holística
“El tema de integrar la información venimos encarándolo desde hace años. Somos la capa de visualización del warehouse y el business intelligence completo. Podemos integrar esos dos mundos”, afirma Guillermo Blauzwirn.
Guillermo Blauzwirn
Guillermo Blauzwirn, director de Data IQ, representante de QlikView en la Argentina, se enorgullece de contar con una tecnología capaz de dar solución al tema de big data.
“Nosotros podemos arreglarnos solos y podemos hacernos responsables de una solución integral”, afirmó. El ejecutivo destacó que en algunos casos sí tienen soluciones que se complementan con tecnologías de warehouse (almacenamiento) como Teradata, pero en general, su solución permite dar una respuesta integral a las necesidades de procesamiento de grandes volúmenes de información. Actualmente, QlikView realiza más de 1.000 millones de registros por día.
Blauzwirn planteó que hace siete años que la compañía viene trabajando en estos temas. “No es que quiera desmerecer el concepto de big data, pero en el caso nuestro es lo que siempre venimos haciendo. Obviamente que hay una actualización, pero es lo mismo con más o menos volumen de datos”.
El ejecutivo consideró que la clave del éxito de un proyecto de big data es conocer cuál es la problemática del cliente. ¿Cuál es el tema que hay que resolver? ¿Dónde se encuentra la fuente de información para resolver este problema? ¿Cómo hago que los datos hablen entre sí y estén asociados? Todas estas preguntas son cuestiones que se deben analizar a la hora de llevar adelante un proyecto de análisis de grandes volúmenes de información.
“Generalmente, solo 30% de los proyectos de business intelligence son exitosos, pero con nosotros, esa cifra crece hasta 98%”, afirmó.
En cuanto a la posibilidad de utilizar el big data para hacer análisis predictivo –con la incorporación de herramientas de modelización–, Blauzwirn no se muestra muy entusiasmado. “Es un esfuerzo de programación enorme y todavía no hemos visto grandes resultados”, destacó. Lo que ocurre, afirma, que es los usuarios pasan a encontrarse dentro de “una caja de cristal” y se mantienen alejados de la realidad.
Para el ejecutivo, es posible tomar buenas decisiones sin utilizar esta tecnología. “Al menos, 90% de los análisis se pueden hacer con QlikView”, aseguró.
Para Blauzwirn una de las fallas es que aún las empresas no analizan la información que tienen como corresponde y considera que solo cuando sepan “qué es lo que tienen” van a poder tomar decisiones adecuadamente.
IBM
Análisis de datos con capacidades cognitivas
“De acuerdo a Forrester Research, las empresas solo utilizan 12% de la información que tienen almacenada”, asegura Camilo Rojas, Information Management & Big Data Sales Manager para América Latina.
Camilo Rojas
“Desde hace al menos una década las compañías reciben información de canales nuevos. Pero hasta hace un año, lo único que se hacía era guardar la información. Poco se trabajaba sobre esa información”, explicó Camilo Rojas, Information Management & Big Data Sales Manager para América Latina Habla Hispana.
Con el correr del tiempo comenzaron a aparecer nuevos proyectos que utilizan la información no estructurada almacenada en los servidores empresariales.
Rojas planteó que este año, el crecimiento del mercado de big data será de entre 26 y 30%, lo que representa un nivel de crecimiento mucho mayor que el de otras tecnologías.
La tendencia viene de compañías que requieran utilizar la información para diseñar campañas de marketing o detectar “life events” –casamiento, hijos, etcétera– de sus clientes, para ofrecer nuevos productos y mejorar la capacidad comercial. “Estamos viendo que se empezó a considerar el uso de esta tecnología como un elemento diferenciador. Una empresa que desperdicia esa información está perdiendo poder de competencia”, remarcó el ejecutivo.
En la región se espera que el mercado de software para big data represente entre US$ 500 y 600 millones, mientras que si se tiene en cuenta el segmento combinado, la cifra superaría el billón.
IBM ofrece la plataforma Watson Foundations para big data. La estrategia de la compañía es añadir capacidades cognitivas al análisis de la información. Para este 2014, Rojas asegura que big data se moverá a través de tres áreas: revolución de cloud computing, capacidades cognitivas más fáciles de acceder y visualización de la información. La compañía, de hecho, tiene previsto lanzar este año Watson Explorer, una nueva capa de visualización con el que espera obtener un diferencial de mercado.
No obstante, según el ejecutivo, el mercado deberá sortear algunos obstáculos: nuevos perfiles de recursos humanos, cambios de paradigma en cuanto al análisis de la información, formas de justificar el proyecto de big data al interior de la organización y cómo orquestar una serie de habilidades necesarias para llevar adelante el proyecto son algunas de las cuestiones que aún quedan resolver.
Level 3
Big data, big traffic
“Siempre que se habla de big data se habla o bien del procesamiento o bien del almacenamiento, pero poco se dice sobre el transporte de esos datos”, destaca Alejandro Girardotti.
Alejandro Girardotti
Level 3 tiene su principal foco de negocio en ofrecer soluciones de conectividad a escala mayorista. Con la irrupción de big data su negocio se ha visto afectado. “Vemos en clientes de mercados no tradicionales, como es el mercado financiero, tener picos de demanda de transporte y alta capacidad. Antes, era solo una exigencia que veíamos en las empresas de telecomunicaciones”, resaltó Alejandro Girardotti, Regional Product Manager de Datos e Internet. Y es que los grandes volúmenes de datos demandan también redes más potentes y de mayor capacidad que permitan traficar la información. Los sectores que están impulsando la adopción de redes de alta velocidad son, además del financiero, educación, Gobierno y empresas tecnológicas, todos grandes consumidores de ancho de banda.
El incremento de tráfico en las redes obliga a generar nuevas formas de conexión como la extensión de la red de fibra óptica hasta el edificio del cliente y la conexión por Ethernet al backbone de la red. Pero también afecta la modalidad de venta de los servicios. “Con cloud podemos lograr mayor flexibilidad y adaptar el consumo de la red a la demanda. Podemos crear modalidades que permitan medir el consumo y pagar solo por aquello que realmente se consume”, afirmó el ejecutivo.
Big data demanda que el procesamiento dentro de la red sea óptimo, y que el contenido pueda ser entregado en diferentes tipos de pantallas. Para Girardotti, big data irá evolucionando a medida que aumenten las tecnologías que puedan ofrecer gran ancho de banda. “Vamos a seguir avanzando en servicios de consumo por uso y productos altamente escalables. Pero también vamos a ver en un futuro la adopción de tecnologías de redes definidas por software (SDN) que permitirán mayor grado de eficiencia en la administración de paquetes y una optimización del despliegue de redes”.
Entre las barreras para el desarrollo de big data, destaca la necesidad de contar con personal con alto conocimiento y know how para administrar los datos y el tiempo e inversión necesaria para entender qué información valiosa tiene un determinado dato –el desarrollo de software o algoritmo que le haga sacar valor a la información–.
Microestrategy
Evolución y convergencia de conceptos
Diego Keller es gerente regional y, como parte de una compañía tradicionalmente dedicada a business intelligence, asegura que big data es parte de una evolución de ese mercado.
Diego Keller
“Nosotros siempre nos enfocamos en grande volúmenes de datos. Lo que ocurrió con big data es que hubo que complementar esto con la variedad de datos disponibles”, aseguró.
Keller considera que el gran cambio que se ve con la llegada de big data es la variedad de información –estructurada y no estructurada– que se puede utilizar para generar análisis a gran velocidad y en tiempo real. “El mercado va a ir creciendo y se va a ir acoplando a las soluciones de business intelligence, que se van a ir modificando especialmente en cuanto la variedad de la información que se puede procesar”, afirmó.
“Con nuestra tecnología tenemos 80% del problema resuelto. Solo se necesita conectarnos a un appliance de big data –como puede ser Cloudera, Amazon, Teradata– para complementar la solución”, afirmó el ejecutivo.
Microestrategy trabaja con grandes compañías como Facebook y Netflix en proyectos de big data. Con Facebook realizan el procesamiento de más de 200 petabytes de información para conocer los gustos de los usuarios y ofrecer mejores alternativas a los canales de publicidad. En Netflix, analizan los patrones de consumo de películas para determinar cuál es el impacto de un determinado lanzamiento, cuánto tiempo se demoraron los usuarios en ver la película o en qué momento se detuvo la reproducción, entre otros.
Facebook, Netflix y las grandes compañías de Estados Unidos son las pioneras en adopción de las nuevas tecnologías. Sin embargo, en América latina, este año comenzaremos a ver avances en el terreno de grandes volúmenes de datos.
En la adopción de tecnología se habla de “etapas de las cinco e”:
• Evasión: las empresas evaden las nuevas tecnologías.
• Envisión: se empieza a tener en cuenta la tecnología, se analiza donde se puede encuadrar dentro de la estructura corporativa.
• Evaluación: se analiza su adopción.
• Ejecución: se comienzan a desarrollar los primeros proyectos.
• Expansión: se expande el uso de la tecnología.
“En América latina estamos transitando la etapa de encuadre y evaluación”, afirmó Keller, y destacó que la adopción de soluciones de big data tendrá un impulso gracias a las tecnologías de cloud computing, que permiten contar con infraestructura más elástica. “Muchas empresas van a poder aprovechar esta tecnología que permite analizar la variedad de datos, aunque no necesariamente estemos hablando de grandes volúmenes de información”.
Sas Argentina
Big data llegó para quedarse
El gerente de Preventa Sergio Uassouf afirma que el mercado está actualmente muy propicio para la adopción de soluciones de big data, por la implementación de soluciones en la nube.
Sergio Uassouf
Cloud computing elimina las barras de entrada que pueden significar los altos costos de hardware para el procesamiento de grandes volúmenes de información. “Uno puede empezar desde un proyecto muy pequeño y luego ir escalando”, resaltó. Al mismo tiempo, la tecnología logró reducir los tiempos de ejecución de los proyectos y el costo de los mismos. “2013 fue el año de la irrupción de big data. Hoy es el año en el que vamos a ver una penetración más sólida de estas tecnologías”.
No obstante, Uassouf alerta que “No hay que hacer hiperexpectativas, pero sí vemos un cambio en el tratamiento de estos volúmenes de información”.
El ejecutivo apuntó que en el mercado se ve un incremento de los pedidos de este tipo de soluciones, principalmente para cubrir estas dos necesidades: análisis de comportamiento de clientes, calidad de servicio y detección de usuarios que estén más propensos a recibir propuestas de nuevos servicios y ofertas. Pero big data no es solo una opción empresarial –con las industria de telecomunicaciones, financieras, seguros y retail a la cabeza–, también los Gobiernos están trabajando en tecnologías que le permitan, por ejemplo, ver cuáles son las quejas que reciben por los servicios que prestan y cómo se puede mejorar.
Uassouf es crítico del concepto de big data. “¿Qué es big data? Es una gran cantidad de computadoras haciendo procesamiento masivamente en paralelo. Big Data es muy malo como término técnico”. La compañía utiliza la plataforma libre de Hadoop –que permite un modo de almacenamiento de datos con alta disponibilidad y bajo costo, y un procesamiento masivo de datos–. “Hadoop es un conjunto de productos que satisfacen esta necesidad. Nuestro objetivo estratégico es correr todos nuestros productos sobre esta plataforma, aunque también utilizamos otras plataformas propietarias como EMC, Teradata, IBM o Oracle”.
El ejecutivo planteó que big data requiere de plataformas de búsquedas secuenciales iterativas sobre grandes volúmenes de información. “Estas plataformas se prestan mucho para modelos analíticos pero no así para cuestiones transaccionales”.
Indicó, además, que si bien hay un sinnúmero de tecnologías que se imponen por un período de tiempo y luego desaparecen, big data es una que, seguramente, encontrará un “nicho” muy fuerte en el mercado, en donde va a permanecer por un largo tiempo.
Aster Data – Teradata
Vencer la complejidad
Si bien big data es una gran oportunidad para expandir las fronteras de análisis, Alexis Zlocowski, director regional de la compañía, sostiene que su adopción es lenta por un tema cultural.
Alexis Zlocowski
Si bien la tecnología está disponible hace varios años, lo que aún hace falta es tener una comprensión de lo que se necesita.
Los pasos para llevar adelante un proyecto de big data son, en principio, empezar por un problema de negocio y trabajar con un grupo multidisciplinario. “Es muy importante sentarse con el cliente y ver qué es lo que se quiere analizar, es decir, partir de un problema de negocio específico”, enfatizó Zlocowski.
El ejecutivo indicó que 70% de las empresas tienen algún tema analítico ya resuelto. Pero lo que trae de novedad el data warehouse es la consolidación de información de diferentes áreas de negocio. “Hasta que no se pueda analizar la información, lo que se estará haciendo no es big data, es solo almacenamiento”, apuntó el ejecutivo.
Los proyectos de big data son complejos porque hay que tener una visión amplia. “¿Cómo sabemos cuál ese terabyte valioso dentro de todo el universo de petabyte almacenados?”, se preguntó Zlocowski. El problema en estos casos es que hay que cargar toda la información, hay que mirar todo y generar un proceso de Discovery. “Hay que alejarse de la transacción para tratar de entender comportamiento, en big data no se parte de una hipótesis, sino que se buscan patrones. Algo que yo no conocía. Por eso la importancia del descubrimiento”, subrayó.
Uno de los pasos más importantes para aprovechar la tecnología es formar un equipo de gente capacitada para hacer la explotación de la información. Los roles dentro de la organización empiezan a cambiar, y se requieren personas más capacitadas para hacer el análisis de los datos.
“Desde nuestra propuesta de valor tratamos de eliminar estos requerimientos, porque encontrar un perfil de científico de datos es muy difícil. Buscamos democratizar el acceso, porque cuantos más skills se piden, más cuello de botella se obtiene”, remarcó el ejecutivo.
Sap Argentina
Análisis en tiempo real
Según Martín Saludas, director comercial de la firma, lo que realmente modificó big data en las organizaciones es la posibilidad de analizar grandes volúmenes de datos en tiempos cada vez más cortos.
Martín Saludas
La tecnología para manejar grandes volúmenes de datos está disponible desde hace tiempo. Lo que se modificó es la forma en que nos acercamos a los problemas.
Debido a la tecnología tradicional, explicó Saludas, “existen enfoques restrictivos, que nos limitan. Con big data esas restricciones desaparecen. El análisis de grandes volúmenes de datos le otorga un nuevo poder al área de IT y le permite ofrecer un sinfín de posibilidades. Por este motivo, considera que uno de los puntos fundamentales para el desarrollo de big data es crear conciencia de que se necesita pensar más allá de los límites –para ello la empresa realiza cursos de Design Thinking para sus clientes– y que la innovación no es posible si no existe un compromiso de las compañías y un trabajo en laboratorios de innovación dentro de la estructura empresarial. “La tecnología por sí sola no trae innovación”, resaltó el ejecutivo.
El análisis en tiempo real es el elemento disruptor de la tecnología. Sap ofrece soluciones de procesamiento in memory Hana, con el objetivo de ayudar a las empresas a que den el salto a big data. La compañía trabaja con la industria financiera, petrolera y consumo masivo con la implementación de soluciones de big data para resolver diferentes problemas de negocio. En la industria financiera, específicamente ayuda a los bancos a mejorar la performance de sus sistemas de conciliaciones, reduciendo el tiempo de procesamiento de ocho horas a una hora.
Sap ofrece, además, sus aplicaciones e infraestructura bajo el sistema de cloud computing. Los modelos son dos: el uso de la nube privada o la oferta de cloud a través de partners. “Muchas empresas de sectores como el petróleo, construcción o consumo masivo eligen esta modalidad porque prefieren dejar de invertir en Capex y hacerlo en Opex”, resaltó. El uso de la nube permite darle mayor flexibilidad y disminuir los costos de los servicios.
Adicionalmente, Sap llevó recientemente todas sus aplicaciones a la plataforma Hana. “Con Hana se reducen los tiempos y se permite pensar en procesos de negocio con menos restricciones”, planteó Saludas.
Además, el hecho de que todas las aplicaciones de la compañía corran sobre Hana significa que todos los nuevos clientes están preparados para explotar big data.
La compañía, además, busca replicar en sus productos y soluciones el concepto de “hacer las cosas simples”. Por eso, sus soluciones se explotan con herramientas ya conocidas. “Los clientes quieren que un producto que compran les funcione, en lugar de un matemático para que les explote la tecnología”.
Para tener en cuenta
Una solución que no es para todos
Big data se presenta como una tecnología innovadora. Y, si bien lo es, los proveedores que la implementan prometen logros que a menudo no serán realidad. Sus bondades no son para todas las organizaciones. Antes de pensar en invertir, es indispensable verificar si se está aprovechando adecuadamente la información que ya se tiene.
Por Mario Lia
Internet cambió nuestras vidas de forma tal que ya ni nos damos cuenta de la magnitud del cambio. Está en nosotros y nosotros somos Internet. Consumidores, empresas, organizaciones, infraestructuras físicas, ciudades, estados, regiones, planeta… todos participan de Internet y generan datos que pueden o no convertirse en información.
Computadoras con procesadores de alta potencia y velocidad, bases de datos, almacenamientos ultra veloces y por supuesto diferentes clases de software han sido utilizados con éxito tanto en la gobernación de los procesos empresariales, como en la conversión de datos en información útil para la toma de decisiones mediante herramientas de business analytics.
Pero esta tecnología que podemos llamar “convencional” porque está prácticamente al alcance de cualquier empresa u organización que tenga el dinero para comprarla e implementarla, no resulta práctica para el manejo de monstruosas cantidades de datos. De esta manera, aparece el segmento especializado “big data” con sus soluciones especializadas en grandes volúmenes de datos. La implementación de estas soluciones puede requerir de la creación de entornos de TI (Tecnología de Información) específicos para el manejo de esos grandes volúmenes en tiempos que respondan a las necesidades del negocio.
¿Quiénes pueden aprovechar una solución big data?
Antes de pensar en invertir en big data, con sus “científicos de datos,” nuevos entornos de acumulación de datos y softwares analíticos, convendría verificar si se está aprovechando adecuadamente la información que ya se tiene. Si no existe el know-how para administrar los datos, analizarlos y llevarlos a los puntos clave de toma de decisiones para abrir nuevos espacios o corregir rumbos, es probable que la implantación de un nuevo modelo como el de big data no de ningún resultado.
En un artículo de Harvard Business Review escrito por Jeanne W. Ross, Cynthia M. Beath y Anne Quaadgras, las autoras citan un par de ejemplos en los que el uso de big data resultó, en el mejor de los casos, neutro. Uno de esos ejemplos es el de un banco que se basó en un análisis de big data para determinar los mejores lugares para instalar cajeros automáticos. Una vez concluido el trabajo en base a datos de millones de clientes, se dieron cuenta de que algunas consultoras ya habían hecho estudios similares para otros bancos, sin big data y con resultados similares.
Otro ejemplo es el de una cadena minorista que utilizó big data para, finalmente, llegar a determinar que incrementaría sus ganancias si extendía los tiempos en los que las mercaderías estaban en exposición antes y después de realizar descuentos. El problema fue que, si implementaban esa estrategia, tendrían que rediseñar completamente su cadena de suministro, algo que por varios motivos no podía ser efectuado.
Así podemos concluir en que, si no se cuenta en la organización con las prácticas de análisis de los datos ya disponibles y se los utiliza adecuadamente en la toma de decisiones, big data puede traer enormes costos con resultados nulos.
Compañías como Procter & Gamble o UPS, por ejemplo, tienen una larga tradición en el aprovechamiento de la información. Esas compañías usan información en forma inteligente desde hace muchísimos años y son las que obtienen mayor valor de big data gracias a sus mejores prácticas.
Procter & Gamble utiliza modelado y simulación por computadora para analizar múltiples fuentes de datos, comentarios en medios sociales y datos de puntos o canales de venta al consumidor. También analizan datos de RFID (Radio Frecuency ID) e información de los procesos de la compañía, que están altamente digitalizados. De esa manera, toman decisiones siempre basadas en hechos concretos.
En el caso de UPS, el fuerte de la utilización de big data está en los procesos operativos. UPS ha instalado en sus vehículos sensores que interactúan con datos de mapas y reportes en tiempo real de las recepciones de paquetes y de esa manera diseñan recorridos óptimos. Así, minimizan los esfuerzos de 100.000 vehículos y conductores en todo el mundo. Respecto a sustentabilidad, han logrado una reducción de emisión de 11.000 toneladas de carbono anuales, además de ahorrar U$S 30 millones en combustibles.
El aprovechamiento de la información
Volviendo al paradigma de Internet, podemos decir que también estamos en una era de economía digital. La aparición de compañías puramente web es un fenómeno establecido y la mayoría del resto son “multichannel” o sea que operan con venta vía Web, puntos de venta minorista y otros canales. Para esta clase de compañías, la diferencia que hace al éxito es contar con información que haga a las decisiones del día-a-día.
En algunas grandes organizaciones o empresas no es fácil conseguir toda la información en tiempo y forma. Los años de operaciones han creado silos aislados de datos y quienes se ocupan de reunir información de diversas áreas tienen que trabajar mucho y a veces lentamente, para conseguir lo que necesitan y así, crear otro silo aislado en el que masajean los datos. Big data, en este sentido, representa la posibilidad de democratizar el uso de información, facilitando así la creación de warehouses o reservorios de datos eficientes y capaces de ofrecer información clave para el negocio en forma actualizada.
Como dijimos, en negocios donde resulta clave conocer tendencias con una base de información lo más real y amplia posible, big data es de gran ayuda.
Una de las virtudes del análisis de big data es la de poder descubrir cosas que se “desconocía que se desconocían”. A diferencia del análisis inductivo, donde el investigador explora en búsqueda de algo determinado y por ende conocido, la exploración de tendencias en big data suele mostrar patrones de comportamientos con incidencia real en el desempeño del negocio. Y que hasta entonces no habían sido tenidos en cuenta.
Para las empresas con gran cantidad de procesos operativos, big data puede ofrecer frutos inmediatos o quick-wins. Hay mucha fruta colgando en las ramas bajas del árbol de los resultados. Por ejemplo, una compañía distribuidora de agua o de energía, puede detectar pérdidas o fallas meramente a través de picos de consumo no habituales en los usuarios. Algunos observadores llaman a este proceso de descubrimiento espontáneo “decisiones tomadas en base a evidencias.” Y big data, con su capacidad de explotar universos de datos de todo tipo, es claramente una potencial fuente de evidencias útiles a los negocios.
A big data lo que es de big data
Los proveedores de soluciones big data, en su entusiasmo por exaltar las bondades de la nueva práctica, suelen prometer algunas cosas que definitivamente no son de big data. Un ejemplo de esas promesas es el área de marketing, donde definitivamente se están violando algunos principios de esa actividad. Al menos en cuanto a propuesta.
Primero, tenemos que el marketing no es solamente algo cuantitativo. Las visitas, los clics, las compras realizadas, el nivel de gasto, los medios de pago utilizados y otros indicadores o “evidencias” explican tendencias pero no lo más importante: el origen del comportamiento. No pueden establecer los factores que movilizaron al consumidor, sus motivaciones, los elementos de percepción (guestálticos), los vínculos afectivos que se movilizan y mucho más.
Los proponentes de big data también intentan descalificar a la ciencia estadística. Tal como lo explica Bill Franks en su libro Taming the Big Data Tidal Wave. Franks contrapone el concepto de estadísticamente válido al de “importante para el negocio”. En su opinión y la de muchos proveedores de soluciones big data, lo importante es el entorno de datos del negocio y no tener una muestra de ellos. Esto es bastante difícil de digerir, ya que la estadística es una ciencia o disciplina que nace precisamente de las economías que surgen de no tener que computar todos los datos de un universo. La nueva propuesta de big data parece ser: como puedes tener todos los datos, para qué usar muestras. Pero si bien ahora es menos costoso que antes tener todos los datos, igual hay un costo. La pregunta sería ¿El diferencial de costo justifica tener toda la población de datos en lugar de una muestra estadística? Para contestar a esta pregunta, alguien debería armar un caso de negocio demostrando la respuesta. Muy difícil.
Manejo de la información
El uso debe ser legal y ético
Muchas empresas almacenan y usan información sobre sus clientes. Esa recolección de datos puede plantearles, sin embargo, problemas de tipo ético y legal porque se trata de un campo con tantas áreas grises como reglas firmes.
En un banco hay cámaras que vigilan los movimientos de la gente. ¿Para qué? Para advertir a los malintencionados que están siendo vigilados o para descubrir culpables. Si las imágenes se usan para eso, el uso es perfectamente legal. Pero si se usa esa misma información para montar una campaña de marketing, se podría estar incursionando en un terreno ilegal.
Se está volviendo un tema muy complicado decidir cuándo está bien y cuándo no el uso de la información almacenada. ¿Cómo se define consentimiento de la gente? Las herramientas de análisis son tan poderosas que ahora ya no hay datos anodinos y anónimos sino que la información conduce directamente a la identificación de los individuos.
Ante esta nueva realidad algunas organizaciones toman medidas para que la información verdaderamente delicada sobre una persona vaya separada de los detalles personales.
Pero esas precauciones no son ni muy seguras ni pueden representar una defensa ante la ley en el caso de que se produjera una pérdida de datos. La Comisión Europea corrigió hace poco su propuesta regulación de protección de datos para permitir a las empresas usar seudónimos.
A las organizaciones que defienden la privacidad en Internet les sigue preocupando que la minería y análisis de datos podrían destapar el anonimato al permitir a terceros combinar conjuntos de datos, robados o de dominio público, para identificar individuos. Si esos datos salen a la luz, las empresas perderían la justificación legal para tenerlos.
Este proceso funciona también en la otra dirección: si las empresas obtienen datos específicos con el consentimiento de los sujetos o con la promesa de anonimato, pueden verse en un tembladeral legal cuando comienzan a analizarlos o manipularlos.
Otro peligro surge con la aparición de nuevos tipos de datos, algunos con información muy privada. En Estados Unidos y Europa, legisladores y defensores de la privacidad están comenzando a preocuparse con la difusión de datos biométricos y especialmente cuando son usados por organizaciones privadas.
Código de prácticas
El deseo de controlar el uso de esa información ha llevado al Departamento de Comercio de Estados Unidos a redactar un código de prácticas con los usuarios de los datos. Aunque es voluntario, las empresas que firman aceptando el código y lo violan quedarán expuestas a acciones legales además de daño a su reputación.
Estados Unidos también se encuentra redactando leyes para controlar la recopilación y uso de datos biométricos. La validez del proceso dependerá de cómo se recopilan y luego cómo se usan los datos. Si se usan para seguridad no habrá problema, pero si la información se junta en forma pasiva (o sea que el sujeto no presta activamente su autorización) utilizarla luego para mejorar el servicio al cliente no va a considerarse correcto.
La ley también podría cuestionar el consentimiento si, por ejemplo, un empleado es obligado a que acepte la recopilación de sus datos biométricos bajo amenaza de no obtener el empleo. Para el público en general, la ley estipula que la opción de pedir ser excluido de las listas debe ser una opción muy fácil de ejercer.
Incluso datos que en apariencia son absolutamente corrientes podrían exponer a la empresa que los guarda a intrincados problemas legales. En el caso, por ejemplo de un estacionamiento que registra los números de las patentes de los automóviles para automatizar el acceso, esa utilización estaría justificada, pero no si se la usa para reforzar un programa de lealtad, por ejemplo. El marketing no justifica la utilización de datos que individualizan al cliente con nombre, apellido y dirección.
El uso de smartphones también plantea dificultades cuando los retailers usan la señal telefónica para detectar en qué lugar del negocio de encuentra el cliente, averiguar qué está comprando y modelar luego el patrón de sus compras. Mientras esta información sea anónima, podría ser legal, pero si usando las nuevas herramientas de big data las empresas ligan esa información con personas individuales –con nombre y apellido– entonces atentan contra la privacidad y podrían estar infringiendo la ley.
En consecuencia, las empresas deben tener muy en claro qué datos están recopilando y para qué.
Experto en datos
Una profesión con futuro
El crecimiento de big data ha disparado una demanda de profesionales especialistas en análisis de datos y nuevas tecnologías que supera en mucho la oferta actual. La revista Harvard Business Review identifica a los expertos en el tema, como las personas con la profesión más atractiva del siglo 21.
La proliferación de datos en la Web y el crecimiento generalizado de las posibilidades de almacenamiento de la información digital han redefinido la forma en que las empresas encaran la explotación de los datos para mejorar su posición competitiva y tomar decisiones.
La acumulación de información ha sido tal que pocos sectores pueden darse el lujo de ignorarla. Una encuesta realizada el año pasado por Sap, el grupo de software empresarial, descubrió que 92% de los respondentes vio crecer el volumen de datos en sus organizaciones durante los últimos 12 meses, mientras que tres cuartos de los encuestados creía que sus organizaciones necesitaban habilidades en la nueva ciencia de los datos.
Un científico en datos es alguien ducho en matemáticas, estadística, programación y analytics. También debe conocer análisis cuantitativo, contar con conocimientos y habilidades para comunicar lo que descubre, tanto al área de negocios como a TI. Con todo ese cúmulo de conocimientos, debería estar en condiciones de mejorar la orientación del negocio.
Esta combinación de conocimientos y experiencias no es fácil de encontrar, lo que ayuda a explicar que hoy la demanda de especialistas sea muy superior a la oferta. SThree, el grupo británico de reclutamiento de personal, corrobora el aumento de la demanda de científicos en datos, no solo en Gran Bretaña sino en el resto del mundo. La consecuencia lógica es que los actuales especialistas, advirtiendo esta implacable ley de la oferta y la demanda, prefieren ir tras los contratos, más rentables que los sueldos en relación de dependencia.
Ante esta situación algunas empresas de software están llenando el bache de habilidades ofreciendo capacitación, no solo en sus propios productos sino también en ciencia de datos. Cloudera, que ofrece software basado en el marco de procesamiento y almacenamiento de datos Hadoop, informa que hay mucha demanda para esos cursos.
Capacitación a gran escala
El grupo dice que ya ha capacitado a 20.000 personas en el aula, y a otras 100.000 en cursos online y asociaciones. Están dirigidos principalmente a personas que ya son profesionales en datos y quieren actualizarse en big data y aprender a crear herramientas científicas para la ciencia de los datos. También hay estudiantes que acaban de salir de la universidad y se anotan en cursos online para especializarse en big data.
BigDataUniversity.com es un portal educativo que ofrece cursos gratuitos sobre big data y bases de datos. El sitio es manejado por una comunidad que incluye a muchos integrantes de IBM que aportan sus conocimientos voluntariamente al desarrollo de los cursos y al mejoramiento del sitio. Lo más interesante de Big Data University es que la mayoría de los cursos incluyen laboratorios para meter mano trabajando en la nube. Uno de ellos es auspiciado por Amazon Web Services.
Para poder hacer frente a la demanda de servicios en los sectores finanzas, retail, tecnología y medios, KPMG está auspiciando la primera escuela de verano en ciencia de los Datos en Gran Bretaña: Data Science Summer School, que se propone reclutar 100 estudiantes de PhD en Europa y convertirlos en científicos de datos durante un curso intensivo de cinco semanas. El énfasis será puesto, aquí también, en las habilidades prácticas.
La compañía estadounidense QlikTech