<p>Científicos de compañías como Google y Yahoo se reúnen esta semana en San Diego, California con los más altos académicos en la 17a conferencia de la <em>Association for Computing Machinery</em> (ACM) sobre Descubrimiento de Conocimiento y Data Mining. Presentarán las últimas técnicas para extraer conocimiento entre el diluvio de datos que se producen en la actualidad y para interpretar la información que viene en la variedad de formas más enorme que se ha visto jamás.</p>
<p>Hace veinte años, los únicos que se preocupaban por “Los grandes datos” – los únicos que tenían enormes conjuntos de datos y motivación para tratar de procesarlos – eran los miembros de la comunidad científica, Usama Fayyad, presidenta ejecutiva del grupo de interés especial en descubrimiento de conocimiento y data mining de ACM. Aun entonces, los resultados del data minino eran impresionantes. "Nos permitían resolver importantes problemas científicos .<br />
<br />
El explosivo crecimiento de Internet cambió todo. Las empresas se encontraron operando online y amasando enormes volúmenes de datos sobre consumidores y su comportamiento. Cuando se fue haciendo claro el poder del data mining, dice Fayyad, surgió la motivación de invertir en ese campo.</p>
<p>En estos días, los gigantes de Internet ganan dinero con la información que recolectan sobre usuarios y los conocimientos que extraen estudiándola. Los comerciantes pueden acceder a complejos patrones de comportamiento del comprador para aprovisionar más rentablemente sus negocios. Los investigadores industriales pueden predecir los patrones de tráfico automotor basándose en congestión, clima y momento del año, y ofrecer las mejores rutas. <br />
<br />
Sin embargo, la data actual no toma la forma conocida de la base de datos. "La información no nos llega en una clara forma tabulada," dice Chid Apte, presidente de la conferencia. "Nos llega en forma de red." A veces llega en un gráfico, como los que usan los medios sociales. Esos gráficos registran no sólo las complejas conexiones entre nodos sino también otros tipos de información en una diversidad de formatos, como videos, imágenes y comentarios que pone la gente en las redes sociales.</p>
<p>Los medios sociales pueden haber comenzado la tendencia hacia analizar esos gráficos, dice Apte, pero los datos en red vienen también de otras fuentes, por ejemplo, de los complejos sistemas de ingeniería, como la red de energía eléctrica, los sistemas de distribución de agua potable y sistema de control de tránsito. Las redes de sensores en esos sistemas producen conjuntos de datos en los que las conexiones entre lugares son tan importantes como las amistades entre individuos en una red social. Entender esas conexiones es la clave para optimizar sistemas y hacerlos sostenibles, dice Apte.</p>
<p>La gente viene trabajando con gráficos de datos desde hace cientos de años, pero los gráficos que se plotean ahora a partir de las redes sociales o las redes de sensores tienen una escala sin precedentes. "Estos son gráficos gigantescos," dice. "Estamos hablando de millones de nodos y de cientos de millones de vínculos."</p>
<p>Manejar gráficos de ese tamaño y aplicarles modernas herramientas analíticas, exige mejores algoritmos y otras innovaciones. Apte explica que una de las metas de la conferencia es difundir las técnicas de punta de los laboratorios de la investigación académica e industrial entre las empresas para que ellas puedan aplicarlas más rápidamente. Los organizadores también esperan entender los desafíos que afrontan las empresas y que deben ser atendidos.</p>
<p> </p>
<p> </p>
<p> </p>
Nuevas técnicas para entender la enorme masa de datos
En San Diego se reúnen académicos para presentar las nuevas técnicas de data mining que pueden ayudar a las empresas a extraer conocimiento de las inmensas bases de datos que genera diariamente Internet. La cantidad de datos exige nuevas técnicas.