Datawarehouse
La necesidad de explorar y explotar los datos

En el mundo del marketing relacional o del uno por uno, las bases de datos se
han transformado en un recurso crítico para entender cada vez mejor el
comportamiento de compra de cada consumidor.
Frente a esta realidad, el data warehousing se transforma en una herramienta crítica
para aquellas empresas que hacen de los datos un elemento a explorar y explotar.
La tradicional base de datos tiene su propia revolució, la de transformarse
en un depósito de datos que distribuya información y promueva un
poderoso enlace entre las áreas de la empresa.

Por Ariel Pascar (*)

En los albores de este nuevo milenio, las empresas se encuentran en pleno cambio
de paradigma. La tecnología, que no es sino uno de los cuatro pilares
de toda organización (junto con los procesos, la estrategia y los recursos
humanos), no puede ser una excepción a este cambio.

En esta última década, los sistemas se han focalizado en lo transaccional,
generando una mayor eficiencia en los procesos y la posibilidad de un mayor
control a nivel operativo. La optimización de los flujos de trabajo a
través de la implementación de sistemas ERP (enterprise resource
planning), así como el rápido crecimiento del número de
transacciones por las posibilidades del comercio electrónico (ya sea
business to business o business to consumer), generan continuamente enormes
volúmenes de datos, internos y externos a la organización, cuyo
almacenamiento y análisis representa nuevos desafíos tecnológicos.

Por otro lado, existen nuevas premisas en la forma de hacer negocios, derivadas
de cambios en la conducta de los consumidores, la dinámica de los mercados
y la alta competitividad a nivel global. El marketing ya no puede orientarse
a los productos y menos a los mercados, y debe adaptarse a las necesidades de
cada cliente (one-to-one marketing). La creciente globalización implica
que el mercado ya no es el amigable entorno local, sino la complejidad del planeta
entero, con sus diferencias culturales y sociales.

Esta gran masa de datos, así como las nuevas reglas de negocios, implica
nuevos desafíos, pero a la vez importantes oportunidades. Para explorarlas,
las empresas han concentrado grandes recursos en un nuevo concepto tecnológico:
data warehousing.

Data warehousing es el proceso por el cual las empresas extraen sentido
y significado de sus datos a través del uso de un repositorio de datos,
o data warehouse.

Si bien el término data warehouse es usado frecuentemente para
designar cualquier sistema nuevo que sirve para almacenar información,
un data warehouse es un conjunto de datos integrados, no transaccionales, no
volátiles, orientados a un tema específico, variables en el tiempo
y que se utiliza, como objetivo final, para el apoyo al proceso de toma de decisiones.

En definitiva, el proceso de data warehousing debe orientarse a proveer la información
correcta, a la persona indicada, en el formato adecuado, y en el tiempo preciso.

Alrededor de este repositorio de datos se ubican las funciones que permiten
el procesamiento analítico de la información, convirtiéndola
en conocimiento accionable. Entre ellas están las posibilidades de generar
reportes ad hoc no estructurados, la visualización de los datos, el reconocimiento
de patrones, la sumarización de datos y su rotación, de acuerdo
con las variables de interés, el análisis de hipótesis,
etc.

¿Pero cuáles son los componentes de este proceso denominado data
warehousing
?

En primer lugar, la extracción de información de las diferentes
fuentes, que pueden ser los sistemas operacionales y otros sistemas internos
o externos a la organización.

Luego, la información es transformada, depurada, sumarizada en el nivel
de agregación requerido y cargada en el repositorio propiamente dicho,
de una forma tal que su análisis pueda realizarse con eficiencia. Para
algunas aplicaciones la información del repositorio es derivada a pequeños
almacenes de datos o data marts, a fin de agilizar su procesamiento y no afectar
la performance del repositorio en su conjunto.

Por último, la información es entregada al usuario, ya sea mediante
reportes o diferentes herramientas de acceso (herramientas de visualización,
sistemas de información ejecutiva, sistemas de soporte de decisión,
herramientas de minería de datos, cubos de análisis en línea,
etc.).

Un componente fundamental para poder manejar eficiente y consistentemente el
proceso de data warehousing, y que se requiere a lo largo de él, es el
manejo de los metadatos. El metadato es el dato acerca del dato, y es el que
permite comprender, desde el principio hasta el final del proceso, las características,
tanto técnicas como de negocio, de la información que fluye por
las venas del repositorio.

Los beneficios del uso de data warehousing no son exclusivos de ninguna industria
en particular, y su aplicación es ventajosa en cualquier área
de negocios donde sea necesario mejorar el proceso de toma de decisiones, acceder
a información clave, obtener valor agregado de la articulación
de los diferentes sistemas operativos, soportar la toma de decisiones en los
niveles tácticos y estratégicos, además del operativo,
detectar oportunidades para reducir costos o incrementar los ingresos, etc.

Entre las industrias que mayor esfuerzo invierten en esta área se encuentran
el sector financiero, el de telecomunicaciones y el de retail.

Si bien los estudios sobre las tasas de retorno de la inversión (ROI)
que genera la implementación de un proceso de data warehousing
son altísimas (exceden el 400%), un enfoque más adecuado a los
escenarios actuales de negocio es comprender que consituye una necesidad estratégica
para mantener a la empresa en un nivel competitivo.

Así como nadie mide ya el ROI de la instalación de un sistema
telefónico o una red de computación de área local (LAN),
porque es imposible funcionar como empresa sin estos elementos, existe una fuerte
tendencia a ver el data warehousing como una necesidad estratégica sin
la cual es imposible competir.

En una organización la información fluye de abajo hacia arriba,
partiendo de sus operaciones y llegando a quienes tienen la responsabilidad
de la toma de decisiones estratégicas. El análisis de esta información
en una implementación correcta del proceso de data warehousing no quedará
estanco en el nivel estratégico, sino que descenderá, ya refinado
y con valor agregado, para posibilitar la toma de decisiones tácticas
y operativas.

Las herramientas de data mining (minería de datos) permiten explotar
el conocimiento oculto en los grandes volúmenes de datos. El notable
incremento en la última década de la relación performance/costo
de las plataformas de hardware y software permiten el uso de técnicas
de inteligencia artificial aplicadas al campo de los negocios, a fin de detectar
tendencias, descubrir relaciones, identificar nuevos patrones de comportamiento
de nuestros clientes, segmentar el mercado sobre la base de nuevas dimensiones
o calcular el impacto de numerosas variables en diferentes estrategias y tácticas
de negocio.

En los altamente competitivos entornos actuales en los que debe moverse quien
toma las decisiones, la obtención de datos a nivel transaccional no alcanza.
Las empresas comprenden cada día más que es necesario manejarse
a niveles de análisis cada vez más altos. Lo que antes podía
decidirse con un dato crudo, hoy es imposible de realizar sin tener un real
conocimiento de la competencia, los consumidores, las tecnologías y el
escenario en que se actúa.

Surge entonces el concepto de data farming, o sea “cultivo de datos”.
En este se ve el dato crudo como la semilla de una cadena que, luego de un proceso
cuidadoso y en el que se pone mucho esfuerzo (de clasificación, análisis,
etc.), se desarrolla en información, esta información en conocimiento,
y este conocimiento, finalmente, en inteligencia.

Esta inteligencia, que como producto es conocimiento (muy ajustado a las reales
necesidades de los que lo requieren), pero que implica un proceso sistemático
y continuo de colección, clasificación, análisis y diseminación,
es imprescindible para la toma de decisiones tanto a nivel estratégico,
como táctico y operativo.

Por lo tanto, la implementación de un data warehouse implica decisiones
de tipo estratégico y competitivo. ¿Quiénes deben tomar
las decisiones en los diferentes niveles de la organización? ¿Quiénes
son los usuarios constantes de información y conocimiento? ¿En
qué forma deben recibir esta información y conocimiento? ¿Cuándo?
¿Cuáles son las herramientas más adecuadas para facilitar
su diseminación y análisis? ¿Los mecanismos de diseminación
deben ser push, pull o una mezcla? ¿Cuáles son las fuentes? Estas
son sólo algunas de las muchas preguntas que hacen a la definición
de una estrategia de data warehousing.

Otra dimensión importante es la estructura de almacenamiento. Aquí
también las preguntas son muchas. ¿Es conveniente almacenar la
información en un repositorio central? ¿Hay necesidad de luego
alimentar diferentes data marts temáticos, a fin de incrementar la eficiencia
de los procesos? ¿No es suficiente almacenar los datos solamente en estos
almacenes, y distribuir la información? ¿Residirán todos
en un mismo servidor? ¿ En un mismo sitio físico?, etc.

Como podemos ver, la definición de una estrategia adecuada de data warehousing
es un aspecto clave para el éxito de la implementación, y debe
invertirse el esfuerzo necesario en analizar todos sus aspectos.
Las tendencias que se han detectado en los últimos años obligan
a reflexionar sobre la interrelación existente entre el proceso de data
warehousing, el gerenciamiento del conocimiento de la organización y
la actividad orientada a desarrollar una inteligencia del negocio. En los últimos
meses es notoria una tendencia por la cual las empresas comprenden con mayor
claridad su necesidad de generar y compartir conocimiento, almacenarlo eficientemente
y generar capacidades y procesos de inteligencia de negocios, orientados a mejorar
la convergencia entre ese conocimiento y las necesidades estratégicas,
tácticas y operativas, permitiendo anticipar los diferentes escenarios
futuros del negocio.
Por otra parte, se está generando una fuerte conciencia de que la solución
a los grandes y crecientes volúmenes de datos que se requiere conservar
en un data warehouse no se encuentra en mayores capacidades de almacenamiento,
sino en refinadas técnicas de monitoreo de los entornos de data warehousing
y novedosos métodos de almacenamiento inteligente, con tecnologías
near-line (“casi en línea”). El futuro del data warehousing,
entonces, no parece pasar por más y más capacidad de almacenamiento,
sino por un eficiente gerenciamiento de la información.

Por último, es imposible dejar de mencionar otra tendencia significativa.
El crecimiento del comercio electrónico está basado en gran medida
en las posibilidades que otorga el data warehousing. Aun cuando no sea la cara
visible de una página web, los millones de transacciones y visitas se
almacenan en bases de datos, y no pueden ser analizadas sin utilizar un proceso
de data warehousing. El éxito de algunos sitios se basa, sin lugar a
dudas, en la explotación del conocimiento de los consumidores y su comportamiento,
obtenido a partir del uso de la información que se almacena sistemáticamente
en un data warehouse, oculto detrás de Internet.

Y ya existe una visión orientada a que algún día, cada
vez más cercano, todo el procesamiento se haga detrás de Internet,
lo que generará la posibilidad de acceder a infinitos proveedores de
servicios. Uno de ellos es el de data warehousing. Cada empresa o institución
académica, sin requerir de grandes inversiones de hardware y a través
de un browser cualquiera, podrá almacenar, recuperar o analizar su propio
conocimiento.

Mas allá de cuestiones técnicas y legales, la articulación
de todo este conocimiento podría llegar a generar un nuevo punto de inflexión
en el crecimiento del conocimiento humano. La utilización productiva
de esta masa de conocimiento será, quizás, el mayor desafïo
para los líderes del nuevo milenio.

(*) El autor obtuvo su Bachellor of Sciences en 1980, y su Master of Sciences
en 1982, ambos en la Universidad Ben Gurión del Negev, Israel.
Cuenta con una vasta experiencia internacional en temas de inteligencia artificial
aplicada en knowledge management y business intelligence. Se incorporó
a Andersen Consulting en 1998 como gerente, y se desempeña como líder
del grupo de data warehousing y data mining, en la oficina de Buenos Aires.
En el ámbito académico, trabajó como ingeniero de software
para la Universidad de Virginia, Estados Unidos, en el área de image
recognition, y fue ingeniero jefe del Laboratorio de Signal Processing de la
Facultad de Ingeniería Electrónica y Computación de la
Universidad Ben Gurión, Israel.
Publicó numerosos trabajos sobre temas de su especialidad en Israel,
Latinoamérica, Estados Unidos y Europa.

En el mundo del marketing relacional o del uno por uno, las bases de datos se
han transformado en un recurso crítico para entender cada vez mejor el
comportamiento de compra de cada consumidor.
Frente a esta realidad, el data warehousing se transforma en una herramienta crítica
para aquellas empresas que hacen de los datos un elemento a explorar y explotar.
La tradicional base de datos tiene su propia revolució, la de transformarse
en un depósito de datos que distribuya información y promueva un
poderoso enlace entre las áreas de la empresa.

Por Ariel Pascar (*)

En los albores de este nuevo milenio, las empresas se encuentran en pleno cambio
de paradigma. La tecnología, que no es sino uno de los cuatro pilares
de toda organización (junto con los procesos, la estrategia y los recursos
humanos), no puede ser una excepción a este cambio.

En esta última década, los sistemas se han focalizado en lo transaccional,
generando una mayor eficiencia en los procesos y la posibilidad de un mayor
control a nivel operativo. La optimización de los flujos de trabajo a
través de la implementación de sistemas ERP (enterprise resource
planning), así como el rápido crecimiento del número de
transacciones por las posibilidades del comercio electrónico (ya sea
business to business o business to consumer), generan continuamente enormes
volúmenes de datos, internos y externos a la organización, cuyo
almacenamiento y análisis representa nuevos desafíos tecnológicos.

Por otro lado, existen nuevas premisas en la forma de hacer negocios, derivadas
de cambios en la conducta de los consumidores, la dinámica de los mercados
y la alta competitividad a nivel global. El marketing ya no puede orientarse
a los productos y menos a los mercados, y debe adaptarse a las necesidades de
cada cliente (one-to-one marketing). La creciente globalización implica
que el mercado ya no es el amigable entorno local, sino la complejidad del planeta
entero, con sus diferencias culturales y sociales.

Esta gran masa de datos, así como las nuevas reglas de negocios, implica
nuevos desafíos, pero a la vez importantes oportunidades. Para explorarlas,
las empresas han concentrado grandes recursos en un nuevo concepto tecnológico:
data warehousing.

Data warehousing es el proceso por el cual las empresas extraen sentido
y significado de sus datos a través del uso de un repositorio de datos,
o data warehouse.

Si bien el término data warehouse es usado frecuentemente para
designar cualquier sistema nuevo que sirve para almacenar información,
un data warehouse es un conjunto de datos integrados, no transaccionales, no
volátiles, orientados a un tema específico, variables en el tiempo
y que se utiliza, como objetivo final, para el apoyo al proceso de toma de decisiones.

En definitiva, el proceso de data warehousing debe orientarse a proveer la información
correcta, a la persona indicada, en el formato adecuado, y en el tiempo preciso.

Alrededor de este repositorio de datos se ubican las funciones que permiten
el procesamiento analítico de la información, convirtiéndola
en conocimiento accionable. Entre ellas están las posibilidades de generar
reportes ad hoc no estructurados, la visualización de los datos, el reconocimiento
de patrones, la sumarización de datos y su rotación, de acuerdo
con las variables de interés, el análisis de hipótesis,
etc.

¿Pero cuáles son los componentes de este proceso denominado data
warehousing
?

En primer lugar, la extracción de información de las diferentes
fuentes, que pueden ser los sistemas operacionales y otros sistemas internos
o externos a la organización.

Luego, la información es transformada, depurada, sumarizada en el nivel
de agregación requerido y cargada en el repositorio propiamente dicho,
de una forma tal que su análisis pueda realizarse con eficiencia. Para
algunas aplicaciones la información del repositorio es derivada a pequeños
almacenes de datos o data marts, a fin de agilizar su procesamiento y no afectar
la performance del repositorio en su conjunto.

Por último, la información es entregada al usuario, ya sea mediante
reportes o diferentes herramientas de acceso (herramientas de visualización,
sistemas de información ejecutiva, sistemas de soporte de decisión,
herramientas de minería de datos, cubos de análisis en línea,
etc.).

Un componente fundamental para poder manejar eficiente y consistentemente el
proceso de data warehousing, y que se requiere a lo largo de él, es el
manejo de los metadatos. El metadato es el dato acerca del dato, y es el que
permite comprender, desde el principio hasta el final del proceso, las características,
tanto técnicas como de negocio, de la información que fluye por
las venas del repositorio.

Los beneficios del uso de data warehousing no son exclusivos de ninguna industria
en particular, y su aplicación es ventajosa en cualquier área
de negocios donde sea necesario mejorar el proceso de toma de decisiones, acceder
a información clave, obtener valor agregado de la articulación
de los diferentes sistemas operativos, soportar la toma de decisiones en los
niveles tácticos y estratégicos, además del operativo,
detectar oportunidades para reducir costos o incrementar los ingresos, etc.

Entre las industrias que mayor esfuerzo invierten en esta área se encuentran
el sector financiero, el de telecomunicaciones y el de retail.

Si bien los estudios sobre las tasas de retorno de la inversión (ROI)
que genera la implementación de un proceso de data warehousing
son altísimas (exceden el 400%), un enfoque más adecuado a los
escenarios actuales de negocio es comprender que consituye una necesidad estratégica
para mantener a la empresa en un nivel competitivo.

Así como nadie mide ya el ROI de la instalación de un sistema
telefónico o una red de computación de área local (LAN),
porque es imposible funcionar como empresa sin estos elementos, existe una fuerte
tendencia a ver el data warehousing como una necesidad estratégica sin
la cual es imposible competir.

En una organización la información fluye de abajo hacia arriba,
partiendo de sus operaciones y llegando a quienes tienen la responsabilidad
de la toma de decisiones estratégicas. El análisis de esta información
en una implementación correcta del proceso de data warehousing no quedará
estanco en el nivel estratégico, sino que descenderá, ya refinado
y con valor agregado, para posibilitar la toma de decisiones tácticas
y operativas.

Las herramientas de data mining (minería de datos) permiten explotar
el conocimiento oculto en los grandes volúmenes de datos. El notable
incremento en la última década de la relación performance/costo
de las plataformas de hardware y software permiten el uso de técnicas
de inteligencia artificial aplicadas al campo de los negocios, a fin de detectar
tendencias, descubrir relaciones, identificar nuevos patrones de comportamiento
de nuestros clientes, segmentar el mercado sobre la base de nuevas dimensiones
o calcular el impacto de numerosas variables en diferentes estrategias y tácticas
de negocio.

En los altamente competitivos entornos actuales en los que debe moverse quien
toma las decisiones, la obtención de datos a nivel transaccional no alcanza.
Las empresas comprenden cada día más que es necesario manejarse
a niveles de análisis cada vez más altos. Lo que antes podía
decidirse con un dato crudo, hoy es imposible de realizar sin tener un real
conocimiento de la competencia, los consumidores, las tecnologías y el
escenario en que se actúa.

Surge entonces el concepto de data farming, o sea “cultivo de datos”.
En este se ve el dato crudo como la semilla de una cadena que, luego de un proceso
cuidadoso y en el que se pone mucho esfuerzo (de clasificación, análisis,
etc.), se desarrolla en información, esta información en conocimiento,
y este conocimiento, finalmente, en inteligencia.

Esta inteligencia, que como producto es conocimiento (muy ajustado a las reales
necesidades de los que lo requieren), pero que implica un proceso sistemático
y continuo de colección, clasificación, análisis y diseminación,
es imprescindible para la toma de decisiones tanto a nivel estratégico,
como táctico y operativo.

Por lo tanto, la implementación de un data warehouse implica decisiones
de tipo estratégico y competitivo. ¿Quiénes deben tomar
las decisiones en los diferentes niveles de la organización? ¿Quiénes
son los usuarios constantes de información y conocimiento? ¿En
qué forma deben recibir esta información y conocimiento? ¿Cuándo?
¿Cuáles son las herramientas más adecuadas para facilitar
su diseminación y análisis? ¿Los mecanismos de diseminación
deben ser push, pull o una mezcla? ¿Cuáles son las fuentes? Estas
son sólo algunas de las muchas preguntas que hacen a la definición
de una estrategia de data warehousing.

Otra dimensión importante es la estructura de almacenamiento. Aquí
también las preguntas son muchas. ¿Es conveniente almacenar la
información en un repositorio central? ¿Hay necesidad de luego
alimentar diferentes data marts temáticos, a fin de incrementar la eficiencia
de los procesos? ¿No es suficiente almacenar los datos solamente en estos
almacenes, y distribuir la información? ¿Residirán todos
en un mismo servidor? ¿ En un mismo sitio físico?, etc.

Como podemos ver, la definición de una estrategia adecuada de data warehousing
es un aspecto clave para el éxito de la implementación, y debe
invertirse el esfuerzo necesario en analizar todos sus aspectos.
Las tendencias que se han detectado en los últimos años obligan
a reflexionar sobre la interrelación existente entre el proceso de data
warehousing, el gerenciamiento del conocimiento de la organización y
la actividad orientada a desarrollar una inteligencia del negocio. En los últimos
meses es notoria una tendencia por la cual las empresas comprenden con mayor
claridad su necesidad de generar y compartir conocimiento, almacenarlo eficientemente
y generar capacidades y procesos de inteligencia de negocios, orientados a mejorar
la convergencia entre ese conocimiento y las necesidades estratégicas,
tácticas y operativas, permitiendo anticipar los diferentes escenarios
futuros del negocio.
Por otra parte, se está generando una fuerte conciencia de que la solución
a los grandes y crecientes volúmenes de datos que se requiere conservar
en un data warehouse no se encuentra en mayores capacidades de almacenamiento,
sino en refinadas técnicas de monitoreo de los entornos de data warehousing
y novedosos métodos de almacenamiento inteligente, con tecnologías
near-line (“casi en línea”). El futuro del data warehousing,
entonces, no parece pasar por más y más capacidad de almacenamiento,
sino por un eficiente gerenciamiento de la información.

Por último, es imposible dejar de mencionar otra tendencia significativa.
El crecimiento del comercio electrónico está basado en gran medida
en las posibilidades que otorga el data warehousing. Aun cuando no sea la cara
visible de una página web, los millones de transacciones y visitas se
almacenan en bases de datos, y no pueden ser analizadas sin utilizar un proceso
de data warehousing. El éxito de algunos sitios se basa, sin lugar a
dudas, en la explotación del conocimiento de los consumidores y su comportamiento,
obtenido a partir del uso de la información que se almacena sistemáticamente
en un data warehouse, oculto detrás de Internet.

Y ya existe una visión orientada a que algún día, cada
vez más cercano, todo el procesamiento se haga detrás de Internet,
lo que generará la posibilidad de acceder a infinitos proveedores de
servicios. Uno de ellos es el de data warehousing. Cada empresa o institución
académica, sin requerir de grandes inversiones de hardware y a través
de un browser cualquiera, podrá almacenar, recuperar o analizar su propio
conocimiento.

Mas allá de cuestiones técnicas y legales, la articulación
de todo este conocimiento podría llegar a generar un nuevo punto de inflexión
en el crecimiento del conocimiento humano. La utilización productiva
de esta masa de conocimiento será, quizás, el mayor desafïo
para los líderes del nuevo milenio.

(*) El autor obtuvo su Bachellor of Sciences en 1980, y su Master of Sciences
en 1982, ambos en la Universidad Ben Gurión del Negev, Israel.
Cuenta con una vasta experiencia internacional en temas de inteligencia artificial
aplicada en knowledge management y business intelligence. Se incorporó
a Andersen Consulting en 1998 como gerente, y se desempeña como líder
del grupo de data warehousing y data mining, en la oficina de Buenos Aires.
En el ámbito académico, trabajó como ingeniero de software
para la Universidad de Virginia, Estados Unidos, en el área de image
recognition, y fue ingeniero jefe del Laboratorio de Signal Processing de la
Facultad de Ingeniería Electrónica y Computación de la
Universidad Ben Gurión, Israel.
Publicó numerosos trabajos sobre temas de su especialidad en Israel,
Latinoamérica, Estados Unidos y Europa.

Notas Relacionadas

Suscripción Digital

Suscríbase a Mercado y reciba todos los meses la mas completa información sobre Economía, Negocios, Tecnología, Managment y más.

Suscribirse Archivo Ver todos los planes

Newsletter


Reciba todas las novedades de la Revista Mercado en su email.

Reciba todas las novedades