DATA WAREHOUSE
Desde que se
inició la era de la computadora, las organizaciones han usado los datos desde
sus sistemas operacionales para atender sus necesidades de información. Algunas
proporcionan acceso directo a la información contenida dentro de las
aplicaciones operacionales. Otras, han extraído los datos desde sus bases de
datos operacionales para combinarlos de varias formas no estructuradas, en su
intento por atender a los usuarios en sus necesidades de información.
Ambos métodos
han evolucionado a través del tiempo y ahora las organizaciones manejan una data
no limpia e inconsistente, sobre las cuales, en la mayoría de las veces, se
toman decisiones importantes.
La gestión
administrativa reconoce que una manera de elevar su eficiencia está en hacer el
mejor uso de los recursos de información que ya existen dentro de la
organización. Sin embargo, a pesar de que esto se viene intentando desde hace
muchos años, no se tiene todavía un uso efectivo de los mismos.
La razón
principal es la manera en que han evolucionado las computadoras, basadas en las
tecnologías de información y sistemas. La mayoría de las organizaciones hacen lo
posible por conseguir buena información, pero el logro de ese objetivo depende
fundamentalmente de su arquitectura actual, tanto de hardware como de software.
El data
warehouse, es actualmente, el centro de atención de las grandes instituciones,
porque provee un ambiente para que las organizaciones hagan un mejor uso de la
información que está siendo administrada por diversas aplicaciones
operacionales.
Un data
warehouse es una colección de datos en la cual se encuentra integrada la
información de la Institución y que se usa como soporte para el proceso de toma
de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales.
Reunir los
elementos de datos apropiados desde diversas fuentes de aplicación en un
ambiente integral centralizado, simplifica el problema de acceso a la
información y en consecuencia, acelera el proceso de análisis, consultas y el
menor tiempo de uso de la información.
Las
aplicaciones para soporte de decisiones basadas en un data warehousing, pueden
hacer más práctica y fácil la explotación de datos para una mayor eficacia del
negocio, que no se logra cuando se usan sólo los datos que provienen de las
aplicaciones operacionales (que ayudan en la operación de la empresa en sus
operaciones cotidianas), en los que la información se obtiene realizando
procesos independientes y muchas veces complejos.
Un data
warehouse se crea al extraer datos desde una o más bases de datos de
aplicaciones operacionales. La data extraída es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargadas en el data
warehouse. El proceso de transformar, crear el detalle de tiempo variante,
resumir y combinar los extractos de datos, ayudan a crear el ambiente para el
acceso a la información Institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con más responsabilidad.
La innovación
de la Tecnología de Información dentro de un ambiente data warehousing, puede
permitir a cualquier organización hacer un uso más óptimo de los datos, como un
ingrediente clave para un proceso de toma de decisiones más efectivo. Las
organizaciones tienen que aprovechar sus recursos de información para crear la
información de la operación del negocio, pero deben considerarse las estrategias
tecnológicas necesarias para la implementación de una arquitectura completa de
data warehouse.
ASPECTOS
TEÓRICOS
INTRODUCCIÓN
AL CONCEPTO DATA WAREHOUSING
Data
warehousing es el centro de la arquitectura para los sistemas de información en
la década de los '90. Soporta el procesamiento informático al proveer una
plataforma sólida, a partir de los datos históricos para hacer el análisis.
Facilita la integración de sistemas de aplicación no integrados. Organiza y
almacena los datos que se necesitan para el procesamiento analítico, informático
sobre una amplia perspectiva de tiempo.
Un Data
Warehouse o Depósito de Datos es una colección de datos orientado a temas,
integrado, no volátil, de tiempo variante, que se usa para el soporte del
proceso de toma de decisiones gerenciales.
Se puede
caracterizar un data warehouse haciendo un contraste de cómo los datos de un
negocio almacenados en un data warehouse, difieren de los datos operacionales
usados por las aplicaciones de producción.
Base de
Datos Operacional |
Data
Warehouse |
Datos
Operacionales |
Datos
del negocio para Información |
Orientado a la aplicación |
Orientado al sujeto |
Actual |
Actual
+ histórico |
Detallada |
Detallada + más resumida |
Cambia
continuamente |
Estable |
Diferentes
tipos de información
El ingreso de
datos en el data warehouse viene desde el ambiente operacional en casi todos los
casos. El data warehouse es siempre un almacén de datos transformados y
separados físicamente de la aplicación donde se encontraron los datos en el
ambiente operacional
Entre las principales se
tiene:
Orientado al tema
Integrado
De tiempo variante
No volátil
Una primera característica
del data warehouse es que la información se clasifica con base a los aspectos
que son de interés para la empresa. Siendo así, los datos tomados están en
contraste con los clásicos procesos orientados a las aplicaciones.
El ambiente operacional se
diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros,
tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una
aplicación de ingreso de órdenes puede acceder a los datos sobre clientes,
productos y cuentas. La base de datos combina estos elementos en una estructura
que acomoda las necesidades de la aplicación.
En el ambiente data
warehousing se organiza alrededor de sujetos tales como cliente, vendedor,
producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser
clientes, productos, proveedores y vendedores. Para una universidad pueden ser
estudiantes, clases y profesores. Para un hospital pueden ser pacientes,
personal médico, medicamentos, etc.
Integración
El aspecto más importante
del ambiente data warehousing es que la información encontrada al interior está
siempre integrada.
La integración de datos se
muestra de muchas maneras: en convenciones de nombres consistentes, en la medida
uniforme de variables, en la codificación de estructuras consistentes, en
atributos físicos de los datos consistentes, fuentes múltiples y otros. .
A través de los años, los
diseñadores de las diferentes aplicaciones han tomado sus propias decisiones
sobre cómo se debería construir una aplicación. Los estilos y diseños
personalizados se muestran de muchas maneras.
Se diferencian en la
codificación, en las estructuras claves, en sus características físicas, en las
convenciones de nombramiento y otros.
La capacidad colectiva de
muchos de los diseñadores de aplicaciones, para crear aplicaciones
inconsistentes, es fabulosa.
Codificación.
Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. Un
diseñador representa GENERO como una "M" y una "F", otros como un "1" y un "0",
otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino".
No importa mucho cómo el
GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como
cualquier otra representación. Lo importante es que sea de cualquier fuente de
donde venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.
Por lo tanto, cuando el
GENERO se carga en el data warehouse desde una aplicación, donde ha sido
representado en formato "M" y "F", los datos deben convertirse al formato del
data warehouse.
Medida de atributos.
Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en
una variedad de formas. Un diseñador almacena los datos de tuberías en
centímetros, otros en pulgadas, otros en millones de pies cúbicos por segundo y
otros en yardas.
Al dar medidas a los
atributos, la transformación traduce las diversas unidades de medida usadas en
las diferentes bases de datos para transformarlas en una medida estándar común.
Cualquiera que sea la
fuente, cuando la información de la tubería llegue al data warehouse necesitará
ser medida de la misma manera.
Convenciones de Nombramiento.-
El mismo elemento es
frecuentemente referido por nombres diferentes en las diversas aplicaciones. El
proceso de transformación asegura que se use preferentemente el nombre de
usuario.
Fuentes
Múltiples.-
El mismo elemento
puede derivarse desde fuentes múltiples. En este caso, el proceso de
transformación debe asegurar que la fuente apropiada sea usada, documentada y
movida al depósito.
Cualquiera que sea la forma
del diseño, el resultado es el mismo - la información necesita ser almacenada en
el data warehouse en un modelo globalmente aceptable y singular, aun cuando los
sistemas operacionales subyacentes almacenen los datos de manera diferente.
Cuando el analista de
sistema de soporte de decisiones observe el data warehouse, su enfoque deberá
estar en el uso de los datos que se encuentre en el depósito, antes que
preguntarse sobre la confiabilidad o consistencia de los datos.
Toda la información del
data warehouse es requerida en algún momento. Esta característica básica de los
datos en un depósito, es muy diferente de la información encontrada en el
ambiente operacional. En éstos, la información se requiere al momento de
acceder. En otras palabras, en el ambiente operacional, cuando usted acceda a
una unidad de información, usted espera que los valores requeridos se obtengan a
partir del momento de acceso.
Como la información en el
data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"),
los datos encontrados en el depósito se llaman de "tiempo variante".
Los datos históricos son de
poco uso en el procesamiento operacional. La información del depósito por el
contraste, debe incluir los datos históricos para usarse en la identificación y
evaluación de tendencias.
1°
La más simple es que
la información representa los datos sobre un horizonte largo de tiempo - desde
cinco a diez años. El horizonte de tiempo representado para el ambiente
operacional es mucho más corto - desde valores actuales hasta sesenta a noventa
días.
Las aplicaciones que tienen
un buen rendimiento y están disponibles para el procesamiento de transacciones,
deben llevar una cantidad mínima de datos si tienen cualquier grado de
flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte
de tiempo, debido al diseño de aplicaciones rígidas.
2°
La segunda manera en
la que se muestra el tiempo variante en el data warehouse está en la estructura
clave. Cada estructura clave en el data warehouse contiene, implícita o
explícitamente, un elemento de tiempo como día, semana, mes, etc.
El elemento de tiempo está
casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En
ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que un
archivo completo se duplica al final del mes, o al cuarto.
3°
La tercera manera en que aparece el tiempo variante es cuando la información del
data warehouse, una vez registrada correctamente, no puede ser actualizada. La
información del data warehouse es, para todos los propósitos prácticos, una
serie larga de "snapshots" (vistas instantáneas).
Por supuesto, si los
snapshots de los datos se han tomado incorrectamente, entonces pueden ser
cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son
alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal,
alterar los snapshots en el data warehouse. Los datos operacionales, siendo
requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la
necesidad.
La información es útil sólo
cuando es estable. Los datos operacionales cambian sobre una base momento a
momento. La perspectiva más grande, esencial la manipulación básica de los datos
que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de
operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualización de datos (en el sentido general de actualización) en el depósito,
como una parte normal de procesamiento.
Hay algunas consecuencias
muy importantes de esta diferencia básica, entre el procesamiento operacional y
del data warehouse. En el nivel de diseño, la necesidad de ser precavido para
actualizar las anomalías no es un factor en el data warehouse, ya que no se hace
la actualización de datos. Esto significa que en el nivel físico de diseño, se
pueden tomar libertades para optimizar el acceso a los datos, particularmente al
usar la normalización y de normalización física.
Otra consecuencia de la
simplicidad de la operación del data warehouse está en la tecnología subyacente,
utilizada para correr los datos en el depósito. Teniendo que soportar la
actualización de registro por registro en modo on-line (como es frecuente en el
caso del procesamiento operacional) requiere que la tecnología tenga un
fundamento muy complejo debajo de una fachada de simplicidad.
La tecnología permite
realizar backup y recuperación, transacciones e integridad de los datos y la
detección y solución al estancamiento que es más complejo. En el data warehouse
no es necesario el procesamiento.
La fuente de casi toda la
información del data warehouse es el ambiente operacional. A simple vista, se
puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde
luego, la primera impresión de muchas personas se centra en la gran redundancia
de datos, entre el ambiente operacional y el ambiente de data warehouse. Dicho
razonamiento es superficial y demuestra una carencia de entendimiento con
respecto a qué ocurre en el data warehouse. De hecho, hay una mínima redundancia
de datos entre ambos ambientes.
Se debe considerar lo
siguiente:
Los datos se filtran cuando
pasan desde el ambiente operacional al de depósito. Existe mucha data que nunca
sale del ambiente operacional. Sólo los datos que realmente se necesitan
ingresarán al ambiente de data warehouse.
El horizonte de tiempo de
los datos es muy diferente de un ambiente al otro. La información en el ambiente
operacional es más reciente con respecto a la del data warehouse. Desde la
perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los
ambientes operacional y de data warehouse.
El data warehouse contiene
un resumen de la información que no se encuentra en el ambiente operacional.
Los datos experimentan una
transformación fundamental cuando pasa al data warehouse. La mayor parte de los
datos se alteran significativamente al ser seleccionados y movidos al data
warehouse. Dicho de otra manera, la mayoría de los datos se alteran física y
radicalmente cuando se mueven al depósito. No es la misma data que reside en el
ambiente operacional desde el punto de vista de integración.
En vista de estos factores,
la redundancia de datos entre los dos ambientes es una ocurrencia rara, que
resulta en menos de 1%.
Los datos operacionales y
los datos del data warehouse son accesados por usuarios que usan los datos de
maneras diferentes.
Uso de
Base de Datos Operacionales |
Uso
de
Data
Warehouse |
Muchos usuarios
concurrentes |
Pocos usuarios
concurrentes |
Consultas
predefinidas y actualizables |
Consultas complejas,
frecuentemente
no anticipadas. |
Cantidades pequeñas
de datos detallados |
Cantidades grandes de
datos detallados |
Requerimientos de
respuesta inmediata |
Requerimientos de
respuesta no críticos |
Maneras diferentes de uso
de datos
Los usuarios de un data
warehouse necesitan acceder a los datos complejos, frecuentemente desde fuentes
múltiples y de formas no predecibles.
Los usuarios que accedan a
los datos operacionales, comúnmente efectúan tareas predefinidas que,
generalmente requieren acceso a una sola base de datos de una aplicación. Por el
contrario, los usuarios que accedan al data warehouse, efectúan tareas que
requieren acceso a un conjunto de datos desde fuentes múltiples y frecuentemente
no son predecibles. Lo único que se conoce (si es modelada correctamente) es el
conjunto inicial de datos que se han establecido en el depósito.
Por ejemplo, un
especialista en el cuidado de la salud podría necesitar acceder a los datos
actuales e históricos para analizar las tendencias de costos, usando un conjunto
de consultas predefinidas. Por el contrario, un representante de ventas podría
necesitar acceder a los datos de cliente y producto para evaluar la eficacia de
una campaña de marketing, creando consultas base o ad-hoc para encontrar
nuevamente necesidades definidas.
Sólo pocos
usuarios acceden a los datos concurrentemente
En contraste a la
producción de sistemas que pueden manejar cientos o miles de usuarios
concurrentes, al data warehouse acceda un limitado conjunto de usuarios en
cualquier tiempo determinado.
Los usuarios
generan un procesamiento no predecible complejo
Los usuarios del data
warehouse generan consultas complejas. A veces la respuesta a una consulta
conduce a la formulación de otras preguntas más detalladas, en un proceso
llamado drilling down. El data warehouse puede incluir niveles de resúmenes
múltiples, derivado de un conjunto principal, único, de datos detallados, para
soportar este tipo de uso.
En efecto, los usuarios
frecuentemente comienzan buscando en los datos resumidos y como identifican
áreas de interés, comienzan a acceder al conjunto de datos detallado. Los
conjuntos de datos resumidos representan el "Qué" de una situación y los
conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre
"Cómo" se ha derivado esa situación.
Las consultas
de los usuarios accedan a cantidades grandes de datos
Debido a la necesidad de
investigar tendencias y evaluar las relaciones entre muchas clases de datos, las
consultas al data warehouse permiten acceder a volúmenes muy grandes tanto de
data detallada como resumida. Debido a los requerimientos de datos históricos,
los data warehouses evolucionan para llegar a un tamaño más grande que sus
orígenes operacionales (de 10 a 100 veces más grande).
Las consultas
de los usuarios no tienen tiempos de respuesta críticos
Las transacciones
operacionales necesitan una respuesta inmediata porque un cliente puede estar
esperando una respuesta. En el data warehouse, por el contrario, tiene un
requerimiento de respuesta no-crítico porque el resultado frecuentemente se usa
en un proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta
no son críticos, los usuarios esperan una respuesta dentro del mismo día en que
es hecha la consulta.
Por lo general, los diferentes niveles de datos dentro del data warehouse
reciben diferentes usos. A más alto nivel de esquematización, se tiene mayor uso
de los datos.
La data más resumida,
permite capturar los datos en forma más rápida y eficiente. Si en una tarea se
encuentra que se hace mucho procesamiento a niveles de detalle del data
warehouse, entonces se consumirá muchos recursos de máquina. Es mejor hacer el
procesamiento a niveles más altos de esquematización como sea posible.
Para muchas tareas, el
analista de sistemas de soporte de decisiones usa la información a nivel de
detalle en un pre data warehouse. La seguridad de la información de detalle se
consigue de muchas maneras, aun cuando estén disponibles otros niveles de
esquematización. Una de las actividades del diseñador de datos es el de
desconectar al usuario del sistema de soporte de decisiones del uso constante de
datos a nivel de detalle más bajo.
El diseñador de datos tiene
dos predisposiciones:
Instalar un sistema
chargeback, donde el usuario final pague por los recursos consumidos
Señalar el mejor tiempo de
respuesta que puede obtenerse cuando se trabaja con la data a un nivel alto de
esquematización, a diferencia de un pobre tiempo de respuesta que resulta de
trabajar con los datos a un nivel bajo de detalle.
BENEFICIOS ASOCIADOS AL DATA WAREHOUSE
Un DW puede dar lugar a una serie de importantes beneficios para la
organización. En cualquier caso, su utilización permitirá que la información de
gestión sea: accesible, correcta, uniforme y actualizada.
Estas características
asociadas a la información contenida en un DW, junto con otra serie de aspectos
inherentes al mismo dan lugar a la obtención de un conjunto de ventajas, que
podríamos resumir del siguiente modo:
Menor coste
en la toma de decisiones:
Se suprime el despilfarro de tiempo que se podía producir al intentar ejecutar
consultas de datos largas y complejas con bases de datos que estaban diseñadas
específicamente para transacciones más cortas y sencillas.
Mayor
flexibilidad ante el entorno:
El DW convierte los datos operacionales en información relacionada y
estructurada, que genera el "conocimiento" necesario para la toma de decisiones.
Esto permite establecer una base única del modelo de información de la
organización, que puede dar lugar a una visión global de la información en base
a los conceptos de negocio que tratan los usuarios. Además, aporta una mejor
calidad y flexibilidad en el análisis del mercado, y del entorno en general.
Esta visión global puede
conllevar también la obtención de otras ventajas competitivas, al identificar
determinados costes que con los sistemas anteriores podían permanecer ocultos,
por ejemplo:
Mejor
servicio al cliente:
Todo lo que hemos dicho en el punto anterior implica una importante mejora en la
calidad de gestión, lo que también repercute en la relación con el cliente, que
es, como sabemos, uno de los pilares básicos en los que descansa cualquier
organización ajustada. De hecho, el que un DW implique una mayor flexibilidad
ante el entorno tiene una consecuencia directa en una mayor capacidad para
responder a las necesidades de los clientes.
Rediseño de
procesos:
Ofrecer a los usuarios una capacidad de análisis de la información de su negocio
que tiende a ser ilimitada y permite con frecuencia obtener una visión más
profunda y clara de los procesos de negocio propiamente dichos, lo que a su vez
permite obtener ideas renovadoras para la rediseño de los mismos.
Alineamiento
con los objetivos de rightsizing:
Se distribuye cada
vez más en toda la organización la responsabilidad en la toma de decisiones.
Esta capacidad de decisiones distribuidas es cada vez más necesaria para el
rightsizing de las empresas, y es uno de los aspectos en los que el DW puede
aportar una contribución esencial.
En conclusión, el concepto
de DW abarca mucho más que simplemente copiar datos operacionales a una base de
datos informacional distinta. El sistema deberá ofrecer una solución completa
para gestionar y controlar el flujo de información desde bases de datos
corporativas y fuentes externas a sistemas de soporte de decisiones de usuarios
finales.
Además, debe permitir a los usuarios conocer qué información existe en el
almacén de datos, y cómo poder acceder a ella y manipularla
COMPONENTES
DEL DATA WAREHOUSE
Fuentes de
datos:
Este
componente es el que normalmente está presente originariamente en las
organizaciones, y a partir del cual se realiza la captura de datos que se
contemplará en el DW. Estas fuentes de datos pueden ser sistemas operacionales
corporativos (representan el entorno del que se obtienen la mayor parte de
los datos significativos de la operativa diaria de la compañía), sistemas
operacionales departamentales y fuentes externas.
Extracción y
transformación:
Este es el componente responsable de que la información pueda moverse, con las
transformaciones que sean necesarias, desde las fuentes de datos que acabamos de
mencionar, al DW. En este sentido hay que decir que por DW puede entenderse
tanto el sistema completo como únicamente las bases de datos en las que se
almacenan tanto la información extraída de los sistemas anteriores como los
metadatos.
Servidor de
datos:
También podría denominarse componente de gestión. Los servicios que debe ofrecer
incluyen un servicio de mantenimiento de datos y un servicio de distribución
para exportar datos del DW a servidores de bases de datos descentralizadas y a
otros sistemas de soporte de decisiones de usuario. El componente de gestión
también ofrece servicios de seguridad (archivo, backup, recuperación) y
monitorización. Generalmente estos servicios utilizan los medios suministrados
por el software del sistema operativo y de bases de datos subyacente. El
componente de
SGBD
(Sistema de Gestión de Bases de Datos) consiste en el software de base de
datos que se utilice para mantener y extraer datos. Hay dos enfoques diferentes
para el almacenamiento de la información: las bases de datos relacionales y las
multidimensionales. Así, tendremos
gestores de
bases de datos relacionales
(SGBDR) o
gestores de
bases de datos multidimensionales
(SGBDM). A continuación se discuten las ventajas e inconvenientes de
ambas tecnologías de bases de datos.
Ventajas
-
Proceso de consultas muy
rápido en preguntas predeterminadas, aprovechando las dimensiones definidas en
la BD (tiempo, geográficas, etc.).
-
Alta oferta de productos.
-
Independencia de
plataforma.
-
Permite todo tipo de
consultas no predeterminadas.
-
Alta escalabilidad.
-
Altas prestaciones en los
productos punteros.
Inconvenientes
-
El tratamiento de las
consultas no previstas (fuera de sus dimensiones) es muy lento.
-
Aumentar el número de
dimensiones supone "explosionar" el tamaño de la base de datos.
-
Falta de estándares.
-
Proceso lento en
consultas complejas, en bases de datos muy grandes, si no se cuenta con
plataforma paralela y capacidad de consultas paralelizadas.
Herramientas
de acceso
Sin las
herramientas adecuadas de acceso y análisis el DW se puede convertir en una
amalgama de datos sin ninguna utilidad. Es necesario poseer técnicas que
capturen los datos importantes de manera rápida y puedan ser analizados desde
diferentes puntos de vista. También deben transformar los datos capturados en
información útil para el negocio. Actualmente a este tipo de herramientas se las
conocen como
"business
intelligence tool"
(BIT) y están situadas conceptualmente sobre el DW.
Cada usuario
final debe seleccionar que herramienta se ajusta mejor a sus necesidades y a su
DW. Entre ellas podemos citar las Consultas
SQL
(Structured Query Language), las Herramientas
MDA
(Multidimensional Analysis) y
OLAP
(On-Line Analytical Processing), las Herramientas
ROLAP
(Relational On Line Analytical Processing) y las herramientas de
DATA MINIG.
HERRAMIENTAS
OLAP
Las herramientas OLAP
ofrecen un mayor poderío para revisar, graficar y visualizar información
multidimensional, en características temporales, espaciales o propias. Lenguajes
restringidos y estructurados como SQL no son suficientes para el carácter
explorador del OLAP. La consulta enunciada con SQL es motivada por una hipótesis
muy concreta. Las aplicaciones y los reportes generados de una base de datos en
línea, asumen que es la información necesaria para la administración cotidiana
de la actividad de negocio y que sólo de manera esporádica se requerirá de otra
información.
El análisis de datos
almacenados en un DW tiene un carácter altamente exploratorio. El usuario
está en busca de nueva información, de nuevos patrones que le sugieran
relaciones entre diferentes aspectos conmensurables de su actividad cotidiana.
Si el usuario supiese esas asociaciones, no necesitaría el análisis de los
datos. Las herramientas actuales del OLAP, requieren todavía de una alta
participación de un usuario humano, pues son interactivas y requieren la guía
del experto. Sin embargo, se espera que en el futuro la caza de patrones sea
mucho más automatizada, simplemente porque los volúmenes de información por
analizar crecen mucho más que los recursos humanos para analizarlos.
A pesar de que el
Descubrimiento de Conocimiento tiene sus inicios en el Aprendizaje Automático o
la Estadística, hay ciertas componentes que lo hacen muy diferente. En
particular, el objetivo fundamental es encontrar conocimiento útil, válido,
relevante y nuevo sobre un fenómeno o actividad mediante algoritmos eficientes,
dadas las crecientes órdenes de magnitud en los datos. Al mismo tiempo hay un
profundo interés por presentar los resultados de manera visual o al menos de
manera que su interpretación sea muy clara. Otro aspecto es que la interacción
humano-máquina deberá ser flexible, dinámica y colaborativa. El resultado de la
exploración deberá ser interesante y su calidad no debe ser afectada por mayores
volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de
descubrimiento de información deben ser altamente robustos.
No cabe duda de que el
valor táctico o estratégico de los grandes almacenes de datos está en proporción
directa con la capacidad de analizarlos. Dada la gran gama de hipótesis
plausibles que se ajustan a los datos, el problema computacional representa un
reto hasta ahora poco enfrentado. Sin embargo, estas nuevas condiciones abren un
nuevo mundo de oportunidades a la investigación y al desarrollo de nueva
tecnología.
Para ilustrar cómo un data
warehouse puede ayudar a una organización a mejorar sus operaciones, se muestra
un ejemplo de lo que es el desarrollo de actividades sin tener un data
warehouse.
Ejemplo:
Preparación de un reporte
complejo
Considere un problema
bastante típico en una compañía de fabricación grande en el que se pide una
información (un reporte) que no está disponible.
El informe incluye las
finanzas actuales, el inventario y la condición de personal, acompañado de
comparaciones del mes actual con el anterior y el mismo mes del año anterior,
con una comparación adicional de los 3 años precedentes. Se debe explicar cada
desviación de la tendencia que cae fuera de un rango predefinido.
Sin un data warehouse, el
informe es preparado de la manera siguiente:
La información financiera
actual se obtiene desde una base de datos mediante un programa de extracción de
datos, el inventario actual de otro programa de extracción de otra base de
datos, la condición actual de personal de un tercer programa de extracción y la
información histórica desde un backup de cinta magnética o CD-ROM.
Lo más interesante es que
se ha pedido otro informe que continúe al primer informe (debido a que las
preguntas se originaron a partir del anterior). El hecho es, que ninguno de los
trabajos realizados hasta aquí (por ejemplo, diversos programas de extracción)
se pueden usar para los próximos o para cualquier reporte subsiguiente. Imagine
el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado.
Las inconsistencias deben
identificarse en cada conjunto de datos extraídos y resolverse, por lo general,
manualmente. Cuando se completa todo este procesamiento, el reporte puede ser
formateado, impreso, revisado y transmitido.
Nuevamente, el punto
importante aquí es que todo el trabajo desempeñado para hacer este informe no
afecta a otros reportes que pueden solicitarse es decir, todos ellos son
independientes y caros, desde el punto de vista de recursos y productividad.
Al crear un data warehouse
y combinar todos los datos requeridos, se obtienen los siguientes beneficios:
Las inconsistencias de los
datos se resuelven automáticamente cuando los elementos de datos se cargan en el
data warehouse, no manualmente, cada vez que se prepara un reporte.
Los errores que ocurrieron
durante el proceso complejo de la preparación del informe, se minimizan porque
el proceso es ahora mucho más simple.
Los elementos de datos son
fácilmente accesibles para otros usos, no sólo para un reporte particular.