7. Distributed Data warehouse7.1 Razones de un DW centralizadoMuchas organizaciones construyen y mantienen un solo datawarehouse centralizado, lo cual tiene mucho sentido cuando:
En otros casos, lo más adecuado seria un DW distribuido, como se menciona a continuación.
7.2 Tipos de DW Distribuidos
7.3 Local and Global Data Warehouses
Cuando una corporación está esparcida alrededor del mundo, la información se necesita tanto local como globalmente. Global se encuentra centralizada en un data warehouse donde la información es recolectada. Pero también es necesario un data warehouse local para cada organización, esto es, en cada país. En este caso la información se encontrará tanto centralizada como distribuida. Un segundo caso ocurre cuando la compañía es muy grande y tiene muchas líneas de negocio, entonces también es conveniente tener dw locales y un global. Veamos algunos casos ejemplo:
Distribución de una compañía que tiene varios sitios distribuidos geográficamente y una matriz o headquarter.
Muchas veces los sitios locales, solo realizan capturas y la matriz hace todo el proceso. En estos casos no es necesario tener dw locales, solamente un global.
En otros casos, los sitios distribuidos si tienen operaciones locales. En estos casos suele existir un dw local (si es necesario) y un dw global.
Resumiendo, tenemos una arquitectura general de un dw distribuido.
Flujo de la información de los sitios globales hacia el datawarehouse
El contenido de los datawarehouses suele ser diferente porque manejan productos diferentes, además de tener aspectos particulares ej. la moneda (dólares, euros, libras, pesos)
A manera de apoyo, se puede tener un "staging area" para preparar los datos con anticipación antes de enviarlos al dw global
7.4 Datawarehouse tecnológicamente distribuido.Muchas veces se necesita crear un datawarehouse distribuido en muchos servidores, esto debido al volumen de datos que se manejan. Al principio suele empezarse con 1 o 2 servidores, pero el mismo crecimiento provoca la necesidad de mayor capacidad de procesamiento y por ende que se empieza a "distribuir" la información en distintos servidores o clusters. Las técnicas para dividir la información suelen basarse simplemente en criterios de ciertos atributos, tal como suele hacer en el "table partitioning", como pueden ser: años, ciudades, departamentos, etc.
Un problema que se tiene con el dw tecnológicamente distribuido es que muchos datos viajan por la red, lo cual congestiona la red y provoca que algunas consultas o reportes sean demasiado lentos.
7.5 Datawarehouse distribuido independientemente evolutivo.
Muchas veces el dw distribuido se da por accidente, cuando muchas partes de la compañía empiezan a crear sus propios datawarehouses de manera independiente y sin coordinación.
Aún estos dw independientes, seguramente comparten cosas en común interesantes para la compañía y habra que reunirlas en un modelo corporativo.
|