5. Herramientas ETL

5.1 Definición

El sistema encargado del mantenimiento del almacén de datos es el Sistema E.T.L (Extracción - Transformación - Carga) o E.T.T (Extracción - Transformación -Transporte)

  • La construcción del Sistema E.T.T es responsabilidad del equipo de desarrollo del almacén de datos.
  • El Sistema E.T.T es construido específicamente para cada almacén de datos. Aproximadamente 50% del esfuerzo.
  • En la construcción del E.T.T se pueden utilizar herramientas del mercado o programas diseñados específicamente.

.

5.2 Funciones del Sistema E.T.T

  • Carga inicial. (initial load)
  • Mantenimiento o refresco periódico: inmediato, diario, semanal, mensual,... (refreshment)

El Almacenamiento intermedio permite:

  • Realizar transformaciones sin paralizar las bases de datos operacionales y el almacén de datos.
  • Almacenar metadatos.
  • Facilitar la integración de fuentes externas.

La “calidad de los datos” es la clave del éxito de un almacén de datos.

Definir una estrategia de calidad:

  • actuación sobre los sistemas operacionales: modificar las reglas de integridad, los disparadores y las aplicaciones de los sistemas operacionales.
  • documentación de las fuentes de datos.
  • definición de un proceso de transformación.
  • nombramiento de un responsable de calidad del sistema (Data Quality Manager).

 

5.3 Extracción

Programas diseñados para extraer los datos de las fuentes.
Herramientas: data migration tools, wrappers, ...

Extracción: lectura de datos del sistema operacional.

a) durante la carga inicial .

b) mantenimiento del DW.

 

Ejecución de la extracción:

  • a) si los datos operacionales están mantenidos en un SGBDR, la extracción de datos se puede reducir a consultas en SQL o rutinas programadas.
  • b) si los datos operacionales están en un sistema propietario (no se conoce el formato de los datos) o en fuentes externas textuales, hipertextuales u hojas de cálculo, la extracción puede ser muy difícil y puede tener que realizarse a partir de informes o volcados de datos proporcionados por los propietarios que deberán ser procesados posteriormente.

Extracción: en el mantenimiento/refresco del DW. Antes de realizar la extracción es preciso Identificar los Cambios.

Identificación de Cambios.

  • Identificar los datos operacionales (relevantes) que han sufrido una modificación desde la fecha del último mantenimiento.
  • Métodos
    • Carga total: cada vez se empieza de cero.
    • Comparación de instancias de la base de datos operacional.
    • Uso de marcas de tiempo (time stamping) en los registros del sistema operacional.
    • Uso de disparadores en el sistema operacional.
    • Uso del fichero de log (gestión de transacciones) del sistema operacional.
    • Uso de técnicas mixtas.

 

5.4 Transformación

Transformar los datos extraídos de las fuentes operacionales: limpieza, estandarización. (cleansing)
Calcular los datos derivados: aplicar las leyes de derivación. (integration)

 

  • En los datos operacionales existen anomalías: desarrollos independientes a lo largo del tiempo, fuentes heterogéneas, ..
  • Eliminar anomalías:
    • Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados, ...
    • Estandarización: codificación, formatos, unidades de medida, ...

.

.

.

.

.

 

5.5 Carga

Load. (carga)

  • La fase de Transporte consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el almacén de datos y cargar los datos en las correspondientes estructuras de datos.
  • La carga puede consumir mucho tiempo.
  • En la carga inicial del DW se mueven grandes volúmenes de datos.
  • En los mantenimientos periódicos del DW se mueven pequeños volúmenes de datos.
  • La frecuencia del mantenimiento periódico está determinada por el gránulo del DW y los requisitos de los usuarios.

.

.

 

5.6 Herramientas