8. External data, Unstructured data y el Data warehouse8.1 External data
8.1.1 AntecedentesNormalmente la mayor parte de la información contenida en el datawarehouse proviene de fuentes internas a la compañía. Pero también pueden existir fuentes externas que se agregan al datawarehouse para poder sustentar muchas cosas, tan simple como el cambio de moneda en ese instante de tiempo, hasta cosas más complicadas como "que tanto afectó la caída del mercado mobiliario de USA dentro del mercado mexicano".
8.1.2 Tipos de datos externosExisten 2 tipos básicos de datos externos:
Algunas fuentes típicas de datos externos útiles e interesantes incluyen:
8.1.3 Problemas con datos externos en el dwExisten 2 problemas principales con el manejo de datos externos:
8.1.4 Metadata de los datos externosEs importante agregar metadatos a los datos externos, ya que es la manera de poderlos controlar y manejar más fácilmente por el administrador. Por ejemplo, para saber si un dato es "fiel" puede checarse la fuente y la fecha, si es muy viejo quizás ese dato es obsoleto, de igual manera si la fuente no es confiable se deshecha dicha información.
8.1.5 Modelado y datos externos
En el modelado del DW debe incluirse desde luego los metadatos de los datos externos, desambigüar algunos términos para evitar confusiones y eso es todo. En realidad hay poco de relación entre los datos externos y el modelo, ya que, como se mencionará después, inclusive tendrán estructuras diferentes (datos no estructurados) 8.1.6 Reportes secundariosEn ocasiones es útil sumar o numerizar varios datos externos para simplificar su manejo. Por ejemplo, el cambio de monera o el precio del petróleo se generan diariamente, pero quizás nos interese más bien el promedio al mes, o si algo se genera por meses entonces el promedio al año.
8.1.7 Comparando datos internos y externosLa mayor utilidad de tener datos externos resulta cuando podemos comparar tendencias internas contra lo externos. En el ejemplo se muestra cómo la tendencia de ventas de una compañía de 'X' industria se ajusta a la tendencia general de dicha industria 'X' a nivel nacional, de manera que esos descensos de 1993 no solo le pasaron a la compañía, sino a la industria en general.
8.2 Unstructured data8.2.1 AntecedentesLos datawarehouses en su mayoría almacenan transacciones (compras, ventas, inventarios) los cuales son datos estructurados que tiene un tipo y longitud definida. Pero también existe la necesidad de agregar en un dw datos que no tienen estructura definida, por ejemplo:
8.2.2 Tipos de datos estructurados
8.2.3 Integrando datos estructurados y no estructurados
Supongamos el caso de un CRM (Customer Relationship Management), donde por un lado tenemos datos estructurados (edad, nombre, genero) y por otro tenemos datos no estructurados (emails, entrevistas, llamadas telefónicas). Los datos se agregan al dw con las técnica ya mencionadas, los datos estructurados como parte del modelo y los no estructurados de cierta manera como datos externos.
El problema es que ahora necesitan "ligarse" porque se puede dar el caso de que en un email yo hable de un producto o una persona que no aparece en los metadados y es evidente que es útil poder establecer esa relación.
La clave para establecer la relación es simplemente el texto. Hay que analizar el texto contenido en los datos no estructurados y tratar de hacer un "match" contra aquellos datos que si son estructurados.
El problema es que simplemente analizar texto puede provocar varios problemas:
Comparación probabilísticaUna solución es aplicar limpieza de las palabras y realizar una comparación probabilística para determinar los matches entre ambos ambientes. Aca entran los algoritmos de recuperación de información. Comparación basada en TemasOtra solución es utilizar temas (Theme) con vocabulario controlado de cada industria para tratar de establecer una relación. Ejemplo:
8.2.4 Visualización de datosLos datos estructurados suelen representarse con gráficas (barras, pie, histograma). Mientras que los datos no estructurados suelen representarse con un SOM (Self-Organizing Map) una especie de mapa topográfico que agrupa en clusters aquellos documentos de "temas" similares.
|