6. Análisis de Información

6.1 Introducción

6.1.1 Decision-Support Systems

Data Analysis
- OLAP
- Extended aggregation características en SQL
- Windowing and ranking
Data Mining
Data Warehousing

Los sistemas para toma de decisiones son usados como base o soporte en las actividades de negocios, basándose en los datos recolectados por sistemas de OLTP (on-line transaction-processing systems).

Algunos ejemplos serían:

Qué productos mantener siempre en almacén ?
Qué seguro cambiar o utilizar?
A quién dirigir cierta campaña o determinado producto?

6.1.2 Tipos de herramientas

Las tareas de Data analysis son simplificadas por herramientas especializadas y extensiones de SQL

Statistical analysis packages herramientas que pueden con conectarse cn bases de datos para su estudio
Data mining buscan descubrir conocimiento automáticamente en la forma de reglas estadísticas y patrones de Large databases.
Data warehouse archiva información recolectada de múltiples fuentes, almacenándola con un esquema unificado y en un solo lugar.

6.2 Online Analytical Processing (OLAP)

6.2.1 Definición

Análisis interactivo de datos, permitiendo que los datos sean resumidos y desplegados en diversas maneras de forma online.

Los datos puede ser modelados como datos multidimensionales (atributos de dimensión y atributos de medida).

En el siguiente ejemplo, los números que representan las ventas (sales) son considerados atributos de medida, mientras que size, item-name y color son considerados como dimensiones.

Sales by item-name and color

La tabla anterior se conoce como un cross-tabulation ( cross-tab o pivot-table ).

Un cross-tab siempre está limitado a dos dimensiones pero puede generalizarse a múltiples dimensiones formando un "data cube"

Es importante mencionar que la información no se puede observar de manera tridimensional, se deben ir escogiendo los diversos cross-tab que componen al cubo e ir haciendo el análisis poco a poco, a esta operación se le conoce como slicing

Si se desea cambiar alguna de la dimensiones entonces esa operación se conoce como pivoting

Three-Dimensional Data Cube

Por otro lado la granularidad de la información se puede ajustar, moviéndose de algo más fino (fino) a datos más grueso (coarser), a esto se le conoce como rollup. Si ocurre lo opuesto, ir de algo grueso a algo más fino ocurre un drill down.

Grados de granularidad

6.2.2 OLAP Implementation

Funciones Agregadas

avg, group by

SQL 92 y 99

Data cube
Complex aggregates (median, variance)
binary aggregates (correlation, regression curves)
ranking queries

6.2.3 OLAP Tools

Brindadas por los mismos DBMS (Oracle, DB2, SQL-Server)
Java: JOLAP, Mondrian, JPivot
Comerciales

6.3 Data Mining

6.3.1 Definición

Es el proceso de analizar de manera "semi-automática" grandes bases de datos para buscar patrones útiles.

Similar al descubrimiento de conocimiento en inteligencia artificial, la minería de datos encuentra reglas estadísticas y patrones.

Difiere de machine learning en que trata con enormes volúmenes de datos almacenados principalmente en disco.

Es semi-automático porque requiere de intervención manual, un preproceso (qué patrón buscar) y un postproceso (encontrar nuevos patrones novedosos)

Ejemplo de una regla generada por data mining:

“Young women with annual incomes greater than $50,000 are most likely to buy sports cars”

6.3.2 Aplicaciones de Data Mining

6.3.2.1 Prediction basada en el historial

Ej. Predecir el comportamiento de un usuario de tarjeta de crédito en base a algunos atributos como (sueldo, empleo, edad, ..) y el histórico.

Existen distintos mecanismos para predicción:

Classification dado un conjunto de entrenamiento, consistiendo de diferentes elementos pertenecientes a diversas clases, y un nuevo elemento cuya clase es desconocida, predecir a qué clase pertenece.

Por ejemplo asociar el tipo de usuario de la tarjeta de crédito, se crearían reglas de clasificación, a través de árboles de decisión

Arbol de decisión

Tipos de Clasificadores

Splits

Neural nets

Bayes Theorem

Regression formulae dado un conjunto de mapeos de parameter-value a function-result para una parameter-value desconocido, predecir su function-result correspondiente.

De manera que la regresión involucra valores y no clases. Lo cual suele hacerse a través de regresiones lineales, buscando encontrar una curva que se ajuste a los datos presentados (curve fitting).

6.3.2.2 Patrones descriptivos

Associations

Ej. Encontrar los libros que son comprados por los mismos usuarios, de manera que al comprar alguno se sugiera comprar otros también.

También asociadas a la detección de causalidad, ej. químico X y cáncer.

pan --> leche

antecedente --> consecuente

Una regla de asociación debe tener una población asociada (population), la cual consiste de un conjunto de instancias (instances). En el ejemplo de los libros, cada compra es una instancia y el conjunto de todas las transacciones sería la población.

Las reglas tienen tambien un soporte (support), así como una confianza (confidence).
Support es una medida que indica la fracción/porcentaje de la población que satisface tanto el antecedente como el consecuente de la regla. Siempre se espera tener reglas con un alto soporte.
Confidence es una medida de qué tan frecuente es verdadero el consecuente cuando se presenta el antecedente. También se espera que una regla tenga un gran nivel de confianza.

De manera que las reglas de asociación resultan a partir de un large itemsets donde se van eliminando aquellas reglas que posean niveles bajos de soporte y confianza, o bien aquellas reglas que resulten obvias.

Clustering

Puede definirse con un conjunto de puntos tales que el promedio de la distancia de dichos puntos al centroide del grupo asignado es mínima.

Difiere de una Classification en que ésta predice clases, mientras que el cluster agrupa elementos relacionados.

Ejemplos:

La clasificación biológica
Internet directory systems (ej. Yahoo)

Existen algoritmos para manejar conjuntos muy grandes de datos:

Birch algorithm, que se basa en usar un R-Tree para almacenar los puntos a ser agrupados.
Collaborative Filtering: predecir qué películas/libros le interesarán a una persona, basándose en :
- Referencias anteriores y actuales de la persona
- Otras personas con preferencias pasadas similares

6.3.3 Otros tipos de Data Mining

Text mining: aplicada a documentos textuales ej. Web
Data visualization: sistemas que ayudan a los usuarios a examinar grandes volúmenes de datos y detectar patrones visualmente.

6.3.4 Data mining tools

WEKA de la Universidad de Waikato, elaborada en java
Gnome Data Mine Tools
Comerciales

6.4 Data Warehousing

6.4.1 Definición

Grandes organizaciones tienen complejas estructuras internas y tienen datos almacenados en diferentes localidades, con diferentes sistemas, diferentes esquemas, etc.

Dichas fuentes a menudo solo almacenan los datos actuales, no los históricos.

Pero las decisiones corporativas requieren una visión unificada de toda la información, incluyendo los datos históricos.

De manera que un data warehouse es un repositorio de información recolectada de múltiples fuentes, almacenada bajos un mismo esquema y en un solo lugar.

Simplifica las consultas y permite el estudio de toda tendencia.

Aisla la carga del DSS y los OLTP.

6.4.2 Recolección de datos

Para hacer esta recolección de datos es importante considerar

Data cleansing

Ej. corregir errores en códigos, direcciones, etc.
Mezclar distintas fuentes y evitar la duplicidad

How to propagate updates

El esquema puede ser una "vista materializada" de las tablas fuente
Técnicas para mantener actualizada la información

What data to summarize

Ponderar entre almacenar todos los datos o directamente los valores derivados (totals/subtotals)
Recordar que las funciones agregadas son optimizadas por el query optimizer así que en determinado momento si es factible el mantener todos los datos

6.4.3 Usos y Accesos de un data warehouse

Un data warehouse puede usarse y accesarse directamente con una aplicación de análisis, pero existen también maneras indirectas de hacerlo.

Acceso indirecto a un data warehouse

Uso indirecto de un data warehouse