6.  Análisis de Información

6.1 Introducción

6.1.1 Decision-Support Systems

Los sistemas para toma de decisiones son usados como base o soporte en las actividades de negocios, basándose en los datos recolectados por sistemas de OLTP (on-line transaction-processing systems).

Algunos ejemplos serían:

 

6.1.2 Tipos de herramientas

Las tareas de Data analysis son simplificadas por herramientas especializadas y extensiones de SQL

 

6.2 Online Analytical Processing (OLAP)

6.2.1 Definición

Análisis interactivo de datos, permitiendo que los datos sean resumidos y desplegados en diversas maneras de forma online.

Los datos puede ser modelados como datos multidimensionales (atributos de dimensión y atributos de medida).

En el siguiente ejemplo, los números que representan las ventas (sales) son considerados atributos de medida, mientras que size, item-name y color son considerados como dimensiones.

Sales by item-name and color

 

La tabla anterior se conoce como un cross-tabulation ( cross-tab o pivot-table ).

Un cross-tab siempre está limitado a dos dimensiones pero puede generalizarse a múltiples dimensiones formando un "data cube"

Es importante mencionar que la información no se puede observar de manera tridimensional, se deben ir escogiendo los diversos cross-tab que componen al cubo e ir haciendo el análisis poco a poco, a esta operación se le conoce como slicing

Si se desea cambiar alguna de la dimensiones entonces esa operación se conoce como pivoting

Three-Dimensional Data Cube

 

Por otro lado la granularidad de la información se puede ajustar, moviéndose de algo más fino (fino) a datos más grueso (coarser), a esto se le conoce como rollup. Si ocurre lo opuesto, ir de algo grueso a algo más fino ocurre un drill down.

 

 

Grados de granularidad

 

6.2.2 OLAP Implementation

Funciones Agregadas

SQL 92 y 99

 

6.2.3 OLAP Tools

 

 

6.3 Data Mining

6.3.1 Definición

Es el proceso de analizar de manera "semi-automática" grandes bases de datos para buscar patrones útiles.

Similar al descubrimiento de conocimiento en inteligencia artificial, la minería de datos encuentra reglas estadísticas y patrones.

Difiere de machine learning en que trata con enormes volúmenes de datos almacenados principalmente en disco.

Es semi-automático porque requiere de intervención manual, un preproceso (qué patrón buscar) y un postproceso (encontrar nuevos patrones novedosos)

Ejemplo de una regla generada por data mining:

“Young women with annual incomes greater than $50,000 are most likely to buy sports cars”

 

6.3.2 Aplicaciones de Data Mining

 

6.3.2.1 Prediction basada en el historial

Ej. Predecir el comportamiento de un usuario de tarjeta de crédito en base a algunos atributos como (sueldo, empleo, edad, ..) y el histórico.

Existen distintos mecanismos para predicción:

Por ejemplo asociar el tipo de usuario de la tarjeta de crédito, se crearían reglas de clasificación, a través de árboles de decisión

Arbol de decisión

Tipos de Clasificadores

De manera que la regresión involucra valores y no clases. Lo cual suele hacerse a través de regresiones lineales, buscando encontrar una curva que se ajuste a los datos presentados (curve fitting).

 

6.3.2.2 Patrones descriptivos

Associations

Ej. Encontrar los libros que son comprados por los mismos usuarios, de manera que al comprar alguno se sugiera comprar otros también.

También asociadas a la detección de causalidad, ej. químico X y cáncer.

pan --> leche

antecedente --> consecuente

Una regla de asociación debe tener una población asociada (population), la cual consiste de un conjunto de instancias (instances). En el ejemplo de los libros, cada compra es una instancia y el conjunto de todas las transacciones sería la población.

Las reglas tienen tambien un soporte (support), así como una confianza (confidence).
Support es una medida que indica la fracción/porcentaje de la población que satisface tanto el antecedente como el consecuente de la regla. Siempre se espera tener reglas con un alto soporte.
Confidence es una medida de qué tan frecuente es verdadero el consecuente cuando se presenta el antecedente. También se espera que una regla tenga un gran nivel de confianza.

De manera que las reglas de asociación resultan a partir de un large itemsets donde se van eliminando aquellas reglas que posean niveles bajos de soporte y confianza, o bien aquellas reglas que resulten obvias.

 

Clustering

Puede definirse con un conjunto de puntos tales que el promedio de la distancia de dichos puntos al centroide del grupo asignado es mínima.

Difiere de una Classification en que ésta predice clases, mientras que el cluster agrupa elementos relacionados.

Ejemplos:

Existen algoritmos para manejar conjuntos muy grandes de datos:

 

6.3.3 Otros tipos de Data Mining

 

6.3.4 Data mining tools

 

6.4 Data Warehousing

6.4.1 Definición

Grandes organizaciones tienen complejas estructuras internas y tienen datos almacenados en diferentes localidades, con diferentes sistemas, diferentes esquemas, etc.

Dichas fuentes a menudo solo almacenan los datos actuales, no los históricos.

Pero las decisiones corporativas requieren una visión unificada de toda la información, incluyendo los datos históricos.

De manera que un data warehouse es un repositorio de información recolectada de múltiples fuentes, almacenada bajos un mismo esquema y en un solo lugar.

Simplifica las consultas y permite el estudio de toda tendencia.

Aisla la carga del DSS y los OLTP.

 

 

 

 

6.4.2 Recolección de datos

Para hacer esta recolección de datos es importante considerar

Data cleansing

How to propagate updates

What data to summarize

 

 

 

6.4.3 Usos y Accesos de un data warehouse

Un data warehouse puede usarse y accesarse directamente con una aplicación de análisis, pero existen también maneras indirectas de hacerlo.

 

Acceso indirecto a un data warehouse

 

Uso indirecto de un data warehouse