Los sistemas para toma de decisiones son usados como base o soporte en las actividades de negocios, basándose en los datos recolectados por sistemas de OLTP (on-line transaction-processing systems).
Algunos ejemplos serían:
Las tareas de Data analysis son simplificadas por herramientas especializadas
y extensiones de SQL
Análisis interactivo de datos, permitiendo que los datos sean resumidos y desplegados en diversas maneras de forma online.
Los datos puede ser modelados como datos multidimensionales (atributos de dimensión y atributos de medida).
En el siguiente ejemplo, los números que representan las ventas (sales) son considerados atributos de medida, mientras que size, item-name y color son considerados como dimensiones.
Sales by item-name and color
La tabla anterior se conoce como un cross-tabulation ( cross-tab o pivot-table ).
Un cross-tab siempre está limitado a dos dimensiones pero puede generalizarse a múltiples dimensiones formando un "data cube"
Es importante mencionar que la información no se puede observar de manera tridimensional, se deben ir escogiendo los diversos cross-tab que componen al cubo e ir haciendo el análisis poco a poco, a esta operación se le conoce como slicing
Si se desea cambiar alguna de la dimensiones entonces esa operación se conoce como pivoting
Three-Dimensional Data Cube
Por otro lado la granularidad de la información se puede ajustar, moviéndose de algo más fino (fino) a datos más grueso (coarser), a esto se le conoce como rollup. Si ocurre lo opuesto, ir de algo grueso a algo más fino ocurre un drill down.
Grados de granularidad
Funciones Agregadas
SQL 92 y 99
Es el proceso de analizar de manera "semi-automática" grandes bases de datos para buscar patrones útiles.
Similar al descubrimiento de conocimiento en inteligencia artificial, la minería de datos encuentra reglas estadísticas y patrones.
Difiere de machine learning en que trata con enormes volúmenes de datos almacenados principalmente en disco.
Es semi-automático porque requiere de intervención manual, un preproceso (qué patrón buscar) y un postproceso (encontrar nuevos patrones novedosos)
Ejemplo de una regla generada por data mining:
“Young women with annual incomes greater than $50,000 are most likely to buy sports cars”
Ej. Predecir el comportamiento de un usuario de tarjeta de crédito en base a algunos atributos como (sueldo, empleo, edad, ..) y el histórico.
Existen distintos mecanismos para predicción:
Por ejemplo asociar el tipo de usuario de la tarjeta de crédito, se crearían reglas de clasificación, a través de árboles de decisión
Arbol de decisión
Tipos de Clasificadores
- Splits
- Neural nets
- Bayes Theorem
De manera que la regresión involucra valores y no clases. Lo cual suele hacerse a través de regresiones lineales, buscando encontrar una curva que se ajuste a los datos presentados (curve fitting).
Associations
Ej. Encontrar los libros que son comprados por los mismos usuarios, de manera que al comprar alguno se sugiera comprar otros también.
También asociadas a la detección de causalidad, ej. químico X y cáncer.
pan --> leche
antecedente --> consecuente
Una regla de asociación debe tener una población asociada (population), la cual consiste de un conjunto de instancias (instances). En el ejemplo de los libros, cada compra es una instancia y el conjunto de todas las transacciones sería la población.
Las reglas tienen tambien un soporte (support), así como una confianza (confidence).
Support es una medida que indica la fracción/porcentaje de la población que satisface tanto el antecedente como el consecuente de la regla. Siempre se espera tener reglas con un alto soporte.
Confidence es una medida de qué tan frecuente es verdadero
el consecuente cuando se presenta el antecedente. También se espera que
una regla tenga un gran nivel de confianza.
De manera que las reglas de asociación resultan a partir de un large itemsets donde se van eliminando aquellas reglas que posean niveles bajos de soporte y confianza, o bien aquellas reglas que resulten obvias.
Clustering
Puede definirse con un conjunto de puntos tales que el promedio de la distancia de dichos puntos al centroide del grupo asignado es mínima.
Difiere de una Classification en que ésta predice clases, mientras que el cluster agrupa elementos relacionados.
Ejemplos:
Existen algoritmos para manejar conjuntos muy grandes de datos:
Grandes organizaciones tienen complejas estructuras internas y tienen datos almacenados en diferentes localidades, con diferentes sistemas, diferentes esquemas, etc.
Dichas fuentes a menudo solo almacenan los datos actuales, no los históricos.
Pero las decisiones corporativas requieren una visión unificada de toda la información, incluyendo los datos históricos.
De manera que un data warehouse es un repositorio de información recolectada de múltiples fuentes, almacenada bajos un mismo esquema y en un solo lugar.
Simplifica las consultas y permite el estudio de toda tendencia.
Aisla la carga del DSS y los OLTP.
Para hacer esta recolección de datos es importante considerar
Data cleansing
How to propagate updates
What data to summarize
Un data warehouse puede usarse y accesarse directamente con una aplicación de análisis, pero existen también maneras indirectas de hacerlo.
Acceso indirecto a un data warehouse
Uso indirecto de un data warehouse