1. Introducción
1.1 Información y su rol en los sistemas
1.1.1 Crecimiento
Hoy en día la información se ha convertido en el arma más
poderosa que cualquier país desea tener.
La información se encuentra en todas partes y crece a cada momento.
Volúmenes de datos
KB |
~10^3: 1 página tecleada |
MB |
~10^6: texto de 1 libro |
GB |
~10^9: sinfonías, libros |
TB |
~10^12: una biblioteca |
Peta-byte |
~10^15: bibliotecas EEUU |
Exa-byte |
~10^18: datos de 1 año |
Zeta-byte |
~10^21 |
Yotta-byte |
~10^24 |
¿Cuántos datos? y ¿Cuánta información?
• En 2002 se produjeron 5 exabytes (10^18 bytes), incluyendo
impresos, películas, y medios magnéticos y ópticos
• 800 MB por persona (considerando 6.3 mil millones de humanos)
• Biblioteca del Congreso (LC) digitalizada = 136 TB, entonces
5 EB = 37,000 LCs
• 92% discos duros, 7% películas, .01% papel, 0.002%
medios ópticos
• EE UU produce 40% de los datos almacenados
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
¿Crecimiento exponencial?
• De 1999 a 2003, crecimiento anual de 30%
• El uso de papel sigue creciendo
• La mayoría de los datos generados no se almacenan en
publicaciones formales
• El flujo de datos en líneas telefónicas, radio
y TV fue de casi 18 EB (no todo es nuevo)
• WWW = 170 TB
• Email = 400,000 TB por año
• Chat = 274 TB por año
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
Integración de contenidos digitales
• Oportunidades
– Hoy, aun los materiales impresos son primero digitales
– Tesis, reportes técnicos, datos experimentales, notas
de cursos, memorias de congresos
• Impacto
– Comunidad global de autores y editores
– Agilidad en la comunicación de resultados
• Problemas
– Distribución, heterogeneidad de formatos, calidad,
idioma, derechos de autor
Digitalización de materiales analógicos
• Oportunidades
– Libros antiguos, correspondencia, archivos
– Digitalización “aérea”
– OCR cada vez más preciso
– Disponibilidad de expertos en materiales
• Impacto
– Acceso, preservación, búsquedas, comparaciones
• Problemas
– Selección, materiales deteriorados, frágiles,
tipografía antigua, lenguaje antiguo, manuscritos, derechos
de autor
Demasiada información.....algunas soluciones
• Construcción de colecciones digitales confiables
• Técnicas de recuperación de información
• Descripción de documentos (metadatos)
• Servidores de alto desempeño
• Mayor ancho de banda (ej. I2)
• Servicios para usar y enriquecer colecciones
1.1.2 Dato, Información, Conocimiento y Sabiduría
Definiciones
• Dato: Una representación física
de la realidad
– Ejemplos: números, letras, diagramas, sonidos, videos
• Información: Datos a los que se ha
asociado un significado
– Ejemplos: Estados financieros, interpretación musical,
conferencia, presentación gráfica
• Conocimiento: Información organizada
y accesible para su aplicación a situaciones y problemas específicos
• Sabiduría: Conjunto de conocimientos
aplicables a situaciones y problemas diversos
1.2 Datos vs Información
1.2.1 Administración de Datos
Definición
Mecanismos para el almacenamiento, recuperación oportuna y mantenimiento
de datos
Recuperación de Datos
- Consiste en determinar que documentos contienen las llaves del query
en el documento
- No resuelve algunos problemas ej. el problema de recuperar información
acerca de un tema
Características
- Almacenamiento
- Indexamiento
- Bases de datos
- Recuperación
- Consultas estructuradas
- Resultados exactos
- Formateo
1.2.2 Administración de información
Definición
Dada una consulta, la meta es recuperar la información relevante
para el usuario.
Recuperación de Información
- Analizar el contenido de una colección de documentos a través
de términos
- Sinónimos, términos con significado cercano (serpiente
y reptil)
- Polisemia, términos con significado dependiente del contexto
(interés, banco)
- Refinar consultas para precisar el contexto de referencia
- La representación y organización de la información
deben proveer al usuario un fácil acceso a sus interes personales
Precisión (Precision): cuántos documentos
recuperados son relevantes
= Relevantes recuperados / Recuperados
Cobertura (Recall): cuántos documentos relevantes
se recuperaron
= Relevantes recuperados / Relevantes
Características
- Almacenamiento
- Bases de datos
- Indices
- Listas invertidas
- Colecciones de archivos
- Recuperación
- Consultas imprecisas
- Leguajes basados en palabras clave
- Resultados aproximados (evaluación de pertinencia)
- Algoritmos de recuperación
1.2.3 RD vs. RI: comparación
|
RD |
RI |
Match |
exacto |
parcial |
Inferencia |
deducción |
inducción |
Modelo |
determinístico |
probabilístico |
Consulta |
artificial |
natural |
Especificación |
completa |
incompleta |
Resultados |
match |
relevancia |
1.2.4 Administración de Conocimiento
Técnicas de extracción de conocimiento (reglas, correlaciones,
excepciones, tendencias) a partir de archivos o de bases de datos
Correlación de grandes conjuntos de datos diseminados en centros
con experiencia amplia en algún dominio
- Producir reglas de evolución de un histórico (mercado
bursátil, el desarrollo de células patógenas)
- Predecir riesgos en el medio ambiente (correlación de diferentes
temas en una base de datos geográfica)
1.3 Información y Estructura.
En la sección anterior se hizo una distinción entre datos e información,
la cual ha surgido más bien sobre la marcha, cuando las personas se dieron
cuenta de la dificultad de contestar a determinados cuestionamientos,
por ejemplo por el contenido de documentos. Pero existe una clasificación
científica más precisa que nos ayuda a definir los distintos tipos de
datos.
1.3.1 Datos estructurados
Son aquellos atributos o variables fuertemente tipados (int, float, string)
Cada atributo en una relación está definido para todos los registros Están
organizados de alguna manera Ejemplos: registros, base de datos relacional
(tabla 1.1)
Tabla 1.1 Datos Estructurados
nombre char(10) |
cumpleaños date |
sueldo int |
Carlos |
1980-08-13 |
5000 |
Juan |
1977-02-23 |
7500 |
1.3.2 Datos no estructurados
- No poseen definiciones de tipos
- No organizados de acuerdo a ningún patrón
- No existe el concepto de variables o atributos
- Ejemplos: documentos de texto sin estructura, e-mails, páginas de
html (tabla 1.2)
Tabla 1.2 Datos No Estructurados
“Carlos nació el 13 de Agosto de 1980.
El tiene un sueldo de 5000. Alguien más nació el 23 de Febrero de
1977, su nombre es Juan y su salario es de 7500” |
Como se puede observar no existe una manera automática de poder analizar
este dato para hacer cuestionamientos, a esto nos referíamos en la sección
anterior como información.
1.3.3 Datos semiestructurados
- Lo que sea entre estructurado y no estructurado
- Variables pobremente tipadas (x=1 es válido y x=”hola” también es
válido)
- Un registro no necesariamente tiene que tener todos sus atributos
definidos. Mientras por ejemplo en una base de datos relacional un campo
debe establecerse como NULL cuando no se tiene, en un ambiente de datos
semiestructurados basta con omitir dicho atributo.
- Un atributo de un registro puede ser otro registro
- No existe necesariamente una diferencia entre un identificador de
un campo y el valor mismo de este.
- Ejemplos: documentos SGML y XML
Los datos semiestructurados pueden ser representados como:
Figura 1.1 Representación datos semiestructurados en
árbol
- Texto indentado (tabla 1.3)
Tabla 1.3 Representación datos semiestructurados texto
indentado
Carlos
Cumpleaños
1980
Agosto
13
Sueldo
$5,000
Juan
Cumpleaños
1977
Febrero |
Lenguaje de Marcado (Markup Language) (tabla 1.4)
Tabla 1.4 Representación datos semiestructurados lenguaje
marcado
<compania>
<empleado id=”3”>
<nombre>Carlos</nombre>
<extension>5513</extension>
<departamento>Ventas</departamento>
<sueldo>5000</sueldo>
</empleado>
<empleado id=”1”>
<nombre>Alfredo</nombre>
<extension>2666</extension>
<oficina>312</oficina>
<departamento>Ejecutivo</departamento>
<sueldo>Director</sueldo>
<empleado>
</compania> |
Otra característica de los datos semiestructurados es que no son creados
necesariamente con la intención de ser analizados o más aún de ser interrogados,
por ejemplo las páginas de HTML no son creadas con ese propósito mientras
que archivos en XML si lo son.
1.3.4 Relación de conceptos
Tipo de dato |
Concepto |
estructurado |
dato |
no estructurado |
información |
semi-estructurado |
datos e información |
1.4 Administración de la Información
Despues de haber comentado las diferencias entre datos e información,
analizado los distintos tipos de datos podemos concluir:
- Los datos y la información son el centro de las aplicaciones
de hoy día, simplemente las organizaciones y negocios no podrían
funcionar sin ellos.
- De alguna manera el negocio de hoy día es las administración
de la información.
- Sin los datos la industria no tendría la habilidad de manejar
finanzas, conducir transacciones o contactar a sus clientes.
- Mientras mejor sean diseñados y utilizados los datos mejor
será la organización y la capacidad de competir.
- La administración de la información es una disciplina
que implica una planeación, implementación, compartición
y mantenimiento de datos.
- Por todo lo anterior, es importante estudiar técnicas "avanzadas" que permitar lidear con:
- Grandes volúmenes de información
- Distintos tipos de datos
- Distintas necesidades de modelado y representación
- Alta disponibilidad y alto desempeño
- Explotar los datos para poder generar información, conocimiento y sabiduría.
|