1 Introducción
1.1 Antecedentes
- Discos son lentos
- Gran capacidad de Almacenamiento
- Lavadoras ---> Dispositivos Actuales 5 1/4"
- Lentitud
- RAM 120 nanosegundos
- DiscoDuro 30 milisegundos
- Indice Libro 20 segundos
- Pedirlo a la Librería 58 días
Objetivo ideal :
"Un buen diseño de estructuras de archivos* brindará acceso a grandes capacidades de información, sin gastar tiempo de espera por el disco"
*Estructura de Archivos: combinación de representaciones de datos en archivos y las operaciones para accesarlos
1.1.1 Metas en el desarrollo de estructuras de archivos:
- Idealmente obtener la información necesaria únicamente con un acceso a disco
- Si no, encontrar lo deseado con el menor número de accesos posibles. Ej. Binary Search
- Agrupar la información de manera que encontremos todo lo que buscamos con un solo viaje a disco
Windows Task Manager
|
Linux KDE System Guard
|
Si los archivos no cambiaran todo sería más fácil, pero en la práctica no es así :(
1.2 Historia
1.2.1 Cintas
Al principio el medio de almacenamiento eran las cintas, un acceso secuencial
1.2.2 Discos
Surgen los discos y con ello los "índices"
Problema: cuando la información cambia mucho --dinámicamente
1.2.3 Arboles
En 1960's nace la idea de emplear árboles
Problema: pueden formarse accesos secuenciales
1963 AVL Trees
Problemas:
- Docenas de accesos para búsquedas
- Método para mantener balanceado el árbol
...y 10 años despues 1973
Toman forma los B-Trees
Complejidad O(logk N)
N elementos en un archivo, k elementos indexados en cada bloque
B+Trees
1.2.4 Hash
Qué pasó con la meta de un solo viaje al disco ??
Era poco conveniente para archivos dinámicos por eso surje el Hash Extendido, Hash + B-Trees
1.3 Era Moderna
Desde los 90´s Internet empieza a tomar un gran impuso:
- Millones de sitios
- Millones de paginas
- Millones de correos electronicos -- emails
• WWW = 170 TB
• Email = 400,000 TB por año
• Chat = 274 TB por año
Preguntas:
- Cómo discernir algo "importante" de lo que no es ??
- Cómo catalogar automáticamente la información ??
Utilizar una búsqueda por palabra ya no es suficiente
Se emplean técnicas basadas en:
- Frecuencia de palabras
- Popularidad (Incoming links)
- Curiosamente inventadas en los 70´s Ej. Modelo Vectorial de Salton
Un proyecto iniciado en 1995 y que en el 2000 alcanza el premio:
"Best Search Engine on the Internet"
|
Surgen otras necesidades respecto a la información:
- Intercambiar
- De hacerla legible a la vista humana
- De mantener la estructura/semiestructura de datos
1998 nace XML (eXtensible Markup Language)
<?xml version="1.0" encoding="UTF-8"?>
<DOCUMENT>
<SUBJECT>UDLA Informa </SUBJECT>
<MESSAGE>Blah Blah Blah</MESSAGE>
</DOCUMENT>
|
1.4 Conclusión
El reto de almacenar y recuperar información se puede resumir en 2 aspectos muy importantes
- Recuperar la información en el menor tiempo posible
- Recuperar exactamente lo que el usuario desea
Algo muy importante a recordar: las necesidades de recuperación serán las que determinen las técnicas de almacenamiento a emplear.
|