12. Recuperación de Información Actual
12.1 Introducción
Recuperación de Datos vs Recuperación de Información
Recuperación de Datos
Consiste en determinar que documentos contienen las llaves del query en el documento
No resuelve el problema de recuperar información acerca de un temaRecuperación de Información
La representación y organización de la información deben proveer al usuario un fácil acceso a sus interes personales.
Dado un query, la meta de una llave es recuperar la información relevante para el usuario.
Visión Lógica de los Documentos
Es la representación de documentos y/o páginas web que forman parte de una colección (sistema de IR).
La forma más común de representar un documento de texto es por un sistema de términos indexados o palabras llaves.
Estos términos son extraídos con el siguiente proceso:
Para la lematización los "stopwords" generalmente se utilizan listas de palabras, ya sean de un lenguaje controlado (alguna especialidad) o bien de un idioma particular.
Por otro lado para realizar el “stemming” (reducir palabras de su raíz gramatical) se emplea el algoritmo de Porter, solo que hay que tener en cuenta el idioma a utilizar ya que por lo general se encuentra en inglés aunque hay versiones para español.http://www.tartarus.org/~martin/PorterStemmer/
Existen 2 tipos de tareas principales en la recuperación de información:
- Las centradas en la computadora: consiste en construir un índice eficiente, procesar las consultas del usuario con un alto rendimiento y algoritmos (modelos de recuperación) que mejoren la calidad de respuesta del sistema.
- Las centradas en el humano: consiste principalmente en estudiar las necesidades del usuario, saber cómo afecta a la organización, operación y visualización de resultados en el sistema de recuperación.
12.2 Modelos de Recuperación
12.2.1 Clasificación
12.2.1.1 Modelo Booleano
El modelo Boleano, es un modelo de recuperación simple basado en la teoría fija y álgebra de Boolean, este modelo proporciona un grupo de trabajo que es fácil de usar por un usuario común de un sistema de IR. Además, las llamadas se especifican como expresiones de Boolean que tienen la semántica precisa.
Dado su simplicidad inherente y formalismo, el modelo de Boolean recibió la gran atención y se adoptó por muchos de los sistemas bibliográficos comerciales.
De este modelo se pueden destacar los siguientes puntos:
- La relevancia es binaria: un documento es relevante o no lo es.
- Consultas de una palabra: un documento es relevante si contiene la palabra.
- Consultas AND: Los documentos deben contener todas las palabras.
- Consultas OR: Los documentos deben contener alguna palabra.
- Consultas A BUTNOT B: Los documentos los documentos deben ser relevantes para A pero no para B.
· Ejemplo: lo mejor de Maradona
Maradona AND Mundial
AND (( México ’86 OR Italia ’12.) BUTNOT U.S.A. ’12.)- Es el modelo mas primitivo, sin embargo es el mas popular.
¿Por qué es malo?
- No discrimina entre documentos más y menos relevantes.
- Da lo mismo que un documento contenga una o cien veces las palabras de consulta.
- Da lo mismo que cumpla una o todas las cláusulas de un OR.
- No permite ordenar los resultados.
- Puede resultar confuso
Ejemplo: Necesito investigar sobre los Aztecas y los Incas
Aztecas AND Incas
(cuando en realidad lo que se pretendía era: Aztecas OR Incas).
¿Por qué es popular?
- Es una de los primeros modelos que se implemento y muchos de los primeros sistemas de IR se basaron en él
- La idea suele ser común entre los usuarios que la están usando.
- Es la opción favorita para insertar texto en un RDBMS.
- Es simple de formalizar y eficiente de implementar.
- En algunos caso (usuarios expertos) puede ser adecuado.
- Puede ser útil en combinación con otro modelo ej. Para excluir documentos.
- Puede ser útil con buenas interfaces.
12.2.1.2 Modelo Probabilístico
Este modelo fue introducido en 112.6 por Roberston y Spark Jones y después se conoció como el modelo de la recuperación de independencia binario.
La idea fundamental es, dada una pregunta del usuario, se encuentra un conjunto de documentos que contienen los datos pertinentes, a este conjunto se le conoce como conjunto de la respuesta ideal.
El modelo sólo asume que esta probabilidad de relevancia depende de la pregunta y las representaciones del documento, que en este caso el usuario haga.
Ventajas:
- Se alinean los documentos en orden decreciente de su probabilidad de ser pertinentes (referenciados).
Desventajas:
- La necesidad de suponer la separación inicial de documentos en los conjuntos pertinentes y no pertinentes.
- No se toma en cuenta la frecuencia de un término del índice ocurre dentro de un documento ( todo los pesos son binarios).
- Que adopta la independencia para las condiciones del índice.
Características
- Se presupone que existe exactamente un subconjunto de documentos que son relevantes para una consulta dada.
- Para cada documento, se intenta evaluar la probabilidad de que el usuario lo considere relevante.
- La relevancia de un documento se calcula como:
- P (d relevante para q)/ P(d no relevante para q)
- Donde q es una pregunta del usuario y d los campos de cada documento.
¿Por qué es poco popular?
- Se debe comenzar adivinando y luego refinar esa apuesta iterativamente.
- El modelo ve cada documento como un conjunto de términos.
- Necesita presuponer que los términos son independientes.
- Existen estudios que muestra que es inferior al modelo vectorial y casi todos los científicos lo consideran inferior.
12.2.1.3 Modelo de Espacios Vectoriales
Es el modelo más popular hoy en día ya que permite discrimar correctamente entre documentos
Conceptos Iniciales:
Teoría de Vectores
Toma en cuenta:
- tf (term frequency): la frecuencia de un término en un cada documento
- maxtf (max term frequency): de un término entre todos los documentos
- f (frequency): es la normalización de la frecuencia, tf/maxtf
- idf = log (N/ni) Frecuencia inversa,
N-número de documentos en la colección, ni-número de documentos donde aparece un término- w = f x idf, el peso de un término en un documento
Proceso
- Se selecciona un conjunto de palabras útiles para discriminar (términos o keywords).
- Se puede enriquecer esto con un proceso de lematización (o stemming), etiquetado, e identificación de frases.
- En los sistemas modernos, toda palabra del texto es un término, excepto posiblemente las stopwords o palabras vacías.
- Si un término aparece mucho en un documento, se supone que es importante en ese documento(tf crece).
- Pero si aparece un muchos documentos, entonces no es útil para distinguir ningún documento de los otros ( idf decrece).
- Además normalizamos los módulos de los vectores para no favorecer documentos más largos.
- Lo que se intenta medir es cúanto ayuda ese término a distinguir ese documento de los demás.
- La similaridad es un valor entre cero y uno.
- Notar que dos documentos iguales tienen similaridad 1, y ortogonal (si no comparten terminos) tienen similaridad cero.
- En particular, una consulta se puede ver como un documento (formado por esas palabras) y por lo tanto como un vector
El modelo es más general, y permite cosas como:
- Que la consulta sea un documento.
- Hacer clustering de documentos similares.
- Relevance feedback ("more like this").
12.2.2 Modelos basados en estructuras de texto
Introducción
- Problema:
Encontrar los documentos que contengan la cadena “holocausto atómico” con letra cursiva, y que se encuentre cerca de una figura cuya etiqueta dice “tierra”.- Solución:
Un modelo que permita la siguiente consulta:
misma-pagina( cerca_de( “holocausto atómico”, figura( etiqueta( “tierra”))))Definición:
“un modelo de RI que combina la información del contenido del texto con la información sobre la estructura del documento”Desventaja: no tiene una manera de clasificar los resultados en base a su importancia (ranking).
12.2.2.1 Modelos basados en listas no sobrepuestas (non-overlapping)
Idea:
Dividir el texto de cada documento en regiones que no están sobrepuestas y juntarlos en una lista.
Implementación:
Se crea un archivo invertido en el que cada componente estructural es una entrada en el índice. Asociado con cada una de estas entradas, hay una lista de regiones de texto como una lista de ocurrencias.
Ejemplos de consultas:
a) seleccionar una región que contenga una palabra dada
b) seleccionar la región A que no contenga una región B.
12.2.2.2 Modelos basados en nodos proximales
Idea:
Definir estructuras de indexamiento jerárquicas e independientes sobre un mismo documento.
Implementación:
Primero buscar los componentes que coinciden con la cadena especificada en la consulta y, subsecuentemente, evaluando cúal de estos componentes satisface la parte estructural de la consulta.
Ejemplos de consultas:(*section) with (‘holocaust’)
12.2.3 Herramientas
Producto Lenguaje Modelos Indexamiento API desarrollo Licencia Managing Gigabytes C/C++, envoltura Java Vectorial Propietario Ninguno Open Source Xapian C/C++ Probabilístico Propietario Limitado Open Source Lucene Java Vectorial Propietario Abierto y extendible Open Source MySQL FullText C/C++ Java Vectorial Propietario ISAM SQL Open Source
12.3 Motores de Búsqueda (Search Engines)
Surgen con el nacimiento de la web, ya que se presentó la necesidad de hacer búsquedas en ella.
Problemas:
- Número de sitios
- Cantidad de Información
- Variedad de la información, estructura, idioma, etc.
El término “Search Engine” (motor de búsqueda), se refiere principalmente a cualquier software usado para realizar una búsqueda en una base de datos. En este caso, estamos hablando de que la base de datos a explorar es la Web.
Son empleados por buscadores como: Google, Altavista, Yahoo, Hotbot, Lycos.
Existen dos tipos principales de search engines:
- De arquitectura centralizada (crawlers): no van de servidor en servidor buscando información, más bien funcionan dentro de un sólo servidor que envía peticiones a los servidores de web.
- De arquitectura distribuida (harvest): tiene dos importantes elementos
- Gatheres (coleccionador): juntan los índices de varios servidores
- Brokers (corredores). proveen el mecanismo indexador y la interfaz a la información
Características
- Las máquinas de búsqueda emplean los modelos de recuperación mencionados en secciones anteriores (Booleano, Vectorial, etc)
- Técnicas de alcance de nodos en la red: depth first y breadth first search
- Actualmente la mayoría de los buscadores no solo realizan búsquedas sino poseen una clasificación de temas que permite la navegación (browsing)
- Metasearchers son servidores de web que envían un query a varios search engines
Datos estadísticos:
- 25 % de los usuarios utiliza sólo una palabra para hacer la consulta y en promedio las búsquedas no tienen mas de tres palabras.
- 15 % restringe la consulta a un tópico especifico.
- 80 % no modifica consulta.
- 85 % no pasa de la primera pagina de resultados.
- 64 % de las consultas son únicas.
12.4 Visualización de Información
Definición:
Es un método que transforma lo simbólico en geométrico, permitiendo a los investigadores observar sus simulaciones y cálculos; ver lo no visible.
Ultimo paso en la recuperación de información
Recolección de Información
Búsqueda
Filtrado
VisualizaciónToda interfaz debe presentar 4 pasos, lo cuales se convierten en un ciclo:
Human-Computer Interaction Lab (HCIL), University of Maryland
UDLAP