12. Recuperación de Información Actual

 

12.1 Introducción

 

Recuperación de Datos vs Recuperación de Información

Recuperación de Datos
Consiste en determinar que documentos contienen las llaves del query en el documento
No resuelve el problema de recuperar información acerca de un tema

Recuperación de Información
La representación y organización de la información deben proveer al usuario un fácil acceso a sus interes personales.
Dado un query, la meta de una llave es recuperar la información relevante para el usuario.

 

Visión Lógica de los Documentos

Es la representación de documentos y/o páginas web que forman parte de una colección (sistema de IR).

 

La forma más común de representar un documento de texto es por un sistema de términos indexados o palabras llaves.

Estos términos son extraídos con el siguiente proceso:

 

Para la lematización los "stopwords" generalmente se utilizan listas de palabras, ya sean de un lenguaje controlado (alguna especialidad) o bien de un idioma particular.
Por otro lado para realizar el “stemming” (reducir palabras de su raíz gramatical) se emplea el algoritmo de Porter, solo que hay que tener en cuenta el idioma a utilizar ya que por lo general se encuentra en inglés aunque hay versiones para español.

http://www.tartarus.org/~martin/PorterStemmer/

 

Existen 2 tipos de tareas principales en la recuperación de información:


12.2 Modelos de Recuperación

12.2.1 Clasificación

 

12.2.1.1 Modelo Booleano

El modelo Boleano, es un modelo de recuperación simple basado en la teoría fija y álgebra de Boolean, este modelo proporciona un grupo de trabajo que es fácil de usar por un usuario común de un sistema de IR. Además, las llamadas se especifican como expresiones de Boolean que tienen la semántica precisa.

Dado su simplicidad inherente y formalismo, el modelo de Boolean recibió la gran atención y se adoptó por muchos de los sistemas bibliográficos comerciales.

De este modelo se pueden destacar los siguientes puntos:

¿Por qué es malo?

¿Por qué es popular?


12.2.1.2 Modelo Probabilístico

Este modelo fue introducido en 112.6 por Roberston y Spark Jones y después se conoció como el modelo de la recuperación de independencia binario.

La idea fundamental es, dada una pregunta del usuario, se encuentra un conjunto de documentos que contienen los datos pertinentes, a este conjunto se le conoce como conjunto de la respuesta ideal.

El modelo sólo asume que esta probabilidad de relevancia depende de la pregunta y las representaciones del documento, que en este caso el usuario haga.

 

Ventajas:

Desventajas:

Características

¿Por qué es poco popular?


12.2.1.3 Modelo de Espacios Vectoriales

Es el modelo más popular hoy en día ya que permite discrimar correctamente entre documentos

Conceptos Iniciales:

Teoría de Vectores

 

 

 

 

Toma en cuenta:

Proceso

 

El modelo es más general, y permite cosas como:


12.2.2 Modelos basados en estructuras de texto

Introducción

Definición:


“un modelo de RI que combina la información del contenido del texto con la información sobre la estructura del documento”

Desventaja: no tiene una manera de clasificar los resultados en base a su importancia (ranking).


12.2.2.1 Modelos basados en listas no sobrepuestas (non-overlapping)

Idea:

Dividir el texto de cada documento en regiones que no están sobrepuestas y juntarlos en una lista.

 

Implementación:

Se crea un archivo invertido en el que cada componente estructural es una entrada en el índice. Asociado con cada una de estas entradas, hay una lista de regiones de texto como una lista de ocurrencias.
Ejemplos de consultas:
a) seleccionar una región que contenga una palabra dada
b) seleccionar la región A que no contenga una región B.


12.2.2.2 Modelos basados en nodos proximales

Idea:

Definir estructuras de indexamiento jerárquicas e independientes sobre un mismo documento.

 

Implementación:

Primero buscar los componentes que coinciden con la cadena especificada en la consulta y, subsecuentemente, evaluando cúal de estos componentes satisface la parte estructural de la consulta.
Ejemplos de consultas:(*section) with (‘holocaust’)

12.2.3 Herramientas

Producto Lenguaje Modelos Indexamiento API desarrollo Licencia
Managing Gigabytes C/C++, envoltura Java Vectorial Propietario Ninguno Open Source
Xapian C/C++ Probabilístico Propietario Limitado Open Source
Lucene Java Vectorial Propietario Abierto y extendible Open Source
MySQL FullText C/C++ Java Vectorial Propietario ISAM SQL Open Source

 


 

12.3 Motores de Búsqueda (Search Engines)

Surgen con el nacimiento de la web, ya que se presentó la necesidad de hacer búsquedas en ella.

Problemas:

El término “Search Engine” (motor de búsqueda), se refiere principalmente a cualquier software usado para realizar una búsqueda en una base de datos. En este caso, estamos hablando de que la base de datos a explorar es la Web.

Son empleados por buscadores como: Google, Altavista, Yahoo, Hotbot, Lycos.

 

Existen dos tipos principales de search engines:

  1. De arquitectura centralizada (crawlers): no van de servidor en servidor buscando información, más bien funcionan dentro de un sólo servidor que envía peticiones a los servidores de web.
  2. De arquitectura distribuida (harvest): tiene dos importantes elementos
    • Gatheres (coleccionador): juntan los índices de varios servidores
    • Brokers (corredores). proveen el mecanismo indexador y la interfaz a la información

 

Características

 

Datos estadísticos:



12.4 Visualización de Información

Definición:

Es un método que transforma lo simbólico en geométrico, permitiendo a los investigadores observar sus simulaciones y cálculos; ver lo no visible.

Ultimo paso en la recuperación de información

Recolección de Información
Búsqueda
Filtrado
Visualización

Toda interfaz debe presentar 4 pasos, lo cuales se convierten en un ciclo:

 

Human-Computer Interaction Lab (HCIL), University of Maryland

http://www.cs.umd.edu/hcil/

 







 

UDLAP