Royal Mary Jane 2 Flats Velvet Womens Blue Robbin Dressy ZADIE Casual Cape Ballet wSRqHxn1

Article (PDF Available)  · January 2011 with887 Reads
Abstract
Un sistema de recuperación de información se define como el proceso que trata la representación, almacenamiento, organización y acceso de elementos de información [Salton, 83]. Es decir, es un sistema capaz de almacenar, recuperar y mantener información [Kowalsky, 97]. Pero, ¿qué representa el concepto de información?. En este contexto, información puede ser cualquier elemento apto para su recuperación, como por ejemplo texto (incluidos números y fechas), imágenes, audio, video y otros objetos multimedia [Kowalsky, 97]. El principal tipo de objeto recuperable ha sido siempre el texto, debido a su facilidad de tratamiento en comparación con los objetos multimedia, pero recientemente están surgiendo sistemas capaces de recuperar otros tipos de objetos en Internet. De hecho, Google 1 ha incluido un sistema de recuperación de imágenes en su buscador. Existen propuestas formales, como la propuesta por Baeza-Yates [Baeza-Yates, 99], que define un modelo de sistema de recuperación de información como una cuádrupla [D, Q, F, R(q i , d j)] donde: • D es un conjunto de vistas lógicas (o representaciones) de los documentos que forman la colección. • Q es un conjunto compuesto por vistas lógicas (o representaciones) de las necesidades de información de los usuarios. Estas vistas se denominan consultas (queries). • F es una forma de modelar la representación de los documentos, consultas y sus relaciones. • R(q i , d j) es una función de evaluación que asigna un número real al par formado por una consulta q i є Q y la representación de un documento d j є D. Este valor determinará el orden de aparición de los documentos de una consulta q i . Evidentemente la forma de modelar la representación influye de forma notable en el resto de elementos que componen el sistema de recuperación de información. Algunos ejemplos clásicos son el modelo boleano y el modelo vectorial, entre otros. Esta definición está claramente orientada a información textual, donde los documentos serán páginas web u otros objetos (como imágenes) representados en forma textual.
Búsqueda eficaz de in formación en la Web
José A. Olivas
Un sistema de recuperación de información se define como el proceso que trata la representación,
almacenamiento, organización y acceso de elementos de información [Salton, 83]. Es decir, es un sistema
capaz de almacenar, recuperar y mant ener información [Kowalsky, 97].
Pero, ¿qué representa el concepto de información?. En este contexto, información puede ser cualquier
elemento apto para su recuperación, como por ejem plo texto (incluidos números y fechas), imágenes,
audio, video y otros objetos multimedia [Kowalsky, 97] . El principal tipo de objeto recuperable ha sido
siempre el texto, debido a su facilidad de tratam iento en comparación con los objetos multimedia, pero
recientemente están surgiendo sistemas capaces de recuperar otros tipos de objetos en Internet. De hecho,
Google 1 ha incluido un sistema de recuperación de imágenes en su buscador.
Existen propuestas formales, como la propuesta por Baeza-Yates [Baeza-Yates, 99], que define un modelo
de sistema de recuperación de informaci ón como una cuádrupla [D, Q, F, R(qi, dj )] donde:
D es un conjunto de vistas lógicas (o representaciones) de los documentos que forman la
colección.
Q es un conjunto compuesto por vistas lógicas (o representaciones) de las necesidades de
información de los usuarios. Estas vistas se denominan consultas (queries).
F es una forma de modelar la representación de los documentos, consultas y sus relaciones.
R(qi, dj) es una función de evaluación que asigna un número real al par formado por una consulta
q i є Q y la representación de un documento dj є D. Este valor determinará el orden de aparición de
los documentos de una consulta q i .
Evidentemente la forma de modelar la representación influye de forma notable en el resto de elementos
que componen el sistema de recuperación de info rmación. Algunos ejemplos clásicos son el modelo
boleano y el modelo vectorial, entre otros. Esta definición está claramente orientada a información textual,
donde los documentos serán páginas we b u otros objetos (como imágenes) representados en forma textual.
Recientemente se ha comenzado también a tener en cuen ta al usuario, debido a la aparición de Internet y a
las nuevas posibilidades que plantea. Como se verá posteriormente, la forma tradicional de determinar la
satisfacción del usuario con una búsque da va unida al concepto de relevancia. Pero este concepto está
inherentemente influido por la subj etividad del usuario. Según Karen Spark Jones, la recuperación trata
con dos elementos “inaccesibles”, la necesidad de info rmación que el usuario tiene y el contenido de la
información que el sistema le proporci ona, y la relación entre ambas, refl ejada en el grado en el que un
documento es relevante al usuario [Spark Jones, 99]. Este planteamiento centrado en la figura del usuario
ha fomentado la aparición de nuevos sistemas de recuperación de información. Este tipo de sistemas
intentan conocer los intereses de sus usuarios para adelantarse a sus necesidades de información. Otra
tendencia es la aparición de sistemas cola borativos para la recuperación de información.
1. Recuperación de información vs recuperación de datos.
La principal diferencia radi ca en la utilización en los sistemas de recuperación de datos de un lenguaje con
una estructura y semántica precisas. Por tanto, un sistem a de recuperación de datos intenta recuperar todos
los objetos que satisfacen claramente unas condici ones definidas expresadas mediante una expresión
regular o una expresión del álgebra relacional [B aeza-Yates, 99]. Al estar los datos perfectamente
estructurados y definidos por una se rie de atributos (como sucede en las bases de datos relacionales) es
posible utilizar un lenguaje de definición de lo que se quiere recuperar, como es SQL (Structured Query
Language).
1 http://www.google.com]
Sin embargo, para un sistema de recuperación de in formación, el objeto recuperado puede no adaptarse de
forma exacta a las peticiones de búsqueda. La razón fundamental es que la información que gestiona un
sistema de recuperación de información está en lengua je natural, sin estructurar, por lo que puede ser
semánticamente ambigua. Este es uno de los princi pales problemas que presentan, ya que tratan de
interpretar la relevancia de un documento ante una consulta.
2. Proceso de recuperación de información.
El proceso de recuperación de información desde el punt o de vista del usuario consiste en realizar una
pregunta al sistema y obtener un conjunto de documentos. Pero es necesario una serie de procesos previos
y diferenciados para su correcto funcionamiento. Existe n una serie de procesos necesarios en todo sistema
de recuperación de información, que son los siguientes:
1. Proceso de indexación
2. Proceso de consulta
3. Proceso de evaluación
4. Proceso de retroalimentación del usuario
Estos procesos son los clásicos en todo sistema de recuperación de información. Esta clasificación no está
cerrada, sino que dependiendo del sistema de recupe ración y de sus mecanismos de funcionamiento se
pueden distinguir nuevos procesos. Los sistemas que utilicen estructuras de conocimiento adicionales a los
índices de términos clásicos suelen tener procesos adicionales encargados de construir, mantener o
actualizar dichas estructuras. Por ejemplo, en los si stemas de recuperación de información basados en la
utilización de perfiles de us uario se puede distinguir un nuevo proceso denominado proceso de
construcción y actualización del perfil de usuario. Es te proceso almacena los términos que representan las
preferencias de los usuarios con la finalidad de mejorar el comportamiento del sistema en futuras
consultas.
Para que el proceso de recuperación pueda realizar se es necesario que exista una base de datos que
contenga la información de los objetos que el sistema es capaz de recuperar. Si un objeto no esta en esta
base de datos no podrá ser recuperada . Esta base de datos contiene una representación de los objetos
recuperables, y no los objetos en sí mismos. Los obj etos se representan en algún mecanismo que permita
su modelado, típicamente indexando un conjunto de términos relevantes del mismo, que puede ser un
subconjunto o la totalidad de los términos del documento. Los SRI poseen mecanismos que permiten
introducir un nuevo objeto en la base de datos, o bien utilizan mecanismos automáticos que se encargan de
explorar el espacio de búsqueda (típicamente Internet) introduciendo los nuevos documentos.
2.1. Proceso de indexación.
Los algoritmos suelen seleccionar como documentos relevantes aquellos que poseen los términos que
forman la consulta del usuario. Por tanto, es neces aria alguna forma de representación que permita
determinar la existencia o no de estos términos en el documento.
Una primera posibilidad consiste en almacenar los objet os y buscar en cada uno de ellos la existencia o no
de los términos. Este planteamiento hoy por hoy es i nviable debido a la enorme cantidad de información
que es necesario manejar para convertirse en un sistem a eficaz. Por tanto, es necesaria la utilización de
unas estructuras que almacenen información sobre lo s objetos y que permitan acelerar las búsquedas.
Estas estructuras se denominan índices.
Normalmente, los documentos suelen ser preprocesados antes de ser indexados para reducir el número de
términos y por tanto mejorar la eficiencia de la re cuperación. Por el contrario, se pierde información sobre
los documentos lo que conlleva una serie de limitaciones a la hora de recuperarlo.
2.2. Preprocesado de documentos.
Los algoritmos clásicos utilizados en el paso previo a la indexaci ón son los siguientes:
1) Eliminación de signos de puntuación : se suelen eliminar los acentos, comas, puntos y demás signos de
puntuación para tratar los términos de forma uniforme. Este proceso tiene el inconveniente de que se
pierde esta información y no se podr án utilizar signos de puntuación en las consultas de los usuarios.
2) Eliminación de palabras prohibidas (stop words): todos los idiomas tienen un conjunto de palabras de
frecuente aparición que se utilizan para garantizar la concordancia sintáctica de las frases. Estas
palabras no aportan ningún significa do a un documento, sino que solo se utilizan para segu ir las reglas
del idioma. Este es el caso de la s preposiciones, conjunciones, determinantes, etc. A la hora de
indexar, suele existir una lista que contiene esta s palabras, denominada stoplist, y que sirve como
referencia para excluir pala bras a la hora de indexar.
3) Stemming o lematización: Los algoritmos de lematización consisten en obtener la raíz de una palabra,
denominada raíz o stem, ignorando a la hora de i ndexar las múltiples variaciones morfológicas que
puede tener. En la mayoría de los casos la raíz será una palabra sin significado, por ejemplo, la raíz de
“plaza” y “plazoleta” sería “plaz”. Normalmente se suel e aplicar para eliminar el sufijo de una palabra,
sin aplicarse al prefijo. Las premisas en las que se basa son que la raíz relaciona el significado del
concepto con la palabra, y que los sufijos introducen ligeras modificaciones del concepto o que se
utilizan para propósito s sintácticos. El objetivo original de la lematización fue mejorar el rendimiento
y reducir el número de palabras que un sistema tenía que almacenar para consumir menos recursos del
sistema.
Otra de sus características es que permite aumentar el recall de la recuperación a costa de una
reducción en la precisión. Es decir, se recuperan pa labras relacionadas conceptualmente al tener la
misma raíz y por tanto se obtiene un conjunto más rico de términos, evitándose así perder términos
potencialmente relevantes. Pero este fenómeno con lleva riesgos en la precisión de la recuperación,
debido a que los lenguajes naturales no son regulares en sus construcciones. Es posible que se indexen
juntas palabras no relacionadas co nceptualmente al tener la misma raíz, y por tanto no sea posible
diferenciarlas a la hora de la r ecuperación. Por ejemplo, podría suceder que se indexen bajo la raíz
“pec” los términos “pecado” y “peces”. Este probl ema se denomina sobrelematización. También es
posible que el algoritmo de lematización falle y obtenga raíces distintas para dos palabras
conceptualmente similares. A esta situación se la denomina bajolematización. Este caso se podría dar
por ejemplo con dos variaciones del verbo “tener”, obteniendo raíces distintas (“tene” y “teng”) para
las palabras “tenemos” y “tengo”, inde xándose bajo raíces distintas.
Otro problema es que este método es dependiente de l idioma, y por lo tanto sería necesario a la hora
indexar utilizar un algoritmo específico para cada id ioma. Esta situación lleva asociado la utilización
de un algoritmo para determinar el idioma. Además, este tipo de algoritmos funcionan bien con
idiomas que tengan una sintaxis no excesivamente co mplicada, como el inglés, pero en cambio fallan
mucho más con otro tipo de idiomas más complejos, como el castellano. Por tanto, la lematización
difiere dependiendo de los distintos idiomas.
Hay diferentes técnicas utilizadas en este tipo de algoritmos, destacando la utilización de reglas y
diccionarios. Existen multitud de algoritmos de lema tización basados reglas, la mayoría de ellos en
inglés, de los cuales el más senc illo es el lematizador S [Hull, 96], que se limita a remover las
terminaciones plurales. El algoritmo de lematización más famoso es el algoritmo de Porter [Porter,
80], y elimina cerca de 60 terminacione s en cinco etapas. En cada paso se elimina un tipo concreto de
terminación corta eliminándolo sin más o transformando la raíz. También cabe destacar los algoritmos
de Lovins [Lovins, 68] y Paice [Paice, 90]. Los algoritmos basados en diccionario, como KSTEM
[Krovetz, 93], intentan eliminar los errores anteri ormente descritos aumentan. Se estima que se puede
aplicar la lematización correctamente al 40% de las palabras, al 20% no se puede (“universidad” y
“universo” por ejemplo), y en el resto de los casos la exactitud de la lematización depende del
contexto.
La efectividad de la lematización ha sido discutida y no existe un consenso sobre la misma, habiendo
diferentes estudios en contra de su utilización, mien tras que otros autores como Krovetz [Krovetz, 93]
afirman que esta técnica mejora el recall e incluso la precisión cuando los documentos y consultas son
cortas.
Por último es necesario nombrar los n-gramas. Lo s n-gramas ignoran el aspecto semántico de las
palabras y son algoritmos que se basan en que dos palabras relacionadas semánticamente suelen
contener los mismos caracteres.
Jane Blue Robbin Casual Ballet Cape Velvet Mary Womens Dressy Flats Royal ZADIE 2
4) Eliminación de documentos duplicados: Se estima que en Internet existen muchas páginas Web
duplicadas, aproximadamente el 30%. La eliminaci ón de documentos duplicados permite mejorar el
rendimiento y reducir espacio de almacenamiento. Pero la tarea de identificar documentos similares no
es trivial, ya que pueden darse diferentes situacion es que compliquen esta labor, como por ejemplo, el
formato del documento. Dos documentos pueden ser idén ticos en contenido pero estar en diferentes
formatos (html, postcript, pdf o word).
Una de las posibles formas de detectar la similitud de los documentos consiste en convertir todos los
documentos a un mismo formato, normalmente texto plano, utilizando alguna herramienta de
conversión estándar. Cada documento se divide en una colección de partes o trozos formados por
pequeñas unidades de texto (por ej emplo líneas o sentencias). Después, a cada trozo se le aplica una
función hash para obtener un identificador único. Si dos documentos comparten un número de trozos
con igual identificador por encima de un umbral T, entonces se consideran documentos similares.
2.3. Estructuras de indexación clásicas.
En los primeros sistemas, los índices se limitaban a c ontener un conjunto de palabras clave representativos
del documento, pero actualmente se utiliza un mayor número de términos del documento. Normalmente
en la indexación no se utilizan todos los términos (aunque hay excepciones), sino que se suelen utilizar un
subconjunto de términos y se almacena aparte el do cumento completo en repositorios o caches si es
posible o simplemente almacenar su ubicación, normalmente la URL (Universal Resource Locator) de
algún documento de Internet.
La estructura clásica utilizada en la indexación de documentos es el archivo invertido, formada por dos
componentes: el vocabulario y las ocurrencias (véase Figura 2.1). El vocabulario es el conjunto de todas
las palabras diferentes del texto. Para cada una de las palabras del vocabulario se crea una lista donde se
almacenan las apariciones de cada palabra en un docum ento. El conjunto de todas estas listas se llama
ocurrencias [Baeza Yates, 99]. Este mecanismo no es el único, sino que existen otros muchos como los
ficheros de firmas, basados en técnicas hash , árboles PAT y grafos.
Flats Ballet ZADIE Robbin Casual Womens Dressy Royal Cape Velvet Blue 2 Mary Jane
Ejemplo de fichero inverti do (Fuente: [Frakew, 92])
3. Herramientas de búsqueda en Internet.
Eddie Mens Chukka Bauer Chukka Eddie K Beige Beige Natural Bauer Eddie 4 4 Mens Natural K vvFArq
Hoy en día en Internet existen tres tipos principales de herramientas utilizadas en la búsqueda web: los
directorios, los buscadores y los meta-buscadores. El cu arto tipo de herramienta, los agentes de búsqueda,
depende para su viabilidad de la implantación de la Web Semántica.
3.1. Directorios.
Los directorios o índices temáticos son listados de recursos organizados según una jerarquía de temas. La
jerarquía sigue una estructura de árbol, de forma que vaya desde las categorías más generales hacia
categorías más específicas conforme bajamos en la estructura. Tradicionalmente, los documentos que
forman parte de este tipo de sistemas son clasifica dos por indexadores humanos o por los propios autores
de la página.
Recientemente, están comenzando a aparecer algoritmo s automáticos de clasificación que realizan esta
tarea de forma automática. Por ejemplo, Kim [Kim, 03 ] propone un algoritmo que utiliza la lógica difusa
para obtener a partir de una colección de documento s una jerarquía. Otros mecanismos de categorización
automática son TAPER ( a Taxonomy And Path Enhanced Retrieval system ) desarrollado por IBM. Este
algoritmo construye una taxonomía en forma de árbol formada por términos que sean buenos
discriminantes de la temática del documento, agrupa dos por clases. Posteriormente, se evalúa cada
documento para obtener los términos discriminantes y posteriormente se someten a un proceso de
evaluación para determinar a que clase corresponde el documento. Una vez determinada la clase, ese
documento se asocia con el término que describe la cl ase. Este algoritmo se mejoró mediante la utilización
de la información que proporcionan los enlaces de cada documento.
Los directorios además suelen permitir también búsquedas por palabras clave. La ventaja de este
mecanismo reside en que se pueden restringir las búsquedas a categorías particularmente relevantes,
pudiéndose de esta forma mejorar la relevancia de los documentos obtenidos.
Otro intento de automatizar la clasificación de los documentos dentro de un índice temático es el sistema
OpenGrid [Lifantsev, 98]. OpenGrid utiliza las opiniones y comentarios de cientos de navegantes web
sobre las páginas para clasificar los documentos de la Web. Para ello los creadores de las páginas web
introducen en el enlace informaci ón acerca de la categoría y ranking del documento. De esta forma,
juntando toda la información refe rente a esa página, se puede obtener de forma distribuida una
categorización y ranking bastante aproximado.
Evidentemente, OpenGrid solo es una propuesta, ya que necesita que los creadores de las páginas web se
pongan de acuerdo para incluir esta información en los enlaces que introducen en sus páginas.
Los directorios más conocidos son Yahoo 2 y el Open Directory Project DMOZ3.
3.2. Buscadores.
Los buscadores o motores de búsqueda son sistemas que indexan los documentos de Internet sin seguir
una estructura jerárquica como hacen los director ios. Este tipo de sistemas poseen unos programas
especializados en recorrer la web de forma automática denominados crawlers (también llamados robots,
spiders , wanderers, walkersBlue Mary Womens Robbin Dressy ZADIE Cape Ballet 2 Jane Casual Velvet Royal Flats oknowbots), que indexan los documentos que no contiene su base de datos.
Normalmente este tipo de sistemas cubre un mayor número de documentos que los directorios debido al
proceso de automatización de indexación. Además, suel en estar mejor actualizados que los directorios
2 http://www.yahoo.com
3 http://dmoz.org
debido a que cada cierto tiempo se comprueba si el documento referenciado no ha sufrido modificaciones.
La forma de buscar documentos en este tipo de sistem as consiste en realizar una consulta introduciendo un
conjunto de términos relacionados con lo que el usuario busca.
3.2.1. Breve historia de los buscadores web.
El primer buscador apareció en 1990 (todaví a no existía la Web) y su nombre era Archie. Se conectaba a
los servidores mediante FTP, descargaba el listado de archivos y creaba la base de datos basándose
solamente en los nombres de los documentos, sin tene r en cuenta el contenido, por lo que indexaba todo
tipo de archivos.
Interfaz de búsqueda de Archie
Poco después apareció el protocolo Gopher , diseñado específicamente para el almacenamiento y
recuperación de información a través de Internet, siendo el primer sistema que indexó el contenido de
archivos de texto plano. Pronto ad quirió gran popularidad (incluso hoy en día siguen existiendo algunos
servidores Gopher , aunque son pocos los navegadores que soportan el protocolo), sobre todo gracias al
desarrollo de dos aplicaciones que permitían realizar búsquedas de documentos sobre este tipo de
servidores: Veronica y Jughead.
En agosto de 1991 Tim Berners-Lee, fundador de la Web, crea el primer sitio web.
En 1993 se desarrolló el primer robot web, llamado World Wide Web Wanderer . La definición de robot
web según www.robotstxt.org es: “Programa que automáticamente navega por la estructura de
hipertexto de la Web recuperando un documento y, recursivamente, aquellos documentos hacia los que el
primero tiene enlaces”.
El primer buscador web propiamente dicho fue Aliweb . Su robot accedía a los servidores y preguntaba por
un archivo especial donde el responsab le del servidor especificaba el contenido del mismo, y en base a esa
meta-información construía su base de datos.
Pronto se vio que los buscadores web podían ser un ni cho de mercado a explotar, y con ese fin nació, en
1993, Excite.
En 1994 llega el primer directorio web, Galaxy. Pero el directorio más importante de todos ha sido
Yahoo! . Empezó como un entretenimiento de dos compañeros de clase, construyendo una página web con
enlaces a sus páginas favorit as, de las que se ofrecía una pequeña descripción. Tal fuel el éxito que en
1995 se creó la empresa Yahoo! con una inversión inicial de dos millones de dólares.
También en 1994 aparecieron WebCrawler , el primer buscador que indexaba el contenido entero de los
documentos, y Lycos, que introdujo las consultas con aproxim aciones léxicas y llegó a tener la base de
datos más grande de entonces (incluso fue anunciado por televisión).
A finales de 1995 ya existían más de una docena de buscadores importantes, fue entonces cuando se hizo
público el primer meta-buscador: MetaCrawler. Nació con la intención de ofrecer una interfaz común para
la consulta de varios motores de búsqueda a la vez obteniendo una única lista de resultados (ver sección
sobre meta-buscadores más adelante).
En 1995 AltaVista ofrecía la búsqueda de documentos multimedia.
A partir de entonces han sido numerosos los motores de búsqueda, como también numerosas han sido las
fusiones comerciales, compras y ventas entre ellos: Inktomi , Infoseek, Ask.com (antes Ask Jeeves), Live
Search [36] (antes MSN Search), Northern Light, Exalead , Gigablast o WiseNut .
En 1996, Larry Page y Sergey Brin comenzaron a desarrollar BackRub , un buscador que tenía en cuenta
los enlaces que apuntaban a un documen to a la hora de establecer su posición en la lista de resultados.
Mientras BackRub iba ganando fama debido a su novedoso método de ranking, sus autores siguieron
perfeccionándolo hasta que en el año 2000 presentaron Google como “un prototipo de un motor de
búsqueda a gran escala que hace un us o intensivo de la es tructura de hipertexto... diseñado para recoger
e indexar la Web eficientemente y producir muchos más y mejores resultados que los sistemas existentes”.
Google ha experimentado un crecimiento increíble, llegando a convertirse en una de las mayores empresas
internacionales y ofreciendo multitud de servicios.
3.2.2. Medidas de Evaluación: Precisión y Recall.
La capacidad de un sistema de recuperación y organizac ión de la información para proveer de documentos
relevantes se mide con una métrica llamada Recall o Exahustividad , que se define la proporción de
material relevante recuperado, del total de los documentos que son relevantes en la colección de
documentos, independientemente de que éstos, se recuperen o no.
Por supuesto, cualquier sistema de recuper ación de información podría conseguir una Exhaustividad del
100% simplemente devolviendo todos los elementos de la colección. Por ello se utiliza también otra
métrica, llamada Precisión , que se define como la proporción de material recuperado realmente relevante,
del total de los documentos recuperados.
A continuación podemos observar de manera gráfica un ejemplo de la representación de estas dos
métricas:
Muchos sistemas de recuperación y organización de la información no hacen afirmaciones explícitas sobre
la relevancia o no de un documento, sino que ordenan la colección de mayor a menor relevancia respecto a
una consulta. Para un mismo sistema y una misma consulta, Casual Royal ZADIE Robbin Dressy Jane Mary Womens Flats Blue Ballet Velvet Cape 2 Recall y Precisión son inversamente
proporcionales. En efecto, si se recuperan los n documentos de mayor relevancia, tendremos una alta
Precisión y bajo Recall pa ra valores pequeños de n , así como una baja Precisión y alto Recall para valores
grandes de n . Para reflejar este hecho se utilizan frecuentemente las curvas Precisión-Recall, que
muestran el valor de precisión para distintos niveles de Exhaustividad o recall:
En la figura, pueden observarse las curvas Precisión-Recall de dos sistemas de recuperación de
información: Uno de ellos tiene mejor Precisión para valores muy pequeños o muy grandes de recall,
mientras que el otro es mejor en los valores intermedio s de Recall . No es fácil, a la vista de la gráfica,
llegar a una conclusión sobre la superioridad de uno u otro. Por ello en ocasiones se utilizan métricas que
resumen toda la curva para una consulta en un solo valor. Un ejemplo de esto s valores es la llamada
Precisión-R que se define de la siguiente manera: Si R es el número total de documentos relevantes para
una consulta, llamamos Precisión-R a la Precisión cuando el número de documentos recuperados es R.
Otra alternativa es combinar Recall y Precisión en una sola métrica, que consista en la media armónica de
ambas.
El mayor inconveniente que presenta este tipo de herramientas son los denominados problemas de
Precisión y Recall . Lawrence y Giles [Lawrence, 99], en su trabajo de evaluación de los buscadores,
identificaron 5 problemas principale s que con frecuencia presentan:
La cobertura de los buscadores decrece : Los sistemas de indexación no son capaces de contemplar el
rápido crecimiento de la Web, quedándose una gran parte de ella fuera de los índices de los principales
buscadores, y por tanto, no es accesible para los usuarios que utilicen los buscadores.
Acceso desigual : Existen tendencias a la hora de indexar las páginas debido al rastreo de los
buscadores en busca de enlaces a otras páginas que indexar. Por ejemplo, será más probable que se
indexen páginas que reciben muchos enlaces de otra s páginas (sitios populares). Así mismo, es más
probable que se indexen sitios comerciales en vez de sitios educacionales.
Enlaces rotos : los crawlers verifican cada cierto tiempo si la página que indexan no se ha movido.
Pero esta comprobación, debido al elevado número de documentos que indexan, requiere de un cierto
tiempo, durante el cual pueden producirse inconsistenc ias debido a que una página se cambie de sitio o
que desaparezca.
Baja utilización de meta datos : muchos buscadores utilizan los metadatos definidos en la página web
como fuertes indicadores a la hora de indexar. Si n embargo, muy pocas páginas utilizan los meta-tags
de HTML que cubren esta función como los ta gs “Keywords” y “description” (solo un 34% según
Lawrence y Giles). Existen otros mecanismos que in corporan un conjunto de meta-etiquetas estándar
en las páginas web que ayudan a determinar distin tos parámetros del documento, como por ejemplo
Dublín Core, pero su utili zación es todavía muy baja.
Distribución de la información : hay una gran variedad de información en la Web y además su
distribución es desigual. Por ejemplo, existe un mayor número de sitios de carácter comercial frente a
los de carácter educativo o científico.
Las características que los usuarios mejor valoran de este tipo de herramientas son las siguientes:
Fácil de utilizar
Carga y repuesta rápidas
Fiabilidad y precisión de los resultados
Información organizada y actualizada
3.2.3. Operadores de búsqueda.
La facilidad de uso es uno de los principales factores a la hora de utilizar un buscador. Sin embargo, este
tipo de sistemas suele incorporar una serie de opciones avanzadas que permiten especif icar distintos filtros
aplicados a los resultados. Estas características se su elen implementar mediante formularios de búsqueda
avanzados donde se indican varias opciones, o mediante operadores de búsqueda. Los operadores de
búsqueda clásicos son:
Operadores lógicos: Este tipo de operadores son los operadores clásicos boléanos. Para simplificar, y
debido a la dificultad que implica la utilización de estos operadores para usuarios noveles, se suelen
indicar pantallas de opciones avanzadas con las opc iones ‘incluir todos los términos’ en vez del
operador AND, ‘incluir alguno de los términos’ en luga r del operador OR y ‘excluir el termino’ en vez
del operador NOT. Suelen utilizarse los siguientes:
- AND, “+” o “&”: indica que la página debe contener obligatoriamente los términos que están
unidos por este operador.
- OR: devuelve los documentos que contienen al menos uno de los dos términos que une el
operador.
- XOR: este operador es menos común, e indica al buscador que devuelva los documentos que
tienen uno de los términos, pero que no tienen los dos.
- NOT, “-“ o “!”: este operador a dife rencia de los anteriores es una rio, se aplica a un solo término y
no implica dos términos como los operadores bina rios anteriores. Excluye los documentos que
tienen el término al que se refiere el operador.
Operadores posicionales o de proximidad: afectan a la posición de los términos en el documento y las
relaciones de las palabras de la consulta atendi endo normalmente a criterios de proximidad u orden.
Los más usuales son:
- NEAR, “~”, “[]”: Se sitúa entre dos términos de la consulta para in dicar que recupere los
documentos que contengan ambos términos, pe ro que no estén separadas por un número
determinado de palabras. Este número oscila en tre 25 palabras o 100 caracteres, aunque a veces
este número es configurable.
- FAR: es el operador contrario a NEAR y recupera documentos en las que debe haber una distancia
mínima entre los términos.
- ADJ: Se utiliza aplicado a dos términos y rec upera solo los documentos que poseen los dos
términos y además están juntos en el doc umento. El orden no se tiene en cuenta.
- FOLLOWED BY: Es un operador pare cido a NEAR pero define muy cl aramente el cual debe ser
el orden de los términos.
- BEFORE: Funcionamiento parecido al operador AND, pero teniendo en cuenta el orden de
aparición en el documento.
Existen distintas variantes o modificaciones que se les pueden aplicar a estos operadores dependiendo
de las características propias de l lenguaje de consulta. Por ejemplo, existen modificadores de orden
para los operadores ADJ, NEAR y FA R, que consiste en añadir delante del operador la letra O de
orden (OADJ, ONEAR y OFAR), de es ta forma si se utiliza por ejemplo coches OADJ carreras sólo
recuperará los documentos referidos a coches de carre ras y no a carreras de coches. Otro modificar que
afecta a NEAR y FAR es el de la distancia entre pa labras, que se puede indicar mediante el parámetro
“/”, por ejemplo NEAR/3 quiere decir que la máxima diferencia en palabras entre los términos es 3
palabras. También se puede utili zar esta característica con ADJ, para indicar el número exacto de
palabras que debe haber entre los dos términos . No obstante, existen algunos otros operadores
dependiendo del buscador, como por ejemplo A WITHIN 10 BEFORE B que indica que entre los
términos A y B no debe haber más de 24 caracteres . Otro operador sería WITH o SENT que indica
que dos términos deben aparecer en la misma sentencia, etc.
Operadores de exactitud: este tipo de operadores se utiliza para indicar que lo que se busca es literal, y
normalmente suele implementarse mediante la u tilización de las comillas ‘”’. Sin embargo, existen
otros operadores como PHRASE que se utiliza de forma similar. Este tipo de operadores son muy
útiles a la hora de buscar información concreta como por ejemplo la búsqueda de artículos por título, si
se conoce.
Operadores de truncamiento : se aplican una serie de caracteres especiales en la consulta que se
utilizan como comodines. Este tipo de operadores son muy útiles cuando queremos recuperar no sólo
los documentos con un término concreto, sino también queremos recuperar los documentos que
posean términos con variaciones mo rfológicas de ese texto. Normalmente se suelen utilizar como
operadores los caracteres “*”, “?” o “$”.
Operadores de campo : Muchos buscadores permiten especificar mediante palabras clave concreta
distintos comportamientos o filtros a la hora de r ealizar la búsqueda. Por ejemplo, se permite indicar
los términos del título (normalmente mediante una eti queta del estilo title), el dominio, si tiene enlaces
a una web concreta, con restricci ones de tamaño, fecha, tipo, etc.
Básicamente estos son los operadores principales. La sintaxis del operador depende de la implementación
concreta del buscador. Así mismo, hay que nombrar también otros operadores importante como son los
paréntesis, utilizados para agrupar términos y operador es, y otro curioso como es el operador tesauro “@”
que reemplaza el término por alguno simila r extraído de un tesauro (un sinónimo).
3.2.4. Arquitectura de los buscadores.
Se pueden distinguir dos tipos de buscadores: de propósito general y de propósito especial. Los
buscadores de propósito general ab arcan páginas de toda la web sin centrarse en ningún dominio
específico. Los buscadores de este tipo más conocidos son Google, Altavista, Excite, Lycos y HotBot . Por
el contrario, los buscadores de propósito especial se especializan en documentos pertenecientes a un
dominio concreto como puede ser una temática de terminada o los documentos de una organización.
Algunos ejemplos de este tipo de buscadores son Citeseer 4 que se centra en artículos de investigación y
Medical World Search5 que se centra en información sobre medicina.
Las distintas herramientas utilizadas para buscar en la Web presentan diferentes arquitecturas dependiendo
de las características propias. Sin embargo, suelen existir un conjunto de componentes básicos. No
obstante, las implementaciones de la mayoría de bus cadores comerciales no están disponibles al público, a
no ser que sean de carácter experimental. Afortunadamente, existen algunas excepciones que a
continuación se describen.
3.2.4.1. Arquitectura básica de un motor de búsqueda web.
Los cinco componentes princi pales de motor de búsqueda web son: el crawler (o robot), el generador del
índice, el índice (base de datos), el motor de búsqueda propiamente dicho y la interfaz.
4 http://citeseer.ist.psu.edu
5 http://www.mwsearch.com
Arquitectura de un motor de búsqueda
3.2.4.1.1. Crawler
Un crawler puede definirse como: “Programa que automáticamente navega por la estructura de
hipertexto de la Web recuperando un documento y, recursivamente, aquellos documentos hacia los que el
primero tiene enlaces” . Es decir, va creando un catálogo de documentos que luego pasarán a ser
procesados para su indexaci ón en la base de datos.
Arquitectura de un crawler sencillo
En ocasiones la visita de un crawle r puede generar inconvenientes técnicos en el servidor, y puesto que no
decide por sí mismo qué documentos debe o no rec uperar, puede acceder a zonas del servidor cuyo
responsable desea que no lo sean. Para evitar es tos problemas los crawlers pueden hacer uso del
Protocolo de exclusión de robots ”. Según la especificación: “No es un estándar oficial... ni pertenece a
ninguna compañía comercial. No obliga a nadie y no ga rantiza que todos los robots lo use. Ha de
considerarse como una facilidad que los autores de robots ofrecen a la comunidad para proteger los
servidores web de accesos indeseados”. El método es sencillo, sólo hay que colocar en el servidor un
archivo llamado robots.txt , donde el responsable del servidor especifica una serie de directivas indicando
los documentos o directorios que el crawler no debe te ner en cuenta, así como otras de índole técnico. Si
el archivo no existe, el crawler asume por defecto que puede acceder a todo el contenido.
3.2.4.1.2. Generador del índice
Su función es realizar el procesado de los documentos pertenecientes al catálogo e incluirlos en la base de
datos (índice). El proc esado consiste en establecer unos parámetros de frecuencia de aparición de cada uno
de los términos que aparecen en cada uno de los doc umentos (tales parámetros varían según el tipo de
modelo utilizado) para gene rar unos índices sobre los cuales realizar las búsquedas.
3.2.4.1.3. Base de datos
En la base de datos, o índice, el buscador almacen a la información de los documentos recuperados por el
crawler mediante un algoritmo de indexado. Cuando se realiza una búsqueda realmente no se está
consultando la Web sino el índice, que consiste en una representación parcial y des actualizada de la Web.
Hay varios tipos de índice s, siendo el más común el archivo invertido.
3.2.4.1.4. Motor de búsqueda
Recoge la consulta introducid a por el usuario, la preprocesa si es necesario y la contrasta con los datos
contenidos en el índice, obteniendo de esta manera la lista de resultados ordenados según la relevancia de
cada uno documento a la consulta realizada.
3.2.4.1.5. Interfaz de búsqueda
En ella el usuario expres a su consulta mediante términos y operadores sobre dichos términos. Cuando la
consulta es enviada al motor de búsqueda, ésta se examina y manipula para poder ser contrastada con los
datos contenidos en la base de datos.
Tras obtener los documentos relevantes a la consu lta éstos son ordenados un algoritmo de ranking acorde
al modelo del índice, de forma que los documentos más relevantes para la consulta realizada aparezcan en
primer lugar.
3.2.4.2. Arquitectura de Altavista.
Un buen representante de la arquit ectura típica de un buscador en la Web es la arquitectura de Altavista
(véase Figura). Baeza-Yates [Baeza-Yates, 99] describe la arquitectura de Altavista como una
arquitectura centralizada. Se le aplica este calific ativo debido a que utiliza un proceso de rastreo e
indexación de la web centralizado. Este rastreo de la web en busca de páginas web lo realiza el
componente denominado Crawler , el cual se encarga de enviar peticiones a los servidores Web remotos
para obtener las páginas Web. Una vez que las tiene las examina en busca de nuevos enlaces que recorre.
El resultado del proceso de rastreo es un listado de las direcciones de las páginas web que el Crawler ha
encontrado. Este listado se le pasa al indexador que es el encargado de almacenar en el índice los términos
relevantes del documento.
Arquitectura de varios busca dores Web: Altavista, Harvest y Google (Fuente: [Lam, 01])
Altavista se considera formado por dos partes:
1. Una encargada de interactuar con el usuario. Su función es recibir las peticiones de los usuarios y
de resolverlas. Esta formada por la Inte rfaz de Usuario y el motor de consultas.
2. Otra parte encargada del proceso de rastreo e indexación de los documentos Web. Esta parte la
componen el indexado r y el crawler.
Esta arquitectura presenta un par de problemas. El primero es consecuencia de la utilización de un único
componente encargado de recoger las pe ticiones de los usuarios, lo que provoca la saturación de las líneas
de comunicación, así como una sobrecarga en los se rvidores. El segundo problema radica la centralización
del proceso de rastreo e indexación. Es te planteamiento tiene problemas para manejar el crecimiento de la
Web, debido al enorme volumen de datos que tienen que manejar el indexador y el crawler.
3.2.4.3. Arquitectura Harvest.
La arquitectura Harvest [Bowman, 94] utiliza una arquitectura distribuida para recoger los datos y
almacenarlos, que es más eficiente que la arquitectura de Altavista . El principal inconveniente es que
Harvest requiere la coordinación de varios servidores Web. Para tratar de resolver los inconvenientes de
Altavista , debido a la saturación provocada por los crawlers, esta arquitectura introduce dos elementos
principales: recogedores ( gatherers ) e intermediarios (brokers) como puede verse en la figura. El
recogedor se encarga de recopila r y extraer información de indexado de uno o más servidores Web de
forma periódica. Los intermediarios aportan el mecanis mo de indexado y la interfaz de consulta a los
datos recopilados. Los recogedores e intermediarios se comunican entre sí para intercambiar información
de indexado, así como para balancear la carg a en el tráfico de la red [Baeza-Yates, 99].
3.2.4.4. Arquitectura de Google.
El nombre de Google viene de la palabra googol, que significa 10100. Las principales razones del éxito
actual de Google son su enorme base de datos (la actu al hoy en día) que indexa millones de documentos
de la web, su algoritmo de evaluación basado en la estructura de la Web (PageRank) y su eficiencia al
estar principalmente implementado en C/C++ sobre plataformas Solaris o Linux.
Google utiliza varios Crawler distribuidos para descargar las páginas Web. La lista de páginas que hay que
recuperar se la proporciona el servidor URL. Las páginas web recuperadas se pasan al Servidor de
almacenamiento, que se encarga de comprimir y almacen ar las páginas recibidas de los Crawlers en un
repositorio.
Una vez almacenadas las páginas en el repositorio, ti enen que ser indexadas. Esta labor la realiza el
indexador, que obtiene los documentos del repositori o descomprimiéndolos y analizándolos. Extraer de
cada documento las ocurrencias de cad a palabra y construye un registro de hits, que en definitiva son las
ocurrencias de cada palabra. Cada registro de hits contiene la palabra, la posición en el documento, una
aproximación del tamaño de la fuente y la capita lización. A continuación el indexador distribuye el
registro entre un conjunto de “barrile s” y crea un índice parcial ordenado. Además, el indexador extrae los
enlaces de cada página junto c on el texto asociado y los almacena en el fichero de anclas.
A continuación el componente URL Reso lver lee este fichero de anclas y extrae los enlaces, convirtiendo
los relativos a enlaces absolutos. El texto que de scribe el enlace es asociado con el documento y
almacenado en los barriles. Además, genera una base de datos de enlaces compuesta por dos
identificadores de dos documentos (origen y destino del enlace). Esta base de datos es la fuente utilizada
por el algoritmo PageRank.
Por último los clasificadores ( sorters ) generan un índice invertido a partir de los documentos de los
barriles, así como también se construye un nue vo lexicón que contemple los nuevos documentos.
La resolución de las búsque das utiliza el componente searcher, que se ejecuta en un servidor Web. Para la
evaluación y obtención de los documento s, se utilizan el índice invertido, los barriles, el lexicón y el
resultado proporcionado por el algoritmo PageRank .
3.3. Meta-Buscadores.
Los meta-buscadores son buscadores que no disponen de una base de datos propia que contenga la
indexación de los documentos. Proporci onan una interfaz unificada para consultas a diferentes buscadores.
Por tanto, simplemente se limitan a recibir las petici ones de los usuarios y enviarlas a otros buscadores.
Los resultados que reciben deben ser sometidos a un proceso de clasificación para reunir en un solo listado
los documentos devueltos por multitud de buscadores. Su elen ser más lentos que los buscadores debido a
que siguen un proceso más complejo y elaborados. El problema de los meta-buscadores consiste en
combinar las listas devueltas por otros buscador es de forma que se optimice el rendimiento.
Sin embargo, este tipo de sistemas mejoran algunos de los problemas presentes en los buscadores
tradicionales, como el problema del Recall , aunque sin embargo todavía sufren el problema de la Precisión
[Kerschberg, 01]. Según Kerschberg, la forma de solu cionar el problema de la Precisión se aborda
utilizando 4 mecanismos principalmente: métodos basados en el contenido, colaborativos, de
conocimiento del dominio y basados en ontología. Los mé todos basados en el contenido tratan de obtener
una representación de las preferencias del usuario lo más concretas posibles para posteriormente mejorar
la evaluación de las páginas devue ltas basándose en el contenido del documento y las preferencias del
usuario. Dentro de esta categoría se pueden nombr ar a WebWatcher [Armstrong, 95], WAWA [Shavlik,
98] y WebSail [Chen, 00]. El método colaborativo se basa en la similitud entre los usuarios para
determinar la relevancia de la información. Cabe dest acar Phoaks [Terveen, 97] y Siteseer [Bollacker, 00].
El método basado en el conocimiento del dominio ut iliza la ayuda del usuario y del conocimiento del
dominio de la búsqueda para pr oporcionar una mayor relevancia. Por último, el método basado en
ontología establece una jerarquía entre conceptos que permite concreta r la búsqueda y mejorarla. De este
tipo merece la pena nombrar a WebSifter II [Kerschbe rg, 01], que utiliza una representación en árbol
denominada WSTT (Weighted Semantic Taxonomy-Tree) para representar las intenciones de búsqueda de
los usuarios. También entran en esta categoría On toSeek [Guarino, 99], On2Broker [Fensel, 99] y WebKB
[Martin, 00].
Las principales ventajas de los meta-bus cadores expuestas por Meng son cuatro:
- Incrementa la cobertura de la búsqueda en la Web . Debido a la enorme cantidad de documentos
que contiene Internet, es imposible que un solo buscador indexe la totalida d de la Web. Por tanto,
mediante la combinación de distintos buscador es se consigue cubrir un mayor número de
documentos en las búsquedas.
- Soluciona la escalabilidad de la búsqueda en la Web.
- Facilita la invocación de múltiples buscadores . Permite mediante la utilización de una sola
consulta obtener los documentos más relevantes indexados por múltiples buscadores, lo que evita al
usuario buscar en cada uno de ellos.
- Mejora la efectividad de la recuperación . Al poder consultas a buscadores de propósito especial,
permite obtener de ellos un conjunto más relevantes de documentos, sin sufrir la desviación típica
que produce el elevado número de documentos que indexan los buscadores de propósito general.
Así mismo, según Aslam [Aslam, 01], también pr esentan las siguientes ventajas potenciales:
- Mejora el factor recall: al obtener los resultados de múltiples buscadores puede mejorar el número de
documentos relevantes recupe rados (el factor recall).
- Mejora la precisión: diferentes algoritmos de re cuperación recuperan muchos documentos relevantes
iguales, pero diferentes documento s irrelevantes. Basándose en este fenómeno, en caso de ser cierta
esta teoría, cualquier algoritmo que prime los docu mentos que aparecen en las primeras posiciones
en resultados de distintos buscadores obtendrá una mejora en la recuperación. Este fenómeno se
denomina “efecto coro”.
- Consistencia: los buscadores actuales responden con frecuencia de forma muy distinta ante la misma
consulta transcurrido un tiempo. Si se utilizan dist intas fuentes para obtener los resultados, es de
esperar que la variabil idad se vea reducida favorecida por los buscadores que proporcionan
resultados más estables.
- Arquitectura modular: las técnicas utilizadas en los meta-bus cadores pueden descomponerse en
módulos pequeños y más especializados que pueden realizarse en paralelo de forma colaborativa.
No todo son ventajas en la utilizac ión de los meta-buscadores. Las principales desventajas comentadas por
Meng son:
- La selección de la base de datos: este problema es tá asociado a la selección del buscador que recibirá
la consulta. Se trata de seleccionar los busc adores que devuelvan buenos resultados ante una
consulta concreta. Por ejemplo, la consulta sobr e “fútbol” realizada a un buscador especializado en
literatura científica no tendría demasiado sentido. Pa ra tratar de solucionar este inconveniente, Meng
propone la utilización de medidas que indiquen la utilidad de cada base de datos con respecto a una
consulta dada. Clasifica estos mecanismos en 3 ca tegorías: métodos de representación amplia (rough
representative approaches ), métodos de representación estadística ( Statistical representative
approaches ) y métodos basados en el aprendizaje ( Learning-based approaches ).
- La selección de documentos: una vez seleccionado el origen de los documentos el problema consiste
en determinar el número apropiado de documentos que hay que solicitar. Si se reciben demasiados
documentos el coste computacional para determ inar los mejores documentos y el coste de
comunicación para obtenerlos puede ser excesivo. Meng también establece una serie de mecanismos
que tratan de solucionar este problema divididos en 4 categorías: decisión del usuario (decide el
usuario), asignación por peso (se obtienen mayor número de documentos del que se considere el
mejor buscador), métodos basados en el aprendizaje (s e basa en el pasado para determinar el número
de documentos de cada buscador) y la recuperación garantizada (trata de garantizar la recuperación
de todos los documentos potencialmente útiles).
- Fusión de resultados: el problema consiste en fusi onar los resultados de dis tintos buscadores con sus
propias características y formas de evaluación en un único listado ordenado por relevancia. Además,
existe la posibilidad de que halla documentos repetidos devueltos por distintos buscadores. Se
pueden clasificar las técnicas utilizadas para reso lver este problema en ajuste por similitud local (se
basa en las características del buscador o la sim ilitud devuelta por este) y estimación por similitud
global (se evalúa o estima la similitud de cada documento recuperado con la consu lta original).
Los metabuscadores tienen una serie de particularidades, al tener que reunir en un solo listado los
documentos provenientes de múltiples fuentes, con su s propios criterios de evaluación. Para lograrlo,
Gravano [Gravano, 88] atribuye 3 ta reas principales a los metabuscadores, no presentes ni en los
buscadores tradicionales ni en los direct orios. Estas tareas principales son:
Selección de la base de datos: consiste en elegir los buscadores a lo s que se les enviará la consulta
del usuario.
Traducción de la consulta: debido a que cada buscador posee un lenguaje de consulta
característico, es necesario adapta r cada consulta al lenguaje de consulta del buscador destino.
Combinación de los resultados: se trata de obtener un único listado de resultados.
Arquitectura de componentes software de un meta-buscador (Fuente: [Meng, 02])
Existen multitud de arquitecturas de meta-buscadores propuestas, como la realiza da por Li [Li, 01],
Kerschberg [Kerschberg, 01] y Glover [Glover, 99], entre otras. Suelen descomponerse en una serie de
módulos más o menos específicos. Meng describe una arquitectura de refe rencia formada por 5
componentes (Figura):
Interfaz de usuario: Se encarga de obtener la consulta del usuario. En algunos casos puede
proporcionar un sistema de refinamiento de la c onsulta interactivo, basado en la utilización de
alguna estructura de conocimiento. Además, es la encargada de mostrar los resultados de la
búsqueda.
Selector del buscador: Trata de seleccionar los buscadores que mejor respuestas darán a la consulta
del usuario. Intenta evitar un en vío masivo de consultas a todos los buscadores que puede tener
asociado un bajo rendimiento y un coste alto en tiempo.
Selector de documentos: El objetivo es tratar de recuperar el mayor número de documentos
relevantes, evitando recuperar do cumentos no relevantes. Si se recupera un número excesivo de
documentos no relevantes influirá de forma ne gativa en la eficiencia de la búsqueda.
Expedidor de consulta: Es el responsable de establecer la conexión con el buscador y pasarle la
consulta (o consultas), así como obtener los resulta dos. El protocolo habitual que se suele utilizar
en este proceso es http (HyperText Transfer Prot ocol) mediante la utilización de los métodos GET
y POST. No obstante, existen buscadores que f acilitan una interfaz de programación (API) para
realizar consultas y que u tilizan protocolos distintos (Google utiliza en su API el protocolo SOAP).
Fusionador de resultados: Su función principal es combinar los resultados de los distintos
buscadores en un único lis tado. Es imprescindible para la obtención de unos buenos resultados la
utilización de algún criterio de ev aluación para establecer un orden en el listado que muestra al
usuario.
Algunos de los meta-buscadores más populares de la Web son Vivisimo 6 , Mamma7 y MetaCrawler8. En
[Sherman, 04] puede verse un listado más exhaustivo de meta-buscadores.
Vivisimo [http://vivisimo.com] utiliza algoritmos de clustering , organizando las coincidencias
semánticas encontradas en directorios. Fue creado por investigadores de la Universidad Carnegie-
Mellon. Dispone de alguna s opciones de búsqueda avanzada: búsqueda de frases exactas, operadores
booleanos, campos de búsqueda (dominio, host, título, URL, etc.).
Pro Fusion [http://www.profusion.com/], de la Universidad de Texas [11, 16].
Mamma [http://mamma.com] muestra los resultados de una manera uniforme de acuerdo con la
relevancia.
MetaCrawler . [http://www.metacrawler.com].
Dogpile [http://www.dogpile.com/].
Ixquick [http://www.ixquick.com/] Multilenguaje.
Ez2Find [http://Ez2Find.com/] utiliza varios motores de búsqueda y directorios. También busca en
una pequeña parte de la Web invisible a través de su función de “Búsqueda Avanzada”.
Otros Metabuscadores interesantes son los siguientes: InfoGrid [http://www.infogrid.com/].
Infonetware [http://www.infonetware.com/] ordena los resultados por tópicos. IBoogie
[http://iboogie.com/] tiene un diseño minimalista y usa algoritmos de clustering. Fazzle
[http://www.fazzle.com/] que usa un interesante algoritmo de ranking. Query Server
[http://www.queryserver.com/web.htm] busca en una lista de 11 motores de búsqueda (exceptuando
Google). Es otro ejemplo de uso de algoritmos de clustering . Meta Bear [http://www.metabear.com/]
que ofrece los resultados más relevantes para sitios internacionales y rusos. Web Scout
[http://www.webscout.com/] que utiliza los princi pales motores de búsqueda (excepto Google) y
muestra las coincidencias más relevantes en una lista de resultados muy clara. Experts Avenue
[http://www.expertsavenue.com/] qu e activa la traducción de lenguajes online para páginas Web.
6 http://vivisimo.com
7 http://www.mamma.com
8 http://www.metacrawler.com
EmailPinoy [http://www.emailpinoy.com/] de las Filipinas. Search 66 [http://www.search66.com/]
agrupa páginas del mismo dominio. Internav [http://www.internav.com/]. Metengine
[http://www.metengine.com/](Antigua). One2Seek [http://www.one2seek.com/]. Ithaki
[http://www.ithaki.net/]. meta EUREKA [http://www.metaeureka.com/] (Holanda). Widow
[http://www.widow.com/]. 7 Meta Search [http://www.7metasearch.com/]. Bytedog
[http://www.bytedog.com/] (Canada). il motore [http://www.ilmotore.com/] (Italia). ApocalX
[http://www.search.apocalx.com/] (Francia)…
También hay que tener en cuenta lo s motores que podrían considerarse pseudo Metabuscadores: Son
aquellos que únicamente agrupan los resultados según el motor de búsqueda utilizado en una larga lista
(tales como qb Search [http://www.qbsearch.com/], Better Brain [http://www.betterbrain.com/], My Net
Crawler [http://www.mynetcrawler.com/], NBCi [http://www.nbci.msnbc.com/], Planet Search
[http://www.planetsearch.com/], Rede Search [http://www.redesearch.com/] y Search Wiz
[http://www.searchwiz.com/]), y aquellos que abren un e xplorador diferente para cada motor de búsqueda
(como por ejemplo Multi-Search-Engine [http://www.multi-search-engine.com/] que abre 36 ventanas,
The Info [http://www.theinfo.com/], Net Depot [http://www.netdepot.org/], Alpha Seek
[http://www.alfaseek.com/] o Express Find [http://www.expressfind.com/]).
3.4. Agentes inteligentes.
Un agente es una entidad software que recoge, filtra y procesa información contenida en la Web, realiza
inferencias sobre dicha información e interactúa con el entorno sin necesidad de supervisión o control
constante por parte del usuario. Estas tareas son realizadas en representación del usuario o de otro agente.
Hay que distinguir los agentes inteligentes de los buscadores inteligentes. Estos últimos, incorpora
información semántica en el proceso de búsqueda para mejorar los resultados de la búsqueda,
normalmente la precisión, utilizando en la búsqueda los recursos previamente indexados. Sin embargo, un
agente inteligente recorre la Web a través de los en laces entre recursos (hiperdocumentos, ontologías, ...)
en busca de aquella información que le sea solicitada, pudiendo además interactuar con el entorno para el
cumplimiento de tareas encomendadas. Los ag entes pueden realizar funciones de búsqueda,
discriminación y selección. Así podemos distinguir los siguientes tipos de agentes [Hellmann, 95]:
- Agentes vigilante s: de forma autónoma buscan información específica y pueden utilizarse para
elaborar versiones personalizadas de los periódicos según los intereses del lector. Ejemplos: Personal
Journal (Dow Jones), JobCenter, Personal View (Ziff Davies).
- Agentes ayudante s: actúan sin intervención humana. Se suelen emplear para la gestión de red y para
las funciones normales de mantenimiento. Ejemplo: LANAlert.
- Agentes aprendice s: aprenden a ajustar sus pr estaciones al modo de actua r de su usuario. Ejemplos:
Firefly 9 .
- Agentes compradore s, capaces de comparar precios y dete rminar qué producto ofrece las mejores
condiciones. Ejemplo: BargainFinder 10 .
- Agentes de recuperación de informació n: buscan formas inteligentes de recoger información y son
capaces de reducir la sobrecarga de información en la localización de documentos comprimiéndolos o
resumiéndolos. Ejemplos: Architext, ConText, Autonomy 11 .
Algunas de las características deseables de los agentes son las siguientes:
- Poseer un nivel de inteligenci a suficiente para aprender.
- Autonomía: La autonomía dependerá del grado de interactividad que se precise entre el usuario y el
servidor.
- Movilidad: han de poder navegar por las redes y acceder a servidores.
- 2 Blue Robbin Cape Womens Velvet Casual Royal Dressy ZADIE Mary Jane Ballet Flats Modulares: Permite reutilizar el agente y reducir la complejidad de los problemas.
- Comunicación: Tienen que comunicarse con otros agente s para poder trabajar en entornos distribuidos.
- Fiables: Los usuarios sólo aceptarán a los agentes si éstos son de confianza.
9 http://www.firefly.com
10 http://bf.cstar.ac.com/bf/
11 http://www.agentware.com
Con objeto de facilitar la comunicación entre agentes, se han ideado herramientas para construir bases de
conocimiento a gran escala que sean compartibles y reutilizables:
KIF (Knowledge Interchange Format) . Es un lenguaje formal para el intercambio de conocimiento
entre programas dispares (escritos por diferent es programadores, en diferentes momentos, en
diferentes lenguajes, etc.).
KQLM (Knowledge Query and Manipulation Language) . Es un formato de mensaje y un
protocolo para manejar mensajes con el objetivo de soportar el conocimiento compartido entre
agentes. Es además una interfaz de comunicación entre agentes; está enfocado a las operaciones
que los agentes usan para comunicarse.
Muchos servicios de búsqueda de Internet están ya ofreciendo información personalizada. Por ejemplo My
Yahoo!, que pregunta al usuario cuando se da de alta por sus temas de interés, aficiones, edad, sexo, en
qué país y región vive, empresas cuya cotización en bolsa le interesa, y con toda esta información
confecciona unas páginas que incluyen enlaces a noticias, otros servidores, y recursos disponibles en
Internet que tratan de aque llo que interesa al usuario.
Una buena clasificación establecida por Casasola [C asasola, 97] divide los agentes inteligentes según 4
dominios de aplicación:
Asistentes en la navegación (Browsing Assistants): Este tipo de agentes monitorizan la actividad
del usuario y recomiendan documen tos facilitándole la búsqueda.
Asistentes de búsqueda (Search Assistants): En esta categoría entran aquellos agentes que aportan
nuevas características al pro ceso de búsqueda orientadas a la comunicación entre agentes.
Agentes de emparejamiento y comparación (Marchmaking and Comparison Agents): Se encargan
de monitorizar sitios que cambian con frecuencia para resumir su contenido y extraer relaciones
entre sus componentes que permitan mantener información actualizada.
Agentes de filtrado (Filtering Agents): Su función consiste en seleccionar de entre grandes
volúmenes de información aquella más útil para el usuario.
WWW
Int ellige nt
Inform ation
Agents
Browsing
Assistants
Search
Assistants
Marchmaking
and Comparison
Agents
Filte ring
Agents
Expert in the Area
Shopping Agents
Searching by Examples
Adaptive System s
Meta Search Engines
Searching Structured Resources
Avail able On-Li ne
Clasificación de Agente s Inteligentes según Casasola [Casasola, 97]
3.5. Algoritmos de evaluación.
Los algoritmos de evaluación que utilizan muchos de los buscadores actuales se basan en la estructura de
la web para determinar su relevancia. Estos algoritm os de evaluación se denominan algoritmos basados en
enlace y son 3 principalmente: PageRank (utilizado en el buscador Google), HITS (Hypertext Induced
Topic Selection) y SALSA. Los algoritmos basados en enlace se apoyan en la estructura de la Web,
considerada como un grafo dirigido de páginas y enlaces: una página c on muchos enlaces a ella se supone
que es una página de alta calidad, especialmente si (c ircularmente) los enlaces vienen de páginas que son a
su vez de alta calidad. Por tanto, se puede considerar a la web como un grafo dimitido G = (P, E) donde P
son los nodos o páginas web y E los enlaces entre las páginas.
Este tipo de algoritmos sufren el “e fecto de la contribución circular” [Wang, 04]. Este efecto se basa en el
hecho de que las páginas se pueden enlazar unas a otras, de forma que se produzca un camino circular
entre ellas. Por tanto, cada página es timula la evaluación de las que enlaza, y si existe un camino circular,
entonces estimula su propia evaluación indirectamente. Para tratar de evitar este problema, Wang [Wang,
04] propone la aplicación del concepto de “distancia en la Web”, de forma que se asignen pesos a los
enlaces en función de la importancia de la página enlazada.
Además, también presentan el inconveniente de que son potencialmente vulnerables a ataques del tipo link
spamming como demostró experimentalmente Lempel [Lempel, 01]. Un ejemplo de este tipo de
desviaciones se produce en Google cuando se introduce el término “ladrones”. Cuando se introduce esta
consulta, el primer documento que apar ece es la página de la sociedad general de autores. La explicación
es que mucha gente se ha puesto de acuerdo para enlazarlas en sus páginas utilizando el término
“ladrones”, debido a la baja popularid ad que tienen por el cobro de cánones en la adquisición de material
informático.
El algoritmo Pagerank define un camino aleatorio con saltos aleatorios sobre la web (completa). Los
estados del camino aleatorio son las páginas web, y la puntuación de cada página se define mediante sus
valores de distribución estacionarios del camino aleatorio. Así, la puntuación PageRank de una página se
puede interpretar como global, evaluando la importancia de cada página independiente del tema [Lempel,
04].
Por otra parte, HITS y SALSA son específicos a un tema y se pueden considerar como algoritmos de
evaluación locales . Estos dos algoritmos funcionan utilizando una pequeña porción de la Web donde los
recursos correspondientes de un tema específico es probable que existan, analizando la estructura de
enlaces de ese subgrafo Web y asignando a sus página s puntuaciones hub y autoridad. Una página es una
autoridad en un tema si contiene información valiosa y de alta calidad sobre ese tema. Una página es un
“hub” sobre un tema si enlaza a buena s autoridades sobre el tema, si es por ejemplo una lista de recursos
de calidad sobre ese tema.
3.5.1. PageRank
La puntuación PageRank de una página A (denotada como PR(A)) es la probabilidad de visitar A en un
camino aleatorio que implique a toda la web, donde el conjunto de estados del camino aleatorio es el
conjunto de páginas, y cada paso aleatorio es de uno de estos tipos:
1. Elegir una página Web aleatoriamente, y saltar a ella.
2. Desde un estado s dado, elegir aleatoriamente un enlace saliente de s y seguir ese enlace hasta la
página destino.
Brin [Brin , 98] describe el cálculo del algoritmo PageRank de la siguiente forma:
Se asume que la página A tiene la s páginas T1...Tn que apuntan a ella. El parámetro d es un factor que
puede tomar valores comprendidos entre 0 y 1. Norm almente se establece d con el valor 0.85. Además
C(A) se define como el número de enlaces que salen de la página A. El valor PageRank de una página A
se determina como sigue:
() ( )
(
)
(
)
(
)
(
)
(
)
Tn C Tn PR T C T PR d d A PR
+
+
+ = K111
Hay que destacar que PageRank establece una distribuci ón de probabilidad sobre las páginas web, de tal
modo que la suma de todos los valore s PageRank de las páginas web serán uno.
El valor PageRank o PR(A) se puede calcular utiliza ndo un algoritmo iterativo. La idea sobre la que se
basa PageRank es bastante intuitiva. Asume que si una página recibe bastantes enlaces provenientes de
otras páginas, entonces se supone que esa página mer ece ser visitada. No obstante, también tiene en cuenta
el hecho de que páginas muy importa ntes enlacen a otra página, lo que implica que es probable que esa
página sea digna de ser visitada al ser enlazada por una página de calidad.
A grandes rasgos, se puede decir qu e el algoritmo PageRank mide la probabilidad de que un usuario visite
una página web. El factor d es la pr obabilidad de que un visitante que navega en una página se aburra de
ella y solicite otra.
3.5.2. HITS (Hypertext Induced Topic Selection)
HITS se basa en un modelo de la web que distingue hubs y autoridades. Cada página tiene asignado un
valor “hub” y un valor “autoridad”. El valor hub de la página H esta en función de los valores de autoridad
de las páginas que enlaza H, el valor autoridad de la página A está en función de los valores Hub de las
páginas que enlazan a A. Por tanto, según HITS cada página tiene un par de puntuaciones: una puntuación
hub (h) y una puntuación autoridad (a), ba sadas en los siguientes principios:
- La calidad de un hub se determina mediante la calidad de las autoridades que le enlazan.
- La calidad de una autoridad se determina medi ante la calidad de los hubs a los que enlaza.
Por tanto, el algoritmo HITS establece que una página tie ne un alto peso de “autoridad” si recibe enlaces
de muchas páginas con un alto peso de “hub”. Una página tiene un alto peso “hub” si enlaza con muchas
páginas autoritativas. Dado un conjunto de n páginas web, el algoritmo HIT primero constituye una matriz
de adyacencia A de dimensiones nxn, cuyo elemento (i,j) es 1 si la página 1 enlaza a la página j, y 0 en
caso contrario. HITS se calcula mediante el cálculo iterativo de tres pasos:
1. Actualiza las puntuaciones de autoridad de cada página:
t T t hAa =
+ 1
2. Actualiza las puntuaciones de hub de cada página:
1 1 ++ = tt aAh Velvet Mary Royal 2 Womens Robbin ZADIE Flats Casual Jane Ballet Blue Cape Dressy
3. Se normalizan las puntuaciones autoridad y hub.
Donde a y h son los vectores con los valores de autoridad y hub.
Las estructuras utilizadas para al macenar los efectos provocados por hubs y autoridades tienen relaciones
con los fenómenos de cocitación y coreferencia en el estudio de las valoraciones basadas en los enlaces.
Así, si dos páginas Web distintas pi y pj están cocitadas por muchas otras páginas Web pk (Figura), es
probable que estén relacionadas en algún sentido. A su vez, si dos páginas Web distintas pi y pj
coreferencian varias otras páginas web pk implica que pi y pj tienen ciertos aspectos en común.
A la izquierda las páginas Web p i y pj son cocitadas por la página web p k . A la derecha las páginas web pi
y p j coreferencian a la página pk.
3.5.3. SALSA (Stochastic Approach for Link Structure Analysis)
SALSA también asigna dos punt uaciones a cada página: la puntuación hub y autoridad. Estas
puntuaciones se basan en dos camino s aleatorios realizados en G, el camino autoridad y el camino hub.
Intuitivamente, el camino autoridad sugiere que las pá ginas autoritarias deberían ser visibles (enlazadas)
desde muchas páginas. Así, un camino aleatorio de este subgrafo visita aquellas páginas con alta
probabilidad. Formalmente, el estado del camino auto ridad son los nodos de G con al menos un enlace de
entrada. Sea v un nodo, y q1, ..., qk los nodos que enlazan con v. Una transición desde v implica elegir un
índice aleatorio i uniformemente sobre {1, 2, ..., k}, y seleccionar un nuevo estado desde los enlaces
salientes de qi (de nuevo, aleato riamente y uniformemente). Así, la transición implica atravesar dos
enlaces Web, el primero de ellos se atraviesa al revé s (desde el destino al origen) y el segundo se atraviesa
hacia delante. Si π denota la distribución estacionaria del cami no aleatorio descrito anteriormente, cuando
la distribución inicial es uniforme sobre todos los estados. La puntuación de cada página (=estado) v es πv
(las páginas que no tienen enlaces de entrada alcanzarán una puntuación 0).
Cabe destacar el efecto TKC ( Tightly-Knit Community ) [Lempel, 04] que remarca importantes diferencias
entre el algoritmo HITS y SALSA. HITS favorece a los grupos de páginas que tienen muchas cocitaciones
“internas”, mientras SALSA prefiere las páginas con muchos enlaces de entrada. Una comunidad
estrechamente tejida ( tightly-knit community ) es un conjunto de páginas pequeño pero sumamente
interconectado. El efecto TKC se da cuando dichas co lecciones de páginas (comunidades estrechamente
tejidas) obtienen evaluaciones alta s en los algoritmos basados en los enlaces, aunque esas páginas no sean
autoridad en el tema, o solo conciernan a un aspecto de dicho tema.
3.5.4. Otros factores que intervienen en la evaluación
Además de la estructura de los enlaces, también se su elen tener en cuenta a la hora de evaluar una página Shoe Kenneth Cole Oxford LE REACTION Polish Cole Mens Kenneth Black xC7Cqgn
otras características. Por ejemplo, Googl e tiene en cuenta el texto que acompaña a cada enlace, ya que se
supone que da una descripción general o el nombre de la página a la que enlaza. Esto tiene varias ventajas
ya que permite obtener una descripción bastante exacta de la página, además permite recuperar
documentos que no estén basados en texto como por ej emplo imágenes, programas o bases de datos. Otros
aspectos que se suelen tener en cuenta son el título de la página, el tamaño de la fuente empleada, etc.
3.5.5. Algoritmos de evaluación en los meta-buscadores
Los algoritmos de evaluación de los me ta-buscadores se tienen que enfrentar a problemas diferentes a los
buscadores tradicionales a la hora de evaluar. El prin cipal problema se debe a la fusión de las listas de
documentos evaluados que cada buscador devuelve. Las valoraciones producidas por diferentes
buscadores normalmente no son comparab les ya que se calculan frecuentemente utilizando alguna métrica
en función de la distancia.
4. El usuario y los buscadores.
La relación de los buscadores con el usuario ha sido estudiada en muchas ocasiones. Los primeros
estudios se centraron en cómo el us uario realizaba las búsquedas. Bates [Bates, 79] definió 29 tácticas de
búsqueda, organizadas en cuatro gr upos, aplicables a los sistemas de recuperación de información
existentes en la época, pero la mayoría lo siguen siendo para los buscadores web :
1. Monitorización de la búsqueda: tácticas para no perder de vista el motivo de la búsqueda,
manteniendo así una sesión de búsqueda más efic iente. Por ejemplo, revisar periódicamente la
consulta original y compararla con la actual pa ra ver si se sigue buscando lo mismo, o llevar la
cuenta de las consultas que no han dado resu ltados satisfactorios para no repetirlas.
2. Estructura de archivo: tácticas para navegar correctamente por el conjunto de documentos hasta el
documento, fuente o información deseada. Por ejemplo, terminar de examinar un documento
completamente antes de lanzarse a otras búsquedas que su contenido pueda sugerir, apuntando si
es necesario esas nuevas “pistas” para luego tenerlas en cuenta o no, de forma que la consulta va
sufriendo una evolución (posteriorme nte Bates [Bates, 89] estudió esto último en detalle dándole el
nombre de “ browsing and berrypicking techniques ”)
3. Formulación de la consulta: tácticas para ayudar en el proceso de diseñar y rediseñar la consulta a
realizar. Por ejemplo, elegir lo s términos más específicos posibles o incluir sinónimos en la
consulta.
4. Términos: tácticas para ayudar en la selección y revisión de los términos que conforman la
consulta. Por ejemplo, probar con variaciones léxi cas de los términos, o examinar los documentos
ya revisados para ver si se pueden encontrar otros términos útiles para la búsqueda.
4.1. Tipos de consultas.
También ha sido objeto de estudio cómo el usuario fo rmula las consultas. Hölscher y Strube [Hölscher,
00] demostraron que según el usuario va adquiriendo más experiencia con los buscadores éste desarrolla
unas conductas y técnicas que hacen que sus sesiones de búsqueda vayan siendo cada vez más eficientes.
Por ejemplo, tras obtener la lista de resultados los usuarios experimentados optan por escoger y examinar
alguno de los documentos con el fi n de obtener más conocimiento sobre el concepto objeto de la
búsqueda; reformulan las consultas introduciendo cam bios significativos y usando algunos operadores de
búsqueda; son más dados a navegar por los enlaces de los documentos que van examinando. Por el
contrario, los novatos tienden a volver a formular la c onsulta, mediante cambios poco significativos y con
un mínimo o casi nulo uso de operadores, en un intento de conseguir una lista de resultados en la que a
simple vista se obte nga la respuesta.
Pasos en el proceso de búsqueda
Amanda Spink y sus colegas, desde 1997 hasta el año 2001, realizaron numerosos estudios sobre el
comportamiento de los usuarios del buscador Excite. Encontraron que la media de términos por consulta
se sitúa alrededor de 2.2 (incluidos los operadores de búsqueda), siendo sólo un 30% de las consultas las
que incluyen tres o más términos. Solamente la mitad de los usuarios modifican la consulta inicial, lo cual
se suele hacer sustituyendo algún térm ino por otro más específico, manteniéndose invariable el número de
términos por consulta, además sólo el 10% de los usuarios utilizan operadores booleanos, ignorando por
completo el resto de opciones de búsqueda avanzada. Otro dato interesante es que son muy pocos los
usuarios que pasan de la segunda página de resultados (cada página mostrando diez resultados). Esto se
debe a que el usuario presupone que más allá de lo s veinte primeros resultados, todos los demás son
irrelevantes, por lo que prefiere re formular la consulta a seguir viendo páginas más allá de la segunda.
Uso de operadores básicos.
Resumen de uso de los buscadores.
4.2. Qué buscan los usuarios.
Con los análisis de los logs de Ex cite, Amanda Spink también intentó descubrir qué buscan los usuarios y
obtuvo los siguientes grupos:
Entretenimiento y recreo
Sexo y pornografía
Comercio, viajes, empleo y economía.
Informática e Internet.
Salud y ciencias.
Gente, lugares y cosas.
Sociedad, cultura, etnias y religiones.
Educación y humanidades.
Bellas artes.
Gobierno.
Otras
Además observó que según pasaba el tiempo, el uso de In Royal Dressy Velvet Mary Cape Ballet Robbin Casual Blue 2 ZADIE Jane Flats Womens ternet para encontrar sexo y ocio disminuía en
favor de un uso más comercial y menos frívolo.
4.3. ¿Por qué buscan los usuarios?
Si bien han sido numerosos los estu dios sobre cómo y qué buscan los usuarios, no ocurre lo mismo con el
por qué buscan los usuarios, qué les lleva a usar un bus cador y qué objetivos pretenden conseguir. Andrei
Broder [Broder, 02] determinó que mientras el uso de los sistemas de información de recuperación
clásicos respondía a una necesidad de información, en el caso de la web no ocurre así, constituyendo este
tipo de consultas menos del 50%. De forma que establ eció una clasificación según la cual las consultas
pueden ser: de navegación, informativas y transaccionales.
Posteriormente, Daniel E. Rose y Danny Levinson [Ros e, 04] estudiaron y desarrollaron la taxonomía de
Broder obteniendo lo siguiente:
De navegación: el deseo es llegar a un sitio web que el usuario ya tiene en mente, ya sea porque lo
visitó en el pasado o porque asume que existe. El resultado esperado es una única página web,
aunque también pueden ser deseables otro conjunto de páginas sobre sitios web similares. Por
ejemplo, si se está buscando la página web de l periódico El Mundo, es asumible que también
puedan ser de interés las páginas de ot ros periódicos de tirada nacional.
Informativas: el deseo es obtener información mediante la lectura de documentos. En este caso
quizás sea mejor un conjunto de documentos en vez de un único documento, para poder así
contrastar la información.
o Dirigidas: se quiere conocer algo en particular sobre un tema.
Cerradas: se quiere obtener la respuesta a una pregunta muy concreta.
Abiertas: se quiere obtener respuesta a una pregunta que puede tener varias
respuestas.
o No dirigidas: se quiere aprender “un poco” sobre un tema.
o Consejos: se quiere obtener consejos, ideas, sugerencias o instrucciones.
o Locales: el objetivo es encontrar algún servicio o producto en el mundo real.
o Lista: se pretende encontrar una lista de sitios web similares.
De recursos (sustituye y amplía la categoría de consultas transaccionales definida por Broder): el
objetivo es obtener recursos (no in formación) disponibles en la Web.
o Descargas: se quiere descargar un recurso para ser instalado o usado off-line.
o Entretenimiento: se quiere obtener entretenimiento simplemente viendo el contenido de los
documentos.
o Interacción: el objetivo es interactuar con un recurso.
o Obtención: se quiere obtener recursos para los cuales no sea necesario el uso del ordenador,
por ejemplo, para ser impresos.
Dirk Lewandowski [Lewandowski, 06] relacionó la ta xonomía de Broder con los once tipos de consultas
obtenidos por Amanda Spink, y obtuvo que las consultas informativas suelen ser sobre salud, ciencias,
sociedad, cultura y religión; que las consultas de navegación suelen ser sobre sitios web de gente, lugares,
entretenimiento, comercio y economía; y que las cons ultas de recursos suelen ser sobre pornografía,
entretenimiento e informática.
4.4. Comportamiento del usuario como realimentación.
Como ocurre con cualquier otro tip o de software, la realimentación proporcionada por el usuario puede
llegar a ser muy útil para la mejora del sistema. Si bien la inform ación más valiosa generalmente se
obtiene preguntando directamente al usuario, es difí Dressy Royal Womens Velvet ZADIE 2 Robbin Blue Ballet Casual Flats Jane Cape Mary cil de conseguir porque éste no quiere perder tiempo
contestando encuestas o escribiendo su s opiniones. Si se quiere realimentación y no se desea depender de
la generosidad del usuario, lo mejor es obtenerla implícitamente sin que éste lo note [Goecks, 99],
[Claypool, 01], [Kelly, 01].
Al utilizar un buscador el usuario re aliza consultas, abre algunos de los resultados y gasta tiempo en ellos,
vuelve a formular las consultas y lleva a cabo otras acciones. Cómo aprovechar todas estas acciones en el
diseño del sistema ha supuesto un nuevo campo de in vestigación, pero no resulta tarea fácil dado el
elevado nivel de ruido que estos conjuntos de da tos suelen tener [Agichtein, 06], [Radlinski, 05].
Se ha usado realimentación implícita para mejorar el algoritmo de ranking ([Agichtein, 06b], [Joachims,
02], [Joachims, 05], [Xue, 04], [Rad linski, 05]) o realizar expansión de consultas [Kelly, 03]. Otros
autores relacionaron las acciones de los usuarios con lo s objetivos pretendidos al realizar una consulta e
investigadores de Microsoft [Fox, 05] estudi aron cuáles indican mejor su satisfacción.
5. Examen de Google, Yahoo! y Live search.
5.1. Operadores de búsqueda.
5.1.1. Búsqueda Booleana.
AND: recupera aquellos documentos que contengan todos los términos de búsqueda. Cuantos más
términos se usen, el número de re sultados será menor, pero éstos serán más específicos. En la mayoría de
buscadores, el operador AND es el operador por defecto.
guerra AND irak
Google, cuando se usa este operador, indica que no es necesario porque ya es usado por defecto, sin
embargo el número de resultados es ligeramente distinto. Se debe a que el operador AND no es lo único
usado por defecto, sino que Google también tiene en cuenta el orden de las palabras de manera que
concede mayor relevancia a aquellos documentos en los que los términos de búsqueda aparezcan en el
orden indicado en la consulta, por lo que dos búsquedas con los mismos términos pero en diferente orden
pueden producir resultados distintos.
OR: recupera aquellos documentos que contengan al menos uno de los términos de búsqueda, pudiendo
contener también varios o todos ellos. Este opera dor hace que el número de resultados se incremente
considerablemente pero, usado adecuadamente junto a otros operadores, resulta útil para realiza r
búsquedas con sinónimos.
guerra OR irak
El operador OR siempre ha de es cribirse con mayúsculas. En los tres buscadores analizados puede
sustituirse por la barra vertical |.
Es útil para incluir sinónimos, variaciones léxicas, voces extranjeras....
NOT: descarta de los resultados aquellos documentos que contienen los términos precedidos por el
operador, por lo que restringe el número de resultados.
guerra irak -españa
En algunos buscadores su sintaxis es AND NOT, (en Live puede usarse indis tintamente una forma u otra).
En Google, Yahoo y Live puede sustitu irse por el signo menos -, pero sólo cuando no se especifica ningún
otro operador booleano.
Peacock With Party Heels Ladies Craft Black High Club BININBOX Rhinestone Sandals Pattern YxFfOYwq4
Este operador es útil cuando se prevén términos no de seados en los resultados, o si se encuentran al
examinarlos tras una búsqueda ya realizada.
Anidamiento de operadores booleanos: el anidamiento de operadores booleanos, mediante el uso de
paréntesis, permite realizar consulta s más elaboradas y específicas, pero su construcción es difícil para la
gran mayoría de los usuarios, pues dependiendo del or den de los paréntesis, las consultas pueden tomar un
significado u otro (actúan según el álgebra de Boole). Además, no todos los buscadores ofrecen esta
posibilidad, como es el caso de Google, que siempr e da mayor relevancia al operador AND sin tener en
cuenta el orden de los paréntesis.
guerra AND (irak OR iran)
(guerra AND irak) OR iran
En el primer ejemplo se recuperarán documentos que c ontengan la palabra guerra junto a irak, iran o junto
a las dos, pero guerra siempre ha de aparecer. En el segundo ejemplo, por un lado se recuperarán
documentos en los que aparez can las palabras guerra e irak, por ot ro, documentos en los que aparezca la
palabra iran, y por otro, documentos en los que apar ezcan todas ellas. Puede verse que las consultas
pueden ser todo lo complicadas que se deseé, pudiendo incluso aparecer otros operadores.
5.1.2. Inclusión obligatoria de un término.
El signo más + se usa para obligar a la inclusión de un término en el resultado, pero dado que el operador
AND es usado por defecto sólo es út il para forzar la aparición de “stop words” (términos de uso tan
común que son obviados) en los resultados y evitar que se busquen posibles variaciones gramaticales del
término (en aquellos casos en los qu e se haga automáticamente). Como los documentos se ven obligados a
contener otra palabra, el buscador restringe el número de resultados.
guerra AND de AND irak
guerra AND +de AND irak
En el segundo caso se está forzando la aparición del término de. En la mayoría de buscadores este
operador solamente funciona con términos en inglés.
5.1.3. Búsqueda de frases literales.
La búsqueda de frases literales (que han de ir entrecomilladas) devolverá aquellos documentos en los que
las palabras aparezcan en el orden en el cual se especifica en la consulta). En Google también pueden
realizarse búsquedas de frases li terales uniendo los términos con puntos (sin espacios y sin comillas).
“guerra de irak”
En Google pueden usarse palabras comodín mediante uno o varios asteriscos en cualquier posición dentro
de una frase entrecomillada. Por ejemplo, para encontrar “el Coronel Aureliano Buendía había de
recordar” la consulta es “el Coronel * * había de recordar”. Sin embargo, Google hace que a veces un
asterisco pueda ser usado para re presentar a más de una palabra.
En Yahoo las palabras comodín no se representan me diante asteriscos, sino con alguna stop word, una a
por ejemplo. Tantos comodines se deseen usar, tantas stopwords hay que incluir.
5.1.4. Truncamiento.
Ninguno de los tres buscadores analizados dispone de un operador específico para ello. Google realiza
búsquedas automáticas de ligeras variaciones de térmi nos que pueden ser deshabilitadas, como se ha dicho
anteriormente, mediante el uso del operador +.
Yahoo ni siquiera realiza búsquedas s obre variaciones del término automáticamente. Dispone del operador
stem: para lanzar un algoritmo de stemming para té rminos en inglés. Por ejemplo, stem:big buscará
documentos que contengan big y bigger, entre otras.
5.1.5. Sinónimos (Google).
El operador ~ usado justo antes de un término sirve pa ra realizar la búsqueda también sobre sinónimos de
dicho término. Este operador de sinónimos también incluye, a veces, búsquedas sobre plural/singular y
otras variaciones gramaticales. Solament e funciona con términos en inglés.
5.1.6. Incrementar importancia de un término.
En Google se puede incrementar la importancia de un término repitiéndolo. Cuanto más se repita, más
importancia adquiere. Live di spone para ello del operador prefer:, el cual no cambia el número de
resultados (como ocurre en Google) sino que cambia el orden en que se presentan. Yahoo no dispone de
esta característica. A continuación se muestra un ejemplo donde se busca información sobre los términos
coches y carreras, haciendo énfasis en el término carreras.
coches AND carreras AND carreras (Google)
coches AND prefer:carreras (Live)
5.1.7. Búsqueda por campos.
Título:
z intitle: Recupera aquellos documentos que contengan en el título el término indicado por el
operador (tantos términos se deseen, tantas veces que ZADIE Dressy Cape Casual Womens Blue Jane Royal 2 Flats Robbin Velvet Ballet Mary se ha de usar el operador). Puede ser usado junto
con otros términos de bú squeda y operadores.
intitle:motores intitle: diesel renault
Según el ejemplo, se obtendrán documentos con los térmi nos motorores y diesen en el título y renault en
cualquier otra parte del documento (que también puede ser, o no, el título).
Es una manera eficaz de restringir el número de resultados y aportar más especificidad a la búsqueda.
Otro de sus usos, en Google, es en contrar archivos de audio, video. pdfs,... Al realizar una búsqueda como
la del siguiente ejemplo, junto a algu nas páginas web, en los resultados se obtiene acceso directamente al
árbol de directorios de los servidores web que se encuentran con la configuración por defecto, desde
donde podremos descargar directamente los archivos deseados. Por ejemplo, para buscar archivos mp3
habría que realizar una búsque da de la siguiente manera:
intitle:index.of m p3 terminos_búsqueda
z allintitle: operador específico de Google. Recupera aquellos documentos que incluyen todos los
términos indicados en el título. Equivale a usar in title para todos los términos de búsqueda. No puede
combinarse con restri cciones a otros campos.
allintitle: motores diesel renault
Cuerpo del documento:
z inbody: operador específico de Live. Recupera aquellos documentos que contengan los términos
indicados en el cuerpo del documento, pudiendo aparec er también en otros sitios. Dado que por defecto
los términos siempre se buscan en el cuerpo del docum ento, además de en otros sitios, parece un operador
inútil (de hecho, es el único buscador que lo incorpora), pero su uso reduce el número de resultados.
motor inbody:diesel
URL:
z inurl: Recupera aquellos documentos que contengan en cualquier parte de la URL (nombre del
host, ruta o nombre del archivo) el término indicado por el operador (tantos términos se deseen, tantas
veces que se ha de usar el operador). Puede ser usa do junto con otros términos de búsqueda y operadores.
inurl:motores inurl:diesel renault
Según el ejemplo, se obtendrán documentos con los té rminos motores y diesen en la URL y renault en
cualquier otra parte del documento (que también puede ser, o no, la URL).
Este operador resulta útil para encontrar páginas de búsqueda y ayuda, porque tienden a tener una
composición regular.
z allinurl: operador específico de Google. Recupera aquellos documentos que incluyen todos los
términos indicados en la URL. E quivale a usar inurl: para todos los términos de búsqueda. No puede
combinarse con restri cciones a otros campos.
allinurl: motores diesel renault
Enlaces (hipervínculos):
z inanchor: operador específico de Live. Recupera aquellos documentos que contengan en los
enlaces incluidos en el documento (elemento HTML ) el término indicado por el operador
(tantos términos se deseen, tantas veces se ha de usar el operador). Puede ser usado junto con otros
términos de búsqueda y operadores.
inanchor:motores inanchor:diesel renault
Según el ejemplo, se obtendrán documentos con los térm inos motorores y diesel en hipervínculos a otros
documentos y renault en cualquier otra parte del documento.
z allinanchor: operador específico de Google. Recupera aquellos documentos que incluyen todos
los términos indicados en los hipervínculos a otros documentos (el operador inanchor: no está disponible
en Google). No puede combinarse con restricciones a otros campos.
allinanchor: motores diesel renault
5.1.8. Fecha de publicación.
z daterange: operadores específico de Google. Sirve para recuperar documentos publicados dentro
de un rango de tiempo. De uso muy complicado, se basa en el día juliano (usado para fechar fenómenos
astronómicos), que se obtiene contan do los días habidos desde el 1 de enero del año 4713 a.C en adelante
(hasta el límite del año 7980). Por ejemplo, el dí a 3 de mayo de 2002 equivaldría al día juliano de
2452397. Indicar que Google “refresca” algunos documentos más frecuentemente que otros, en concreto
aquellos que detecta que son act ualizados más asiduamente.
guerra AND Afghanistan daterange:2452392-2452395
Según el ejemplo, se recuperarán documentos publicados entre el 28 de abril y el 1 de mayo del año 2002.
5.1.9. Tipo de documento.
z filetype: operador específico de Google. Sirve para obtener documentos del tipo deseado, entre los
cuales se pueden encontrar .pdf, .doc (Microsoft Word), .ps (Adobe PostScript), .xls (Excel), .ppt
(PowerPoint) y .rtf (Rich Text Format).txt, .wpd (w ord perfect), .swf (Shock Wave Flash) y otros más.
z originurlextension: operador específico de Yahoo, de uso idéntico al de anterior.
z contains: operador específico de Live. Este operador es un tanto distinto de los dos anteriores,
pues no devuelve documentos de un tipo, sino página s web que contienen enlaces hacia archivos del
formato especificado.
z feature: operador específico de Yahoo, el cual puede ir seguido de varias claves para realizar
búsquedas muy específicas. Las claves para que se comporte como el operador contains: de Live son:
feature:acrobat páginas que contienen enlaces a archivos PDF.
feature:applet páginas que contienen applets embebidos.
feature:activex páginas que contienen controles ActiveX.
feature:audio páginas que contienen enlaces a archivos de audio en varios formatos.
feature:flash páginas que contienen archivos Flash o enlaces hacia ellos.
feature:image páginas que incluyen imágenes en varios formatos.
feature:video páginas que contienen videos o enlaces a ellos.
feature:vrml páginas que contienen enlances a archivos VRML.
feature:shockwave páginas que contienen archivos ShockWave o enlaces a ellos.
5.1.10. Enlaces a un documento.
z link: recupera documentos que contienen enlaces a la URL especificada. En Live Search se puede
incluir el prefijo http://, y los resultados suelen ser los mismos poniendo o no www.
linux link:barrapunto.com
La consulta del ejemplo recuperará documento s que contienen el término linux y un enlace a
www.barrapunto.com . Nótese que no es necesario poner www.
5.1.11. Documentos pertenecientes a un dominio.
z site: solamente recupera documentos contenidos en un dominio web, pudiendo también
especificarse rutas y tipos de dominio (es, com, org, gov, ...). Si no se especifican términos de búsqueda,
se recuperaran todos los documentos indexados pertenecientes al sitio.
site:barrapunto.com amarok
La consulta anterior devolverá t odos aquellos documentos pertenecientes al dominio barrapunto.com en
los que aparece el nombre del reproductor musical amarok.
z ip: operador específico de Live. Similar al operador site: pero indicando la dirección ip.
z domain: operador específico de Yahoo. Realiza la misma función que site:
z hostname: operador específico de Yahoo. Realiza la misma función que site: y domain: excepto
que solamente acepta URLs y no tipos de dominio.
5.1.12. Ballet Dressy Womens Blue Jane Royal Flats Cape Mary ZADIE Robbin 2 Casual Velvet Búsqueda por idioma.
Por defecto, Google realiza sus búsquedas en los 45 idio mas que tiene disponibles (ver anexo), pero es
posible filtrar los resultados para un a búsqueda indicando uno de ellos, lo cual se hace desde la página de
búsqueda avanzada. También se puede configurar para que por defecto solamente muestre los resultados
en ocho idiomas seleccionados de entre los 45, lo cual se hace desde la página de Preferencias.
Yahoo dispone de 36 idiomas desde la página de búsqueda avanzada, pudiendo restringir desde ahí a
varios de ellos.
z language: operador específico de Google. Que se usa seguido de un código de dos letras que sirve
para determinar el idioma deseado. Desde la búsqueda avanzada sólo se puede restringir la búsqueda a un
idioma, pero desde la página de settings se pueden seleccionar varios a la vez.
5.1.13. ZADIE Womens Mary Royal 2 Casual Robbin Velvet Jane Dressy Blue Flats Ballet Cape Filtro familiar.
Usado para excluir contenidos para adultos de los resu ltados. Se configura desde la página de preferencias.
Por defecto se encuentra en “Filtro moderado”, el cual sólo filtra imágenes con contenidos explícitos.
También puede ponerse en “Filtro estricto”, el cual ta mbién filtrará texto explícito, o dejar sin filtrar los
resultados en absoluto. Sin embar go, ninguno de los filtros, incluido el estricto, logra bloquear todo el
contenido explícito.
En Live Search es similar a Google y se encuentra en la página de settings.
En Yahoo el filtro solamente tiene dos estados, activado o desactivado, y se encuentra disponible en la
página de preferencias.
5.1.14. Búsqueda por país.
En Google la búsqueda de documentos por país se r ealiza accediendo a la dirección de Google para ese
país (por ejemplo, para España es www.google.es) y ma rcando la opción que restringe los resultados a ese
país.
En Yahoo el país puede elegirse desde la página de búsqueda avanzada. Además permite buscar por
regiones usando el operador region: junto con el código de la región, los cuales pueden ser:
africa-asia-centralamerica-downunder-europe-me diterranean-mideast-northamerica-southamerica-
southestasia
Live Search dispone del operador loc: que es usado junto a un código de dos letras que determina el país
del cual queremos recuperar los documentos.
Live Search automáticamente intenta detectar la localización del usuario, la cual puede usarse para
efectuar una búsqueda sobre documen tos “cercanos” al usuario pulsando sobre el botón “Near me”.
5.1.15. Rango numérico.
z numrange: operador específico de Google. Recupera documentos que contienen números
incluidos en un rango. Puede usuarse como numrange :5-11 o 5..11. También tiene en cuenta los números
decimales contenidos en el rango. Hay que asegurarse de poner el número más pequeño al principio del
rango o no funcionará. También es posible buscar númer os “en solitario”, es decir, sin especificar un
rango, pero no pueden buscarse números negativos (aunque luego se encuentren en los resultados) porque
el signo – se interpreta como el operador NOT. Los números y rangos de números pueden incluirse en las
frases entrecomilladas. Los números en solitario pue den incluir comas en los resultados, es decir, una
búsqueda sobre 2001 puede dar como resultado un documento conteniendo 2,001, pero no si usamos
2001..2001.
renault caballos numrange:100-200
z pricerange: operador específico de Google. Encuentra páginas que contienen números incluidos
en un rango y precedidos por el signo $.
renault megane pricerange:10000-30000
5.1.16. Otro tipo de consultas.
z feed: encuentra suministros RSS y Atom que contienen el término de búsqueda.
feed:noticias deportes
z hasfeed: encuentra documentos Web que contienen enlaces a suministros RSS y Atom.
hasfeed:noticias deportes
z url: disponible sólo en Live Search. Consulta si la URL se encuentra indexada en la base de datos
del buscador. No puede combinarse con otro tipo de búsquedas. Puede, o no, incluirse http://.
z related: operador específico de Google. Encuentra sitos web de contenido similar al indicado.
related:barrapunto.com (29 resultados)
www.barrapunto.com es un dominio web español con noticiaJane Mary Casual Royal ZADIE Cape Robbin Ballet Velvet Womens Dressy Flats Blue 2 s sobre Linux, software libre, ciencia y
tecnología. Con el ejemplo anterior se recuperan otros sitios web, de todo el mundo, que tratan los temas
antes mencionados.
z linkdomain: operador específico de Live. Limita la búsqueda a aquellas páginas que contienen
enlaces a alguna página pertenecient e al dominio especificado. Se puede usar también con direcciones ip y
no se ha de incluir http://.
z linkfromdomain: operador específico de Live. Ofrece una lista de enlaces hacia “el exterior” del
dominio, los cuales están contenidos en las páginas que forman el dominio.
Los siguientes claves para el operador feature: de Yahoo sirven para encontrar:
z feature:form páginas que usan formularios para la entrada de datos.
z feature:frame páginas que usan frames (marcos).
z feature:homepage páginas personales que usan el símbolo ~ antes del nombre del directorio.
z feature:index páginas de inicio (home) solamente.
z feature:javascript páginas que usan JavaScript
z feature:meta páginas que incluyen meta-etiquetas HTML.
z feature:script páginas que contienen scripts embebidos.
z feature:table páginas que usan tablas.
5.2. Resultados.
En Google los resultados son ordenados según la releva ncia otorgada por el algoritmo PageRank, el cual,
además de tener en cuenta los términos de la consu lta examina los enlaces de unas páginas a otras, dando
mayor importancia a un documento cuanto mayor es el número de enlaces que apuntan a él. Aparte, las
páginas son agrupadas por dominio. Sólo se muestran dos páginas por sitio, con la segunda “colgando” de
la primera (el resto de páginas del sitio puede verse pulsando sobre “Más resultados de...”
En Yahoo los resultados son ordenados teniendo solame nte en cuenta los términos de búsqueda y el
contenido de los documentos. También se agrupan páginas de un mism o sitio Web y sólo se muestra una
de ellas, las demás están disponibles pulsando en “Más páginas de este sitio” que se encuentra junto al
enlace de “Caché” en el snippet.
Si la búsqueda devuelve menos de mil resultados, tenie ndo ya en cuenta el agrupamiento de dos páginas
por sitio, en la última página de resultados, tr as el último de ellos, aparece el mensaje Para mostrarle los
resultados más pertinentes, omitimos ciertas entradas muy similares a los 2 que ya hemos mostrado. Si lo
prefiere, puede repetir la búsqueda e incluir los resultados omitidos . Si pincha sobre “repetir la búsqueda”
se devolverán más páginas, algunas de ellas son m uy parecidas, o incluso copias, de las mostradas
anteriormente mientras que otras son páginas que fueron agrupadas por un dominio pero no fueron
mostradas (aunque no tiene por qué mostrar t odas las páginas agrupadas por un dominio).
En Live Search los resultados son ordenados por la relevancia de los términos en los documentos. Sin
embargo se dispone de tres “diales” que sirven para ajustar parámetros que afectan a los resultados del
algoritmo de ordenamiento. Los parámetros son “f rescura” del documento, que va de “actualizado
recientemente” a “estático”, “popularidad”, que va de “muy popular” a “poco popular” y “ajuste a los
términos” que va desde “ajuste aproximado” a “ajuste exacto”. Cada dial varía entre 0 y 100. En vez de
los diales pueden usarse los parámetros en la c onsulta mediante la inclusión de {popl=91} {mtch=8} y
{frsh=25}, por defecto se encuentran a 50. Respecto de la agrupación de resultados pertenecientes a un
mismo sitio, Live Search sólo muestra dos resultados, pero este valor puede modif icarse a uno, tres o
desactivar la caracte rística por completo.
Los snippets son la forma en que se muestran los resultados. Incluyen el título, la URL, un extracto
mostrando texto con los términos de búsqueda, el tamaño del archivo y, para algunos casos, un enlace a la
copia en caché. Por defecto se muestran 10 snippets por página, pero en la página de Preferencias este
valor puede cambiarse a 20, 30, 50 ó 100.
Live Search incluye el título, un breve extracto de l texto mostrando el contexto de los términos de
búsqueda, la URL y un enlace a la copia en caché acompañada en ocasiones de la fecha en que data dicha
copia. Por defecto muestra 10 resultados, pero se pue de cambiar para que muestre 15, 30 ó 50 resultados
por página.
5.3. Páginas en caché.
Google fue el primer motor de búsqueda en ofrece r acceso a los documentos tal como estaban cuando
fueron indexados. La copia en caché resalta los térm inos de búsqueda y, si hay más de uno, utiliza un
color distinto para cada uno.
6. Problemas en la recuperación de información
Un sistema de recuperación de información abraza la creencia de que la información puede organizarse y
representarse para su recuperación, y que las necesidades de información tienen alguna característica que
se repite. Se asume que la representación de los doc umentos se realiza de forma textual. Sin embargo, no
solo influye la representación de lo s documentos en el proceso de evaluación, sino que existe otro cúmulo
de circunstancias que afectan de forma apreciable a la calidad de los resultados de una búsqueda.
Uno de estos factores que afecta al rendimiento en la recuperación de información es el usuario y su
carencia de información para expresar lo que quier e. Además, en algunas situaciones la información
relevante se reconoce solo cuando se encuentra y examin a, no antes . Con bastante frecuencia, la búsqueda
de los usuarios para cumplir sus n ecesidades de información se puede describir acertadamente mediante la
frase:
“No sé lo que estoy buscando, pero lo sabré cuando lo encuentre” [Bruza, 93]
El lenguaje natural y la concepción y utilización particular del que hacen uso los distintos usuarios es uno
de los principales problemas a la hora de buscar información. La representación de los documentos se
realiza de forma textual, que es una representaci ón escrita del lenguaje natural. Además, el usuario
también debe expresar lo que busca de forma textual para que sea comprensible para el SRI. Por tanto, el
problema derivado de la utilización pa rticular del lenguaje natural se traslada también a su representación
escrita, es decir, al texto. Un ej emplo de los problemas derivados de la variabilidad del lenguaje se
produce cuando dos documentos tratan del mismo concepto pero utilizando dos palabras diferentes a la
hora de nombrarlo, siendo por tanto indexados utiliz ando cada palabra concreta. Si un usuario busca
información sobre este concepto, si no tiene presente que se puede describir el mismo concepto mediante
dos palabras diferentes, será más complicado para él obtener ambos documentos. Es ta situación ilustra que
el usuario y sus conocimientos también juegan un papel importante en el proceso de búsqueda.
6.1. Lenguaje, semántica y contexto
La semántica estudia el significado de los signos lingüísticos y de sus combinaciones. Se puede distinguir
entre semántica léxica, que se ocupa del sentido de las unidades del vocabulario, la semántica gramatical,
cuyo cometido es estudiar las relaciones entre los el ementos gramaticales que forman una oración y la
semántica lingüística, que analiza el significado de los signos lingüísticos. Para este trabajo, la semántica
lingüística es a la que se presta mayo r atención, ya que las otras semánticas solo se fijan en la forma de las
palabras y no en su significado.
Es evidente que cualquier signo lingüístico empleado h ace referencia a una porción de la realidad, ya sea
un objeto concreto o abstracto. Tal y como muestra el triángulo semántico o triángulo de Odgen-Richards
[Odgen, 72], se puede apreciar que ex iste una relación entre las palabras y la realidad a través del sentido.
Existen diferentes representa ciones de este triángulo que utilizan en sus vértices diferentes palabras para
representar la misma idea. En la figura se muestran algunas de las más empleadas.
Triángulo semántico
Mediante esta representación se puede apreciar que el significante de una palabra “simboliza” un
significado, el cual “se refier e a” un elemento de la realidad o referente. La línea discontinua de la base del
triángulo indica que no existe una relación directa entre el significante o palabra y el referente o elemento
de la realidad: si no se conoce el significado de una palabra, no es posible establecer una relación que
permita representar el referente perteneciente a la r ealidad mediante un símbolo o significante. Se puede
definir por tanto el significante como la entidad física, típicamente en forma de imagen acústica,
perceptible por los sentidos. El sign ificado es un concepto, la idea que se representa en la mente al
escuchar el significante. Por último, el referente es la realidad efectiva a la que se remite el signo.
Un aspecto relevante del lenguaje a tener en cuenta es el tipo de relación existente entre los significantes y
el significado. Atendiendo al tipo de relación se pueden distinguir los siguientes casos:
- Monosemia : Se produce cuando la relación entre el signif icante y el significado es estrictamente
de uno a uno y viceversa. Cuando se da esta situaci ón se dice que el significante es monosémico.
Este es el mejor caso computaci onalmente hablando, ya que una vez conocido el significante se
puede conocer sin lugar a dudas su significado. Pero esta situación dista mucho de ser la habitual
en la lengua común, produciéndose en su lugar el siguiente tipo de relación.
- Polivalencia semántica o significación múltiple : Este fenómeno se presenta cuando la relación
entre significante y significado es de uno a varios. En es te caso, un mismo significante puede
simbolizar distintos conceptos. La significación múltiple se puede presentar de dos formas
distintas:
Homonimia: cuando dos significantes originalmente distintos en su forma fonética y que
simbolizan distintos conceptos llegan a coincidir a través del tiempo en un mismo
significante (con igual forma fonética). Por ej emplo /llama/ cuando significa “masa gaseosa
en combustión” viene de flamma, si se refiere a un rumiante sudamericano la palabra se
toma del quechua, y cuando es forma del verbo llamar, proviene del verbo latino clamare.
Polisemia: cuando un significante adquiere un nuevo significado a lo largo del tiempo. Por
ejemplo /Java/ es una isla de Indonesia pero también el nombre de un lenguaje de
programación.
- Sinonimia : Es el caso inverso a la significación mú ltiple. Se presenta cuando la relación entre
significante y significado es de varios a uno. Es decir, se produce cuando existen varios
significantes diferentes en su forma pero que hacen referencia a un “mismo” significado. Sin
embargo, hoy se acepta normalmente que la sinoni mia concebida como relación precisa, esto es,
como relación de equivalencia entre dos expresione s, o como identidad de significado, no existe en
la práctica [Fernández Lanza, 01]. Es decir, normalmente entre dos palabras consideradas como
sinónimas existen ligeros matices que acentúan alguna característica del mismo concepto.
La existencia de significantes idénticos en la forma y diferente en el significado es un fenómeno común, al
parecer ventajoso para la memoria, que se ve liberada de tener que retener una palabra diferente para cada
concepto nuevo que se produzca. Así mismo, la existe ncia de sinonimia aporta variedad a la utilización
del lenguaje, evitando la repetición excesiva de las pala bras e incorporando diferentes matices en función
de la expresividad, énfasis o intención de una com unicación. Pero es necesario disponer de una serie de
mecanismos que permitan desambiguar los casos de si gnificación múltiple para obtener una comunicación
efectiva. Este proceso de desambi guación se consigue teniendo en cuenta el resto de significantes que
intervienen en una comunicación, y que influirán en cierta medida en la decisión de seleccionar alguno de
los posibles significados.
Es decir, el significado de una misma palabra de pende del contorno lingüístico que la envuelve y que
determina su significación. Debido a este fenómeno, se pueden distinguir dos tipos de significado:
referencial o contextual. Una palabr a tiene un significado referencial cuando se “refiere” a su relación
convencional con la realidad. Los si gnificados referenciales son aquellos que se pueden encontrar en un
diccionario. En cambio, el signific ado contextual es el que adquiere la palabra dentro de un contexto,
cuando amplía, restringe y aún transf orma el significado referencial.
Por tanto, el contexto es un elemento determinante en el acto comunicativo, y que viene determinado por
los actos comunicativos anteriores y posteriores. Además, es el criterio utilizado para determinar uno de los
posibles significados y permitir descar tar el resto. Según Van Dijk [Van Dijk, 99], el contexto se define
como el conjunto estructurado de todas las propie dades de una situación social que son posiblemente
pertinentes para la producción, estructuras, interp retación y funciones del texto y la conversación. Es
decir, que no solo intervienen factores lingüísticos, sino también sociales y culturales. De hecho, Claire
Kramsch nombra cinco dimensiones que afectan al contex to (lingüística, situacional, interactiva, cultural e
intertextual) [Kramsch, 96].
La computación de todos los elementos que afectan al contexto es una labor excesivamente compleja y
que requiere de información previa que actualmente solo poseen las personas, adquirida a través de su
propia experiencia. Sin embargo, si que existen buenos diccionarios o tesauros que permiten conocer las
distintas acepciones de una misma pa labra. Se poseen herramientas que permiten, en definitiva, conocer
los significados referenciales de la s palabras. El inconveniente de estos diccionarios es que la mayoría
están diseñados para su utilizac ión por personas, lo que implica que atienden a un único criterio de
ordenación (típicamente el alfabético) y que carecen de una estructura que establezca un criterio que
permita conocer las relaciones entre va rias palabras sin atender a su forma (sustantivo, verbo, etc.), sino a
su semántica. Afortunadamente, existen algunas excepciones como son por ejemplo WordNet.
Pero, ¿qué es lo que permite descartar o aceptar un determinado significado de una palabra con
significación múltiple?. Una persona se decanta por un significado u otro en función de las posible s
relaciones semánticas que se puedan establecer entre los significantes participantes de una comunicación.
Por ejemplo, ante la expresión: “Coge el gato”, en func ión del contexto o la situación “gato” se referirá a
“un mamífero de la familia de los felinos” o bien a “un instrumento que se utiliza para levantar grandes
pesos a poca altura”. Si se modifica la expresión anterior aportando más información obtenemos: “Se ha
pinchado el coche. Coge el gato”. En la expresión anterior se puede apreciar que el significante “gato” se
refiere al significado “un instrument o que se utiliza para levantar grandes pesos a poca altura”. Esta
afirmación se puede realizar debido a que todo el mundo sabe que el gato es un instrumento que se utiliza
para arreglar pinchazos de los coches. Por tanto, basá ndose en este conocimiento previo y en el contexto,
se puede determinar el sentido corr ecto de “gato”. Se puede apreciar que existen tres factores básicos
necesarios para poder realizar esta desambiguación correctamente: un contexto, algún tipo de relación
semántica y la necesidad de un conocimiento previo que nos permita conocer esa relación semántica.
Para que exista alguna relación semántica entre varios significantes, es necesario que pertenezcan a algún
campo semántico que contemple esa relación.. Fue J. Trier el primero que definió el campo semántico
(aunque denominándolo “word field”) en 1931, como el conjunto de elementos delimitados mutuamente
sin sobreponerse, “como las piezas de mosaico“ [Tri er, 31]. Posteriormente Lyons [Lyons, 77] utiliza el
término campo semántico (semantic field) para descri bir el mismo concepto. Así, en 1934, Trier afirma
que el valor de una palabr a sólo puede determinarse definiéndolo en relación con el valor de las palabras
vecinas que contrastan. Sólo tiene sentido como parte del todo; pues hay significado sólo en el campo
semántico [Marcos, 98].
Por tanto, se puede definir campo semántico como un conjunto de palabras que comparten un contenido
común (un trozo de realidad al cual se refieren todas) y se lo reparten de tal modo que cada una de esas
palabras se opone a las demás por rasgos propios. Cada uno de estos rasgos semánticos diferenciales se
llama sema [Mmuruza, 04]. Un campo semántico puede estar formado por distintos tipos de palabras
como sustantivos o verbos. Otro rasgo distintivo que se puede apreciar, es que suelen poseer una
estructura interna con subcampos que comparten alguna característica común. Como ejemplo se nombrará
el campo semántico de los colores formado por sustantivos como rojo, verde, azul, por adjetivos como
rojizo, verdoso, azulado, y otras palabras no tan evidentemente relacionadas como frío y cálido entre
otras. Dentro de dicho campo, cada palabra posee ras gos distintivos que lo oponen a los demás, como por
ejemplo el sema distintivo de frío es «que produce efectos sedantes, como el azul o el verde» y de cálido
«que predominan los matic es dorados o rojizos».
Pero es extremadamente difícil c onstruir alguna estructura que contemple la totalidad de las posibles
relaciones existentes en la realidad. Existen algunos esquemas de representación formalizados que
intentan representar el conocimiento para posterio rmente poder obtener ese tipo de relaciones. Estos
esquemas, cuyo primer impulsor fue Quillian [Quillia n, 68] con su memoria semántica, se denominan
redes semánticas , y han sido muy utilizados en la Inteligencia Artificial para representar las relaciones
entre conceptos de una determinada área. Este problema de representación de la realidad afecta también al
proceso de desambiguación, lo que repercute de forma negativa en los SRI.
Memoria semántica de Quillian (Fuente: [Shulman, 97])
6.2. Proceso de búsqueda
El inicio del proceso de búsqueda lo origina un problema que requiere información para poder resolverse.
La carencia de esta información de pende de la amplitud de conocimiento de cada usuario. Un usuario
avezado en un tema concreto tendrá más claro qué info rmación solucionaría su problema y seguramente lo
encontraría en un plazo de tiempo más corto. La ap arición de un problema conlleva la demanda de
información en el usuario para solucionarlo, y esta car encia de información origina lo que se denomina
una necesidad de información .
Las personas buscan información basándose en su conoc imiento previo, que es muy diferente de unas a
otras personas. La necesidad de información se define como la representación implícita de un problem a en
la mente de los usuarios [Mizzaro, 96 a]. Se diferencia del problema, ya que cada usuario percibe las cosas
de diferente forma, y ante un mismo problema varios usuario pueden construir necesidades de información
distintas. Las necesidades de información se pueden cl asificar en necesidades verificativas, sobre temas
conscientes e imprecisas o mal defini das [Ingwersen, 95]. La primera categoría se refiere a la situación en
la que se buscan documentos con propiedades conocidas , por ejemplo se conoce el nombre del autor, el
título, etc. En el segundo tipo se conoce el tema y es definible, pero menos exacto que en la primera
categoría. En esta categoría una persona que busca información tiene algún nivel de comprensión de lo
que busca. La tercera categoría son los casos en lo s que una persona desea encontrar nuevo conocimiento
y conceptos en dominios que no le son familiares.
Una necesidad de información se puede satisfacer de distintas formas [Mizzaro, 96b]. Es decir, el
concepto de necesidad de información tiene una natu raleza ambigua. Debido a esta característica, se han
comentado distintos problemas cuyo motivo es la inex actitud de la necesidad de información, como el
problema ASK [Belkin, 82] (Anomal ous State of Knowledge), ISK (Incomplete State of Knowledge) y
USK (Uncertain State of Knowledge) [Ingwersen, 92].
Los sistemas IR se basan en la idea de que las n ecesidades de información pueden describirse. La persona
encargada de recuperar la información tiene que ser capaz de expresar la necesidad de información que
demanda en forma de una petición (request). La petición es una representación de la necesidad de
información del usuario en un lenguaje humano, nor malmente lenguaje natural [Mizzaro, 96a].
El último paso consiste en indicar al SRI la necesidad de información en un lenguaje comprensible para él.
El usuario debe formalizar su petición por medio de una consulta (query) cuya representación sea
Casual Cape Womens Jane Velvet Robbin Ballet Flats Blue Mary 2 Dressy Royal ZADIE procesable por el SRI.
Proceso de construcción de las consultas
Evidentemente, la representación mental de la info rmación que el usuario necesita para resolver su
problema difiere con mucho de la información que reci be el SRI del usuario. Este proceso implica una
adaptación de lo que el usuario cree que resolverá su problema a una expresión que represente lo que el
usuario necesita encontrar.
Pero no basta con seguir este proceso para obtene r la información que resuelva el problema. Si los
resultados no satisfacen al usuario puede ser necesario repetir este proceso de forma cíclica. Durante cada
ciclo el sistema recibe realimentación del usuario con nueva información, formalizada en forma de nuevas
consultas. En este proceso, se pueden distingu ir a grandes rasgos 4 fases [Hofstede, 96]:
1. Fase explorativa. El usuario reúne la información que pueda serle útil en el proceso de búsqueda.
2. Fase constructiva. Se aprovecha la información adquirida en la fase anterior para reformular una
nueva consulta.
3. Fase de realimentación. Si los resultados de la consulta formulada en la fase 2 no son satisfactorios
es necesario volver a realizar las fa ses 1 y 2 para refinar el resultado.
4. Fase de presentación. Se limita a la forma de representar los resultados.
Se pueden encontrar otras muchas descripciones del pr oceso de búsqueda en la literatura. Por ejemplo, el
modelo propuesto por Kuhlthau [Kuhlthau, 88] que divide el proceso de búsqueda en siete etapas:
comienzo, selección, exploración, form ulación de la consulta, análisis de los resultados, recopilación de
documentos y presentación de los resultados. En el ma rco del modelo de Kuhlthau se ha estudiado el
comportamiento del usuario para la obtención de patrones de interacción [Stelmaszewska, 02].
6.3. Problema del vocabulario
El funcionamiento de muchos sistemas depende de que los usuarios introduzcan las palabras correctas.
Los usuarios nuevos o esporádicos frecuentemente utilizan palabras incorrectas y fallan al lograr las
acciones o información que quieren. Este es el problema del vocabulario [Furnas, 87].
Los usuarios utilizan una sorprendente cantidad de términos para referirse a conceptos similares o
relativos al mismo tema. Por ejempl o, en los directorios donde los documentos se incluyen en categorías
de forma manual, puede suceder que categorías sim ilares pertenecientes a una misma rama confundan al
usuario y no encuentre en ella lo que esperaba. El problema es que la persona que asigna un documento a
una categoría concreta puede dar más importancia a unas palabras concretas o tener una concepción
diferente a la del usuario que realiza la búsqueda. Esta situación se deriva del problema del vocabulario,
ya que cada usuario tiene una preferencia personal a la hora de utilizar una s u otras palabras. Según
Furnas, en la elección espontánea de una palabra para objetos de cinco dominios, la probabilidad de que
dos personas escojan el mismo término está por debajo de un 20% [Furnas, 87].
Los SRI también sufren este tipo de problema. Cuando un autor escribe un documento, utiliza un
vocabulario específico y personal, que en muchos casos no coincidirá con el utilizado por otras personas.
Puede darse el caso de que otra pe rsona utilice otras palabras para describir lo mismo, con un sinónimo,
un alias o una frase explicativa. Pues bien, los SRI cuando indexan un documento, lo hacen atendiendo
exclusivamente a los términos que forman el documento (salvo excepciones como el m odelo FIS-CRM).
Cuando un usuario realiza una consulta elegirá un conjunto de términos que para él son representativos del
concepto que busca. Si los términos utilizados en la consulta son distintos a los que forman el documento,
es muy probable que ese documento no sea recuperado o que lo haga con un grado de relevancia muy
bajo.
Otro aspecto que agudiza el problema del vocabulario es la distribución geográfica de los usuarios, ya que
los conceptos o ideas y sus vocabularios asociados pueden evolucionar o cambiar a lo largo del tiempo
[Chen, 94]. Es decir, este problema se acentúa en tre comunidades que hablan la misma lengua, pero
dispersas geográficamente. Por ejemplo, para un argen tino la palabra “manejar” se refiere a la palabra
“conducir” para un español. Además, el problema del vo cabulario también se produce cuando se traducen
palabras de un idioma a otro común, dando como resu ltado traducciones distintas. Por ejemplo, “fuzzy
logic” se puede encontrar traducido co mo “lógica difusa” o “lógica borrosa”.
Existen distintas propuestas para tratar de soluciona r este problema. Casi todas ellas se basan en la
construcción de estructuras de cono cimiento que contemplen las relaciones entre los distintos términos
para ser tenidos posteriormente en cuenta. Cabe de stacar el denominado Unlimited Aliasing [Furnas, 87],
que consiste en asociar a cada objeto una lista de alias y el espacio concepto [Chen, 94], que es un
algoritmo para crear diccionarios para almacenar la riqueza del vocabulario y la similitud de los términos.
Otras técnicas que intentan palia r este problema son los mecanismos de expansión de consulta y más
recientemente, el modelo FIS-CRM, que contempla los términos relacionados conceptualmente, aunque
no presentes en el documento, a la hora de indexar.
6.4. El usuario
Otro aspecto muy importante que afecta a la recupera ción de información es el usuario. Cada usuario es
distinto de los demás en sus motivaciones, suposicion es, conocimientos y experiencia. Este cúmulo de
circunstancias afecta a la forma en la que cada us uario utiliza un SRI. Los principales problemas que
afectan al usuario en su interacción c on el SRI [Lam, 01] son la forma en la que especifica su consulta y la
forma en la que interpreta la respuesta proporcionada por el SRI.
ZADIE Mary Cape Casual Blue 2 Flats Womens Robbin Dressy Ballet Royal Jane Velvet
Los usuarios no suelen aprovechar al máximo las pos ibilidades que ofrecen las herramientas de búsqueda.
Diferentes estudios [Jansen, 98][Silv erstein, 99][Cacheda, 01] de los buscadores de Internet muestran las
deficiencias más comunes a la hora de utilizar estas herramientas.
La principal deficiencia es el bajo número de té rminos que los usuarios utilizan en sus cadenas de
búsqueda. La media de utilización va desde 1.63 [Cach eda, 01] hasta 2.35 [Jansen, 98] [Silverstein, 99]
términos por consulta. La utilización de pocos términos repercute en una menor precisión, debido a la
desviación que puede causar la polisemia y a la inexis tencia de otros términos que permitan concretar la
búsqueda.
Otro factor que afecta a la obtención de buenos resultados es la poca realimentación que los sistemas de
búsqueda reciben del usuario. Para est udiar este fenómenos, se establece el concepto de sesión, que es el
periodo de tiempo durante el cual el usuario realiza consultas al sistema de forma continuada. Cacheda
asume que una sesión de usuario no dura más de 30 minutos, de hecho lo normal es entre 9 y 30 minutos
[Cacheda, 01]. El resultado es que el número medio de consultas por sesión es muy bajo, entre 1.75 y 2.8.
Además, el número medio de pantallas que los usua rios visitan es muy bajo (entre 1.39 y 2.21). Si se
considera que la mayoría de los usuarios solament e comprueban una o dos pantallas del resultado, se