Mitos y realidades de los buscadores semánticos - Parte I

Hace unos días apareció un interesantísimo post de Alex Iskold: Semantic search: the myth and the reality. Este muchacho, que entre otras cosas escribe sobre web semántica para ReadWriteWeb, es uno de los expertos a quienes me gusta seguir porque suelen tener muchas cosas interesantes para decir: tiene esa capacidad de ver más allá del “hoy” de internet.

A pesar de que el objetivo de este blog no es traducir contenidos, me pareció buena idea compartir con vos el post de Alex resumiendo un poco lo que dice y agregando mi visión del asunto (por supuesto, infinitamente menos calificada que la del autor original).

Como el post original es bastante largo y quisiera detenerme en algunos puntos, vamos a comentarlo en dos o tres entregas. Estás leyendo la primera :)

Pasemos, entonces, al post. Se pregunta don Iskold: ¿qué está pasando con la promesa de la web semántica respecto a buscadores? Desde hace varios años venimos escuchando que la web semántica va a revolucionar la forma en que buscamos y la calidad de los resultados de búsquedas en lenguaje natural.

Todos estamos a la expectativa de un nuevo y mejor sistema de búsqueda, y todos nos preguntamos si finalmente un buscador semántico destronará al todopoderoso Google. Pero por ahora, la respuesta parece muy lejana y la esperanza, sólo eso: una esperanza.

Pone Iskold un ejemplo concreto. Supongamos una consulta en lenguaje natural como “¿Cuál es la capital de Francia?” Para responder a esta consulta no es necesario contar con la tecnología que la web semántica promete; de hecho Google ofrece una respuesta correcta en sus primeros resultados.

¿Qué pueden mejorar entonces los buscadores semánticos, cuál es su gracia si los buscadores que ya tenemos pueden respondernos? ¿Valdrá la pena tanto desarrollo para obtener los mismos resultados? En última instancia: ¿qué tiene de poderoso la web semántica?

Iskold sostiene que cuando preguntamos esto, no estamos haciendo las preguntas correctas. Haciendo consultas simples o primitivas, no estamos poniendo a prueba la capacidad semántica de los buscadores. Ésta se ve recién cuando hacemos consultas complejas, que involucran varios predicados, como por ejemplo: “¿Quién fue el arquero con más goles atajados de la historia del fútbol argentino?” (¡eeeeso es una pregunta! xD).

Es en este tipo de consultas complejas donde una respuesta de buscador no semántico se torna imposible (o por lo menos, una microaguja en un pajar).

A la luz de estas cuestiones, pasa entonces Iskold a analizar 4 exponentes de las tecnologías de buscadores hoy: Google, SearchMonkey, Powerset y Freebase.

En este punto quiero hacer un stop del post original y comentarte de qué se trata cada uno de estos buscadores, ya que en el mundo hispanohablante no son tan conocidos.

No voy a entrar en mucho detalle acerca de Google, porque a este sí lo conocemos de sobra. Solamente voy a recordarte que Google trabaja con un algoritmo basado en su archifamoso PageRank (que *no* es lo mismo que la barrita verde), que mide la popularidad de un sitio en base a la cantidad de link entrantes que tiene; combinado con análisis del contenido de una página en particular y de todo el sitio; combinado a su vez con una serie de factores que determinan cuándo un resultado es relevante para una búsqueda o no. (Más info acá).

De todas maneras, Google no está (¿no estaría?) usando ningún tipo de tecnología semántica en sentido estricto para su indexación y ordenamiento (hay rumores, y hay funcionalidades crecientes, y hay gente que dice cosas… es otra discusión. Ya vamos a llegar a hablar de eso en otro post ;) ). Al menos podemos decir que no usa el modelo W3C de la web semántica.

Por su parte, SearchMonkey es una plataforma muy nueva que propone Yahoo! y que, a mi modo de ver, es *muy* prometedora. Lo que tiene de particular es que, de entrada, se presenta como una oportunidad para los desarrolladores: propone usar datos estructurados para crear mejoras en los resultados de búsqueda.

Esta apertura a la participación seguramente logrará que las funcionalidades basadas en SearchMonkey crezcan de manera exponencial, seguramente también atrayendo a millones de usuarios más a Yahoo!. Una jugada muy inteligente y que realmente espero tenga éxito.

Search Monkey también da para un post por derecho propio; por ahora te dejo una guía para saber de qué se trata y entender qué propone, y la galería de betas que ya podés usar.

Nuestra tercera estrella es Freebase. Podríamos escribir largo y tendido sobre Freebase, pero prefiero que lo veas por vos mismo/a, ¡está abierta la registración! Está en alfa (y quizá va a estarlo bastante tiempo más) pero ya podés usarlo y darte una idea de cómo será el futuro.

Don Tim O’Reilly lo dijo de manera perfecta: “En muchos sentidos, Freebase es el puente entre la visión de abajo hacia arriba de la inteligencia colectiva propia de la Web 2.0 y el mundo más estructurado de la web semántica” (traducción mía de un pedazo de este artículo).

Finalmente: Powerset. También podés probarlo por vos mismo/a ya que abrió sus puertas (?) hace poco. Restringido a Wikipedia y trabajando sobre Freebase, Powerset está trabajando muy seriamente con procesamiento de lenguaje natural, área en la que esperamos que destaque en los próximos años.

Ahora que conocemos un poco más de los players de los que habla Iskold, te invito a probarlos para luego seguir con la segunda parte de este post que se hizo eterno tratando de desentrañar los Mitos y realidades de los buscadores semánticos :)

Posteado en Buscadores, Noticias el 10th June 2008 por Tana | | 4 tienen algo que decir

Web semántica: ¿qué es?

Lo primero es lo primero: ¿de qué se trata todo esto? Si llegaste hasta este blog, es que te interesa saber qué gracia tiene la web semántica, para qué sirve, cómo se puede implementar y en qué nos va a beneficiar.

Para no volver a autoplagiarme, te invito a leer una presentación que preparé hace unos meses a modo de “Introducción a la web semántica”.

¿Dudas, preguntas…? Si querés consultar algo o que ampliemos algún tema en particular, dejanos tu comment! Si no, para el próximo post se viene: Stack de web semántica (lenguajes y protocolos).

Posteado en Advocacy el 19th March 2008 por Tana | | 6 tienen algo que decir

Porque bloggear sobre la web semantica

La web semantica es una idea maravillosa y a punto de explotar hace ya unos 7 años. Aunque la idea principal es bastante simple y esta muy bien pensada; a pesar de que hay muchisimo software escrito; ideas que son claramente hermanas menores de la web semantica, llegan a ser exitosas y populares; mientras que la “Web Semantica” (y sus tecnologias), queda relegada al mundo academico. Asi, 8 años despues de la creacion de RDF todavia un mashup entre XXX y Google Maps nos parece revolucionario.

La informacion quiere ser libre; y dos datos sumados, tienen mucho mas valor que cada uno por separado.
Las tecnologias para “desarrollar” la web semantica ya estan disponibles (en su sabor favorito, java, php, perl, python, ruby, etc) y hay millones de datos interesantes para consultar/combinar/jugar; solamente falta un ultimo empujon, para que se use masivamente.

Ya se sabe la mayoria de las veces, no son los jefes-de-pelos-puntiagudos los que traen nuevas tecnologias a las empresas, sino que son los geeks que las descubren, empujan y venden. Este blog intentara excitarlo a usted, geek amigo, presentandole una idea (casi) simple, con poder de revolucionar la web como la conocemos; que ya esta lista para usar y esta esperando que usted la incorpore en su proximo proyecto.

Posteado en Advocacy el 17th December 2007 por Martin | | 4 tienen algo que decir