20080513 Webwereld

Deze tekst of dit mediabestand is op deze website geplaatst met een beroep op het citaatrecht, en heeft tot doel de geschiedenis van de Wikimedia projecten vast te leggen. Zie ook het mediabeleid.

This image or other media file refers to the quotation law (citaatrecht) in The Netherlands and Belgium. This is not the same as fair use, but probably it can be placed under this license in the United States and other countries with a fair use policy.

Bron: http://webwereld.nl/articles/51046/-begrijpende--zoekmachine-powerset-onthult-demoversie.html

Begrijpende' zoekmachine Powerset onthult demoversie

Dinsdag 13 mei 2008, 11:33 - Het flink gehypete Powerset, een zoekmachine die 'natuurlijke taal begrijpt', introduceert een proefversie die Wikipedia heeft geïndexeerd. Microsoft zou interesse tonen.

Door Andreas Udo de Haes

Powerset timmerde al enige tijd achter gesloten deuren aan een 'volgende generatie'-zoektechnologie die in staat is natuurlijke taal te doorgronden en om te zetten naar relevante zoekresultaten. Maandag onthulde het Californische bedrijf een eerste publieke demoversie, die internetencyclopedie Wikipedia doorzoekbaar maakt.

De resultaten zijn erg wisselend. Powerset weet feilloos het antwoord op de vraag "What did the FDA ban?" maar bij "What is the biggest river in Brazil?" komt de Amazone niet op de eerste pagina voor. Mooie belofte

Powerset onderscheidt zich eigenlijk vooral met zijn interface. Het vormt een schil om de Wikipedia-lemma's en biedt extra functionaliteiten zoals verfijning van de zoekopdracht en Factz, waarmee een woordwolk van gerelateerde termen kan worden opgeroepen.

Zoektechnologie die natuurlijke taal begrijpt wordt een grote toekomst toegedicht, maar de 'semantische magie' van Powerset blijft voorlopig een belofte. Niet voor niets is er voor gekozen te beginnen op Wikipedia. Niet alleen is de site enorm populair, het is bovenal een van de best gestructureerde sites ter wereld. Beperkt schaalbaar

Het indexeren van content en parsen van een zoekopdracht in natuurlijke taal kost namelijk enorm veel rekenkracht, en de effectiviteit en snelheid neemt exponentieel af naarmate webpagina's minder gestructureerd zijn.

Powerset weet uiteraard ook waar haar achilleshiel zit en zal stap voor stap meer websites gaan indexeren, te beginnen met goedgestructureerde, informatieve websites. Het is onwaarschijnlijk dat Powerset het hele web goed zal doorzoeken.

Maar dat maakt de hype rondom Powerset er niet minder om. In de dagen voorafgaand aan de introductie van de Wikipedia-zoeker staken geruchten de kop op dat Microsoft het bedrijf voor 100 miljoen dollar zou willen overnemen. En, alleen al om Microsoft in de wielen te rijden, zou Google ook interesse hebben in een overname. Google: geen taal, maar wiskunde

Google zelf toont zich tot nog toe namelijk sceptisch over dergelijke semantische zoektechnologie. Alhoewel mag worden aangenomen dat in de laboratoria van Mountain View al jaren semantische zoekmachinetests worden uitgevoerd, ziet het bedrijf er, bij monde van hoofd Onderzoek Peter Norvig, vooralsnog geen meerwaarde in.

Met goede reden. Want Google toont juist aan dat begrip van natuurlijke taal helemaal niet nodig is voor accurate en relevante zoekresultaten. Daarvoor volstaan slimme algoritmes, miljarden webdocumenten en brute rekenkracht.

"Door 'Wat is de hoofdstad van Frankrijk?' in te typen krijg je geen betere resultaten dan met 'hoofdstad van Frankrijk'", vatte Norvig het onlangs bondig samen.