WCN 2012/Edurep - Wikimedia

Wikipedia in Edurep

Edurep is een metadata gebaseerde zoekmachine voor het onderwijs. Het idee is dat verschillende partijen met educatief materiaal de metadata van deze materialen aanbieden, waarna Edurep deze metadata indexeert en ontsluit via een API. Zoekportalen kunnen vervolgens aan de hand van de geïndexeerde metadata specifieke subsets van de totale collectie aanbieden aan hun gebruikers. Zo biedt de Taalunie alleen het materiaal voor vakgebied Nederlands aan en zoekt Wikiwijs alleen in het gratis en digitaal leermateriaal.

De metadata moet worden aangeboden in het Learning Object Metadata formaat, waarmee onder andere het leerniveau, vakgebied en de leerdoelen kunnen worden omschreven. In de meeste aangesloten collecties wordt deze specifieke onderwijsmetadata handmatig ingevuld, een tijdsintensieve en daarom kostbare activiteit. Er zijn reeds projecten gestart om het effect van dit handmatige metadateren te vergroten, bijvoorbeeld door gebruik te maken van crowdsourcing, linkeddata en slimme gebruikersinterfaces.

Ik wil met dit project onderzoeken in hoeverre het mogelijk is om automatisch metadata te extraheren uit online bronnen waarbij ik de Nederlandse Wikipedia als basis gebruik. Het doel is om zoveel mogelijk metadata velden uit LOM te vullen voor elk significant artikel. Enkele interessante aspecten van dit onderzoek zijn tot nu toe:

de bepaling van tekstmoeilijkheid en daarmee de doelgroep en de gemiddelde studie/leeslast, en de
de combinatie van categorieën met de begrippen uit het Onderwijs Begrippenkader om zo vakgebieden en vakinhouden te bepalen.

Een ander onderzoeksgebied is de classificatie van Wikipedia teksten naar onderwerpen om zo geautomatiseerd de onderwerpen van andere teksten te kunnen bepalen. Met zogenaamde Bayes classificaties kan bijvoorbeeld bepaald worden of een tekst over apple het fruit gaat, of apple het computerbedrijf. Ik ben echter nog niet toegekomen aan de daadwerkelijke implementatie van dit gebied.