Wikidata DBpedia vergelijking

Volgende bijeenkomst: ?

Er is nog geen datum voor een volgende bijeenkomst gekozen. Op het etherpad kunnen agendapunten geplaatst worden: https://etherpad.wikimedia.org/p/wikidatadbpedia

Bijeenkomst 15 mei

Aanwezig: Gerard Kuys, Enno Meijers, Gerard Meijssen, Sebastiaan ter Burg

Voortgang

Er zijn twee mappings gemaakt tussen Wikidata en DBpedia op basis van 2 willekeurige artikelen: een voor auteurs (Willem Elschot) en een voor monumenten (Onze Lieve Vrouwekathedraal in Antwerpen).

De conclusies die daaruit getrokken kan worden is dat DBpedia rijker gevuld is dan Wikidata. Het doel is om een protocol op te zetten om Wikidata te vullen op basis van NL-DBpedia in dit geval de Nederlandse Wikipedia.

De data moet zo actueel mogelijk zijn, er zal een harvest gedaan worden en die wordt gelijk weggeschreven. Deze actie zal beperkt blijven tot statische gegevens.
Raporteren verschillen (tussen Wikidata en Wikipedia) op item niveau.Wanneer er geen data is, dan wordt Wikidata gevuld. Wanneer data verschilt dan wordt er een verschillenlijst gevuld.

DBpedia is live, er zit slechts enkele seconden vertraging tussen NL-Wikipedia en NL-DBpedia. Uitgezocht moet worden in hoeverre het mogelijk is om deze verbinding continue te leggen: dat Wikidata ook live gevuld wordt door DBpedia in het geval er wijzigingen zijn op Wikipedia. Dit is in Nederland het geval, maar niet op andere wiki's. Op de Engelse wiki is dit nu een experiment.

Mappings maken

Er moet een mapping gemaakt worden waarbij

In kaart gebracht moet worden welke velden/informatie wel en niet meegenomen worden.
Matchen van properties van DBpedia en Wikidata
Alle DBpedia properties waarvoor in Wikidata nog geen property voor is, wordt een property voor aangevraagd in Wikidata.
Alle properties die niet in DBpedia staan en wel in Wikidata komen op de verschillenlijst

Zoveel mogelijk persoonsgegevens worden meegenomen, zoals

familierelaties: vader, moeder, zoon, dochter, partner, eega, etc.
...

Het maken van de analyse is lastig: het herkennen van de velden gebeurd vooral op de inhoud, daarbij is de context van groot belang. Bijvoorbeeld: wordt met Utrecht, de stad of de provincie bedoeld? De andere bronnen, zoals biblitotheekdomein van auteurs, kunnen van belang zijn voor de ontbrekende informatie in DBpedia. De NTA bevat ongeveer 1,5 miljoen auteursgegevens. Ongeveer 10.000 auteurs werden herkend in DBpedia.

Rondzingen

Met rondzingen wordt bedoeld dat de verschillende diensten continu - in een rondje - bij elkaar nagaan of er wijzigingen zijn. Mochten Wikipedia artikelen Wikidata gaan gebruiken voor infoboxen, dan is dat artikel zeer waarschijnlijk niet meer interessant voor DBpedia. Daardoor zal rondzingen niet voorkomen.

Argumenten om wel alle informatie uit de openbare bronnen op te nemen in Wikidata: - Andere invalshoeken voor ontsluiting. Op de Wiki platforms kan dan andere verrijking plaatsvinden die niet mogelijk is bij de huidige beschikbare bronnen. Bijvoorbeeld: de NTA is in het latijn ontsloten, andere charactersets worden niet ondersteund. - Diensyverlening: zo min mogelijk afhankelijk zijn van diensten van derden (commons gedachte)

Actiepunten

Van DBpedia.nl naar Wikidata (dus alleen vanaf de Nederlandse Wikipedia/DBpedia)

De mappings maken voor auteurs en monumenten
De mapping als RFC op wikidata posten, bij acceptatie van de mapping wordt het overgezet
1. Gerard Meijssen zal een voorzet doen voor de RFC aanvragen
2. Gerard Kuijs en Enno leveren een query aan voor de personen

Updates in data

RFC indienen voor het updaten van Wikidata vanuit DBpedia - conform het formaat van A en met de werkwijze van B. Dit is ook van toepassing voor properties die in Wikidata beschikbaar zijn gekomen.

Verbreden van auteurs naar personen

herhalen van bovenstaande stappen voor personen

Raakvlakken met andere projecten

Sebastian Hellman heeft een voorstel gedaan voor de aansluiting van DBpedia en Wikidata voor Google Summer of Code: http://wiki.dbpedia.org/gsoc2013/ideas/WikidataMappings?v=hz9

Toekomstige plannen en ideeën

Op basis van de data in wikidata verborgen infoboxen genereren op Wikipedia

Rechten

De informatie in Wikidata is beschikbaar onder een CC0 licentie, de artikelen op Wikipedia zijn beschikbaar onder een meer restrictieve licentie. Momenteel wordt er, met toestemming van de foundation, data uit Wikipedia geharvest om Wikidata te vullen. Dit project is in die lijn: DBpedia is ook gebaseerd op Wikipedia.

Risico's

ontologydiscussie binnen DBpedia
Niet eenduidig kunnen definieren van properties voor een mapping (geen duidelijkheid kunnen krijgen over hetgeen in het veld staat). In dat geval wordt dit veld nog niet meegenomen, mogelijk kan dat wel in een update.

Meeting DBPedia & Wikimedia 20 maart 2013

Aanwezigen

Lieke Verhelst Linked Data Factory -LD advocate
Enno Meijers Bibliotheek.nl / DBpedia
- Ik ben betrokken bij het project dat de Nationale Bibliotheek Catalogus van de Openbare Bibliotheken in Nederland realiseert via een centrale infrastructuur (en API). We hebben informatie over alle titels, exemplaren en actuele gegevens over de collecties op dit moment. Dit project is in opbouw, sinds begin maar draait de Openbare Amsterdam op onze infrastructuur. Ik ben verder betrokken bij diverse Digitaal Erfgoed projecten waar Linked Open Data een rol speelt (o.a. Erfgoed enn Locatie).Bibliotheek.nl wordt per 1/1/2015 geintegreerd in de Koninklijke Bibliotheek.
Gerard Kuys / DBpedia / Ordina
- Betrokken bij DBpedia nl-chapter, projecten voor conceptherkenning in de sector van cultureel erfgoed
Sebastiaan ter Burg / Wikimedia Nederland, projectleider culturele samenwerking (Gebruiker:Ter-burg)
Jeroen de Boer / Bibliotheekservice Fryslân / FryskLab
Aan Kootstra / Bibliotheekservice Fryslân / FryskLab
Roland Cornelissen / Metamatter(.nl) / DBpedia
Ruud Steltenpool (ook wel eens "stelt" of "steltenpower") (werkt bij saxionbibliotheek.nl en hobbiet bij fablabenschede.nl)
- Is hier ook om met Roland, Jeroen, Aan een fablab/linkedData ding te starten
- Wil graag weten hoe/of classificatiessystemen aan elkaar te koppelen met meeneming van zekerheidswaarde van die koppeling (inmiddels van Gerard een OCLC en VU contact gekregen)
Hay Kranen (Gebruiker:Husky) -- Wikipedian in Residence KB / NA
Gerard Meijssen (Gebruiker:GerardM) - Wikidata vrijwilliger

Agenda

fabmoments - Ruud Steltenpool

Fabmoment is iets dat je beschrijft als je dat maakt in een Fablab. Ruud wil een zoekmachine maken die het mogelijk maakt om dingen die binnen een bepaalde straal gemaakt zijn. Er is een mogelijkheid om te zoeken op dbpedia. Het is nu een domeinspecifieke applicatie, nu gericht op makerspaces. Dit is mogelijk wel op te zetten zodat het op te schalen is naar andere expertisegebieden. De focus ligt op zowel het organiseren van de data als het presenteren van de data. De interface is ook voor Wikipedia en Wikidata van belang als dit leidt tot een interface die voor normale mensen te gebruiken is om data bij te dragen en/of te structureren.

kruisvergelijkingen monumenten
kruisvergelijkingen schrijvers

Doel: twee verzamelingen op elkaar afstemmen zodat de kwaliteit verbeterd kan worden. Wie levert datasets aan voor resp. wikidata en dbpedia? Op welke criteria gaan we die vergelijken? Vergelijkingen zijn ook te zien als verkenning voor feedback loop naar instellingen. Totstandbrengen feedbackloop, voor instellingen die materiaal doneren (beeldmateriaal bv.) en willen weten of, en zo ja hoe vaak het gebruikt wordt

Voorstelrondje

Enno: geinteresseerd in de drieslag: DBPedia --> Wikipedia --> Wikidata
Gerard K: PoC gemaakt met RCE data om 'narratives' te maken van collectieoverstijgende objecten
Jeroen: data van FabLabs ontsluiten (projectinformatie, subsidie gekregen van Stichting Pica)

Kruisvergelijking schrijvers

Alles wat in de NTA zit, is via VIAF te vinden. Wat de status hiervan is, is nog niet geheel uit gediscussierd. Het is wel bruikbaar.
VIAF is een triplestore geladen en kan de NTA exporteren, zie ook http://datahub.io/dataset/viaf en http://viaf.org/viaf/data/
Wikidata is te exporteren als RDF (https://meta.wikimedia.org/wiki/Wikidata/Development/RDF, en http://lists.w3.org/Archives/Public/semantic-web/2013Aug/0012.html)
Wikidata is niet talig: het legt items vast met een identifier die niet aan één wiki gekoppeld is
dbpedia is RDF
Omdat Wikidata geen RDF is, is er dus ook niet makkelijk te koppelen met andere bronnen. dbpedia kan dit wel. Mogelijk kan dbpedia (voorlopig) een oplossing zijn om wikidata wel enigszins te koppelen met andere bronnen. Als je wikidata en dbpedia bij elkaar wil krijgen moet er op een laag niveau begonnen worden: de verschillen in kaart brengen en hetgeen mist "dumpen" in wikidata.
Er wordt op dit moment binnen Wikidata geen gebruik gemaakt van de scrapers die worden gebouwd bij DBPedia.

Voorstel concrete uitwerking voor boeken:

* analyse van het werk van Wikidata Book taskforce https://www.wikidata.org/wiki/Wikidata:Books_task_force
* aanknopingspunten hierin benoemen naar DBpedia en bibliotheekbronnen (bij KB, BNL, open bronnen)
* keuzes maken in het maken van relevante linksers

Aanpak

beschrijving van de domeinen: hoe staat het in wikidata en hoe in dbpedia? Die domeinen met elkaar vergelijken*), identifiers bepalen. ACTIE DBpedia & ACTIE WikiData
- Uiteindelijk zou het de bedoeling moeten zIjn om dwarsverbanden tussen de domeinen tot stand te kunnen brengen, bijv. ten behoeve van narratives
- Gerard Kuys - contactpersoon DBpedia monumenten
- Enno - contactpersoon DBpedia boeken (literaire prijzen?)
  - Vergelijken van mensmodel in DBpedia met dat in WikiData: welke mapping(s) is/zijn mogelijk? ACTIE: Lieke Kan het met een SPARQL-query? Zo ja, snel klaar. Maar moet wel gedaan worden.
  - Belangrijk om eerst auteurs en dan pas boeken te doen, aangezien het makkelijker is om auteurs toe te voegen zonder boeken dan boeken zonder auteur
uitzoeken hoe dit is te verrijken met andere bronnen ACTIE DBpedia & ACTIE WikiData (boeken en schrijvers enerzijds Enno en Hay , monumenten anderzijds Gerard) Termijn: een week of acht
werken vanuit een user story: alle boeken op wikidata Wie zet die user story om in een lijst van te zetten stappen? WIE?
- Voorstel: user story's baseren op de resultaten uit de vergelijking in stap 1, dan opsplitsen in afzonderlijke acties.

wikipedia-pagina's voor een bepaald domein genereren vanuit WikiData
Wat heeft WikiData nodig van DBpedia? Een model, een stukje software dat het individuele record beschrijft.
Wikidata API: http://www.wikidata.org/w/api.php

Vervolg

Over 4-5 weken nieuwe bijeenkomst met presentatie van de resultaten
Mogelijk projectgroepleden naar Hackathon in Zürich: http://www.mediawiki.org/wiki/Z%C3%BCrich_Hackathon_2014