Naar inhoud springen

Gebruiker:Ciell/Utrecht hack 2025/verslag

Uit Wikimedia
Screenshot van OpenRefine met data van de afbeeldingen door Jacob Olie

Data opschonen met OpenRefine

Data kan om verschillende redenen opschoning nodig hebben. Er staan bijvoorbeeld dubbelingen in, of er staat data met een verkeerde indeling in het bestand, of de datastructuur is in het algemeen te wisselend, waardoor het geheel verwarrend is en overzicht ontbreekt.

Voor de Utrechtse mini-hackathon 2025 ging ik aan het werk met het opschonen van de data van de afbeeldingen van Jacob Olie, een amateurfotograaf voornamelijk actief in Amsterdam van 1860-1905. De foto’s van Jacob Olie geven ons een prachtig inkijkje in het leven in Amsterdam in de tweede helft van de 19e eeuw. Omwille van woningbouw en volkshuisvesting groeide de stad exponentieel en werden oude gebouwen en boerderijen afgebroken, en ook werd er een start gemaakt met nieuwe imposante en tegenwoordig iconische gebouwen. Olie was zelf een tijd tekenleraar, en was als tiener voor architect in de leer geweest. Deze achtergrond verklaart zijn interesse voor de architectuur van de stad die we terugzien op zijn foto’s. Hij was bevriend met verschillende architecten en ging, met of zonder zijn zoons, geregeld een kijkje nemen bij de in aanbouw zijnde panden. Meer dan eens fotografeerde hij de architecten (met een hoge hoed op!) bij de door hen ontworpen gebouwen.
Olie's foto's laten daarnaast ook de inwoners van en het leven in Amsterdam zien. De boer met zijn vrouw, dochters en 2 koeien die woonde op de boerderij aan de Kwakerspoel; de postbode die zijn ronde deed op de hondenkar; of een straattafereel van spelende kinderen, met op de achtergrond de lantaarnaansteker op de ladder.

Zelfportret van Jacob Olie met zijn hond, rond 1862

Collega’s op de Utrechtse hackathon hielpen me om de connectie tussen de OpenRefine tool voor dataverwerking en de api van de datacollectie achter Wikimedia Commons in te stellen, en dachten mee over hoe de data het beste gestructureerd kon worden. Zo verving ik onder andere het algemene informatiesjabloon door een informatiesjabloon specifiek voor foto’s. Eén waarin de aspecten voor foto’s duidelijker naar voren komen, en waarbij er aparte velden zijn voor bijvoorbeeld het collectienummer van de foto, en de naam van het archief waarin de foto wordt bewaard.

Het weekend na de hackathon ging ik thuis verder. Hierbij concentreerde ik mijn inzet op het herstructureren van de bestaande informatie boven het inhoudelijk verbeteren van de data: dat is voor een later moment. Bij het opschonen van de data kost het sorteren van de aanwezige informatie de meeste tijd. Doordat ik op de hackathon al met enkele kleinere sets had proefgedraaid, had ik al een basale structuur uitgepland. Deze vervolgens toepassen, en regel na regel de data nalopen en op de juiste plek zetten, is een precies proces waar vaak nog weer onverwachte vragen bij komen kijken. De oudste foto’s door Jacob Olie die we in Wikimedia Commons hebben staan, zijn bijna 20 jaar geleden geüpload en volgens de standaarden die we destijds hanteerden. Daarna zijn er verschillende afbeeldingen met de hand toegevoegd - door verschillende gebruikers, in verschillende opmaak. Ook zijn er meerdere runs gedaan om met bots meer afbeeldingen te uploaden. Mijn doel was om de data bij al deze foto’s een gelijke opmaak te geven.

En nu de data is opgeruimd zullen bots de pagina’s opnieuw bezoeken, en onder andere dode links signaleren of zelfs repareren, duplicaten van afbeeldingen signaleren, en in het algemeen de informatie over de foto’s verder helpen verbeteren. Mijn verbeteringen op de hackathon zijn het begin, en zeker nog geen eindpunt. Een volgend mogelijk doel is om de foto’s op Commons te verbinden met de items van verdwenen Amsterdamse straten in Wikidata. Helaas zitten die nog maar beperkt in de database, maar het is wel een leuke taak voor een volgende hackathon!

Tot die tijd is het al wel leuk om via de ISA tool de zaken die te zien zijn op Olie’s foto’s toe te voegen. En daar kan iedereen met een Wikimedia inlog mee helpen!