Gendergap/WikiTechstorm2019
Inhoudelijke resultaten van de Wiki Techstorm 2019
De belangrijkste nieuwe werkwijze die het organisatieteam heeft geïntroduceerd tijdens de Wiki Techstorm 2019 is de introductie van vooraf voorbereide praktische doesessies. Deze doesessies zijn in de maanden voorafgaand aan de Wiki Techstorm verzameld, bedacht en opgezet zowel zelfstandig als in samenwerking met GLAMs die deelnamen aan het ‘Deel je Data-traject’. Vantevoren waren zo’n zeventig doesessies voorbereid.
De praktische doessesies werden in een phabricator-bord - specifiek aangemaakt voor de Wiki Techstorm 2019 - verzameld. (Het afgeronde bord is nog te bekijken op: https://phabricator.wikimedia.org/tag/wiki-techstorm-2019/) Deze werkwijze met voorbereide doesessies bleek zeer succesvol om de overgang van theoretische presentaties en workshops naar praktische (zelfstandige) sessies te vereenvoudigen.
In dit verslag wordt puntsgewijs een overzicht gegeven van de zaken die - als doesessie - tijdens de Wiki Techstorm zijn ontwikkeld, uitgevoerd en geüpload naar Wikidata, Wikimedia Commons en Wikisource.
Overzicht inhoudelijke resultaten:
1. Commons-template {{WTS2019}} om bij afbeeldingen te plaatsen die tijdens de Wiki Techstorm zijn geüpload door de deelnemers. Afbeeldingen die dit template gebruiken worden automatisch geplaatst in de categorie ‘Files uploaded at Wiki Techstorm 2019’.
2. Stadsarchief Delft: historische tekeningen door Balthazar Jooss Er zijn 56 tekeningen van Balthazar Jooss van de collectie van het Stadsarchief Delft inclusief metadata geüpload naar Wikimedia Commons. Een aantal van deze beelden zijn inmiddels toegevoegd aan artikelen op de Nederlandstalige Wikipedia. Het artikel van Balthazar Jooss was voor de Wiki techstorm geschreven door het stadsarchief.
3. Regionaal Archief Alkmaar: collectie foto’s van ‘t Roode Hert. twintig foto’s geüpload van molen ‘t Roode Hert (uit de collectie van het Regionaal Archief Alkmaar) van Flickr naar Commons via de Flickr2Commons tool.
{{infobox plantage}}: een template voor een wikidatadriven infobox voor de Nederlandstalige Wikipedia waarin informatie over een plantage wordt getoond (bv afbeelding, land, dichtstbijzijnde waterlichaam, product(en) van de plantage. Alleen de waardes die daadwerkelijk in Wikidata aanwezig zijn worden in de infobox getoond.
https://nl.wikipedia.org/wiki/Sjabloon:Infobox_plantage
https://nl.wikipedia.org/wiki/Module:Infobox_plantage
Infobox is op 117 artikelen op de Nederlandse Wikipedia geplaatst (Categorie:Plantage in Suriname)
4. Universiteitsbibliotheek Leiden: negentiende eeuwse botanische prints (tijdens doesessie gedaan door deelnemer van de Universiteitsbibliotheek van Leiden) 103 botanische tekeningen uit de Seikei Zusetsu, een negentiende eeuwse landbouwencyclopedie uit Japan. De universiteitsbibliotheek in Leiden bezit een originele dertigdelige uitgave in hun ‘Bijzondere collecties’. Deze Seikei Zusetsu was ‘ondertekend’ door Katsuragawa Hoken (Nederlandse naam Wilhelmus Botanicus) en was hoogstwaarschijnlijk een persoonlijk cadeau aan Philipp Franz von Siebold.
Bij deze doesessie is ook het Wikidata item Seikei Zusetsu (Q76160295) aangemaakt. Na de Techstorm is ook het Nederlandstalige Wikipedia-artikel Seikei Zusetsu aangemaakt.
5. Authority control op de Nederlandse Wikipedia: Op o.a. de Engels- en Franstalige Wikipedia is er een template ‘Authority control’: dit is een sjabloon waarop de identifiers uit Wikidata getoond worden om zo een onderwerp van een wikipedia-artikel met andere gerespecteerde bronnen te verbinden. Op de Nederlandstalige wikipedia was dit sjabloon nog niet beschikbaar. Inmiddels zijn na de Wiki Techstorm zowel het sjabloon {{Authority control}} als de bijbehorende module ook op nl:wiki te vinden en te gebruiken.
6. Commons game om kunstschaats(t)ers te identificeren. Er staan veel kunstschaats(t)ers op Wikimedia Commons zonder dat precies duidelijk is welke kunstschaatser precies afgebeeld wordt. Om deze foto’s snel te identificeren is een wikigame gemaakt waar deze identificatie snel en accuraat uitgevoerd kan worden.
7. Kaart van verbranding van heksen Op de Franse wikipedia werkte de kaart met een overzicht van plekken waar heksen verbrand waren niet meer. Reden hiervoor was dat het overzicht met datapoints dat geSPARQLed moest worden te groot was geworden waardoor de WDQS een time out kreeg. Door code snippets te gebruiken uit de workshop ‘Map making’ is de kaart van verbrande heksen opnieuw (en beter) opgezet. Hierdoor is het overzicht van de verbrande heksen inmiddels weer zichtbaar (Zie ook: de volledige kaart op Commons).
8. Een Franse omschrijving toevoegen aan vrouwelijke computerwetenschappers: met behulp van OpenRefine werden Franse omschrijvingen toegevoegd aan vrouwelijke informatici in Wikidata. Het resultaat is hier te vinden op de Franstalige Wikipedia.
9. Data import van Zweedse ziekenhuizen: Via OpenRefine zijn de data geïmporteerd van 22 ziekenhuizen in Västra Götalandsregionen (Zweden). Deze dataset was beschikbaar gesteld via: https://oppnadata.se/datamangd/#esc_entry=1248&esc_context=197
De data zijn eerst gereconcilieerd met OpenRefine: de ziekenhuizen stonden vaak al als ziekenhuis op Wikidata met een miniem aantal statements (verklaringen). De bestaande Q-items zijn uitgebreid met gemiddeld 15.000 bits (inclusief coördinaten) per Q-item.
10. Wikidatadriven navigatiesjabloon voor auteurspagina’s op nl.Wikisource: Op de Nederlandstalige Wikisource wilde men graag een zogenaamde koptekst voor auteurs op Wikisource. Via deze ‘navigatiebanner’ kan makkelijk op verschillende manieren tussen auteurs worden genavigeerd. Tijdens de Wiki Techstorm zijn het sjabloon Auteur:Koptekst en de bijbehorende module voor dit wikidatadriven navigatiesjabloon waarbij de data volledig via Wikidata gegenereerd worden gemaakt.
11. Wikidatadriven infobox voor auteurs op de Nederlandstalige Wikisource: op de Nederlandstalige Wikisource bestonden nog infoboxen voor auteurs. Op de Wiki Techstorm zijn het sjabloon Infobox auteur en de bijbehorende module gemaakt. Nu kunnen infoboxes waarvan de (auteurs)data gedeeltelijk via Wikidata worden gegenereerd op een nl:wikisource pagina geplaatst worden.
12. Upload van de Elsinga-collectie van het Regionaal Archief Alkmaar:
Om deze upload van 11.000+ beelden mogelijk te maken zijn de volgende taken uitgevoerd
- webservices.picturae.com gewhitelist als betrouwbaar domein om de grote batch in een keer te uploaden
- Via de API zijn alle metadata en de linken naar de afbeeldingen gedownload en in CSV-sheets gezet.
- Vervolgens worden de beelden (inclusief WTS template) in 2020 geüpload naar Commons (vertraging naar 2020 wegens foutmelding bij upload).
- Er is een banner gemaakt die bij alle afbeeldingen van deze collectie wordt geplaatst
13. Sjabloon: Infobox auteur voor Wikisource. Voor de Nederlandstalige Wikisource is een {{Infobox auteur}} aangemaakt. Zie https://nl.wikisource.org/wiki/Sjabloon:Infobox_auteur voor het resultaat en een voorbeeld.
14. Minefield: een tool waarmee je een lijst van URLs naar Commons bestanden (gescheiden door een nieuwe regel) kunt invoeren en de bijbehorende MID’s (Media IDs van Commons, vergelijk met de QIDs van Wikidata) terugkrijgt. Deze MIDs zijn de missing link om met andere tools - zoals Quickstatements - bulkinvoer van structured data op Wikimedia Commons mogelijk te maken.
https://tools.wmflabs.org/hay/minefield/
15. The Museum Data Files (MDF) (aangedragen door Wikimedia Sverige): The MDF (https://www.imls.gov/research-evaluation/data-collection/museum-data-files) - voor het laatste geüpdate in 2018 - is een set van drie bestanden met informatie over musea en gerelateerde organisaties in de Verenigde Staten. Deze data kan in Wikidata geïmporteerd worden. @Alicia Fagerving heeft al een datamodel gemaakt hoe deze data ‘gemapped’ kan worden naar Wikidata. Er bestaat ook een SPARQL query waarin een kaart wordt getoond met de reeds geïmporteerde data van deze dataset. (Daar staan ‘slechts’ 266 organisaties op)
Tijdens de Techstorm zijn de volgende overzichten geproduceerd
MuseumFile2018_File1_Nulls-csv matched.xlsx: met de musea die al in Wikidata staan. Hierbij is een kolom met de Qids toegevoegd.
MuseumFile2018_File1_Nulls-csv new.xlsx: met de organisaties waarvan na een zorgvuldig reconciliëringsproces werd geconcludeerd dat deze nog niet in Wikidata staan. Deze musea kunnen als nieuw item aan Wikidata toegevoegd worden.
MuseumFile2018_File1_Nulls-csv not matched.xlsx. Dit bestand toont de musea die ook nog niet op Wikidata staan. (De data zijn eenmaal gereconcilieerd maar moeten nog nagelopen worden). Daarna kunnen ook deze organisaties aan Wikidata toegevoegd worden.
16. ISO 10383 Codes for exchanges and market identification (MIC) in Wikidata: ISO 10383 codes worden gebruikt om financiële markten te identificeren. Een CSV-bestand van de database is te vinden op https://www.iso20022.org/sites/default/files/ISO10383_MIC/ISO10383_MIC.csv. Een Wikidata property (eigenschap) voor de ISO 10383 is recentelijk gecreëerd op Wikidata: MIC market code (P7534).
Door twee deelnemers zijn verschillend eMIC Market codes toegevoegd aan Wikidata.
17. Auteursrechtenvrije boeken uploaden naar Wikisource: er zijn verschillende auteursrechtvrije boeken geüpload naar de Nederlandstalige Wikisource zoals Het Swervende portret.
18. sHex (Shape Expression) creation help. Een paar maanden geleden werd de mogelijkheid om Shape Expressions (sHex) te maken en gebruiken in Wikidata geïntroduceerd. De leercurve om een dergelijke expressie te schrijven ligt redelijk hoog: er zijn momenteel minder dan tweehonderd sHex. Wikidata released support for shape expressions sometime back.
Tijdens de WTS is een script (de sHex creation helper) geschreven om het aanmaken van een sHex te vereenvoudigen. Met deze tool kan eenvoudig een eerste aanzet voor een generieke sHex gemaakt worden.
19. Documentation on Wikibase: aangezien een aanzienlijk aantal GLAms overweegt een eigen Wikibase-installatie op te zetten is er veel behoefte aan documentatie over dit wiki-product. Tijdens de Wiki techstorm is er een Engelstalige documentatiesite learningwikibase.com opgezet om organidaties te ondersteunen met documentatie en informatie.
20. Atlas of Endangered Alphabets: De dataset van ‘Endangered alphabets’ staat hier: http://pintoch.ulminfo.fr/e140c8b9bf/alphabets.tsv. De doesessie bestond uit het linken van deze alfabetten aan Wikidata. Resultaat is dat er een catalogus op MixNMatch is gecreëerd zodat dit gecrowdsourced kan worden: https://tools.wmflabs.org/mix-n-match/#/catalog/3042
21. Publon IDs in Wikidata: Publons is een platform voor academici waar ze hun publicaties en reviews kunnen plaatsen. Er is een database van ‘journals’ en ‘publishers’ die in Wikidata geplaatsts kunnen worden via de properties Publons journal/conference ID (P7461) en Publons publisher ID (P7403). Een TSV-bestand met de duizend populairste wetenschappelijke tijdschriften is hier te vinden http://pintoch.ulminfo.fr/47ae2ed114/publons_journals.tsv
Tijdens de Wiki Techstorm zijn een groot gedeelte van deze data op Wikidata geplaatst met de bijbehorende eigenschap.
22. P180 (Depicts) en P6243 (Digital representation of) structured data toevoegen aan Commons bestanden van kunstwerken van Jakob Smits. Om deze data toe te kunnen voegen is de Minefield tool (verder hierboven beschreven) ontwikkeld tijdens de Techstorm. Vervolgens zijn met Minefield de juiste eigenschappen als SDC aan de kunstwerken van Jakob Smits op Commons toegevoegd
23. Overzicht van vuurtorens met Listeria: na een workshop ‘SPARQL en Listeria’ is er een overzicht gemaakt met Listeria van vuurtorens in Duitsland. Voor een volledig overzicht van deze vuurtorens zijn eerst data aan Wikidata toegevoegd.
24. Diverse verbeteringen aan Wikiportret: Tijdens de Wiki Techstorm is er ook hard gewerkt aan diverse verbeteringen van Wikiportret. Een van de grotere aanpassingen is het automatisch opzoeken van categorieën op Commons op basis van informatie die is ingevuld door de persoon die de foto heeft geüpload via Wikiportret. Er wordt nu gekeken of de naam van de geportretteerde een bestaande categorie is op Commons en of de naam van de auteursrechthebbende een bestaande categorie is. Daarnaast wordt er ook gekeken of er mogelijk nog andere interessante categorieën zijn (vergelijkbaar met het intikken van de naam van de geportretteerde in de zoekbalk van Commons en filteren op de categorie namespace).
25. ‘Depicts’ verklaringen voor Naturalis-beelden van taxons: Deze verklaringen voor de SDC zijn voor meerdere categorieën toegevoegd. Probleem dat ondervonden werd is dat in de desbetreffende categorieën niet alleen de beelden van de daadwerkelijke beestjes te vinden waren, maar ook de doosjes waar de beestjes in zaten. Deze beelden van de doosjes zouden niet aangevuld moeten worden met een depicts verklaring van het genoemde taxon.
26. secWatch OAuth Login: migratie van JS naar code gebaseerd op Python. Op de Duitse Wikipedia is men een tool aan het ontwikkelen om gedeeltes van discussies (bijvoorbeeld een enkel kopje in de kroeg of op een OP) te kunnen volgen. Om deze tool mogelijk te maken moest de code van Javascript gewijzigd worden in een Python script waarbij server-side log-in die gebruik maakt van oAuth mogelijk is. Deze migratie is tijdens de Wiki Techstorm uitgevoerd.
27. Presentatie/lancering van Wikiflix: Een Wikimedia-based ‘Netflix’ voor volledige films op Commons. Wikiflix is te vinden op https://commons.wikimedia.org/wiki/User:Spinster/WikiFlix
28. SPARQL station: op het SPARQL station zijn een aantal SPARQL queries gemaakt. De meeste zijn echter niet in het phabricator board gezet, maar ‘on the spot’ geschreven. Voorbeelden van een aantal queries: ‘makers in een museum met copyright representatives’, ‘makers in een museum met meer dan een copyright representative’.
29. Verdeling van beroepen per gender gedurende de eeuwen en normaliseren van Wikimedia Commons file names via a ValueParser
De verdeling van de beroepen per gender is zichtbaar gemaakt via een SPARQL query die nog niet online staat.
SELECT DISTINCT ?occupation ?occupationLabel ?person ?personLabel ?gender ?genderLabel(YEAR(?birth) as ?year) ?wikipedia
{
?person wdt:P31 wd:Q5;
wdt:P106 ?occupation;
wdt:P21 ?gender;
wdt:P569 ?birth;
wdt:P27 wd:Q55.
?wikipedia schema:about ?person.
FILTER(CONTAINS(STR(?wikipedia), "https://de.wikipedia.org/wiki/"))
SERVICE wikibase:label { bd:serviceParam wikibase:language "en". }
}
30. Nog niet af maar waar wel hard aan gewerkt tijdens de Wiki Techstorm:
Volledig Nederlandse interface voor OpenRefine: https://hosted.weblate.org/projects/OpenRefine.