Ga verder naar de inhoud

Publicatie van collectiedata van het Vlaams Architectuurinstituut op Wikidata

Gevalstudie over het traject dat het Vlaams Architectuurinstituut doorliep om metadata over archieven en objecten in het archiefbeheersysteem op te laden naar Wikidata. De gevalstudie bespreekt de basisbeginselen van Wikidata en het semantisch web, de creatie van persistente URI's voor archieven en objecten en de methodes die werden toegepast om de gegevens naar Wikidata op te laden. We gaan eveneens kort in op het opladen van rechtenvrije beelden in Wikimedia Commons en sluiten af met een evaluatie van het gebruik van Wikidata als aggregatieplatform voor erfgoedinstellingen.
' toegevoegd.

Evaluatie

Voordelen van collectiedata op Wikidata

Dat Wikidata voordelen heeft is duidelijk. Ook Europeana maakt ondertussen gebruik van Wikidata om zijn vocabularies te verrijken, maar gelden de voordelen ook voor informatie over collectieobjecten of archiefbestanddelen zelf? Bovenaan deze gevalstudie noteerden wij vijf argumenten om Wikidata uit te testen. Wat vinden wij daar nu van na de gevalstudie?
query.wikidata.org
De mogelijkheid van flexibele SPARQL-queries – een mogelijkheid waarover we standaard niet beschikken in ons archiefbeheersysteem – is al bijzonder nuttig gebleken. Een lijst van zaken waarvoor we queries hebben gebruikt valt na te lezen op deze pagina. Door de query-service kunnen we gebruikers nu ook overzichten aanbieden op onze collectie de kunnen worden gedownload in verschillende formaten, zoals JSON, CSV, TSV etc. Bijvoorbeeld:

Integratie met andere informatie
Af en toe kwamen we voordelen tegen van de integratie van informatie. Reasonator is bv. een zijproject van Wikidata om de gegevens op een wat meer ‘mensvriendelijke’ manier aan gebruikers te presenteren. De Reasonator-fiche van Jozef Schadde geeft een goed voorbeeld van wat integratie via Wikidata vermag. Wij voegden gegevens over zijn archiefrelict en zijn tekeningen uit onze collectie toe, maar verder is de meeste informatie door anderen toegevoegd. De foto van de architect komt niet uit het VAi, maar van het Rijksmuseum in Nederland. De verwijzingen naar de kerken die de architect maakte waren al aanwezig. Deze beschrijving is dus veel rijker dan wat het VAi momenteel aanbiedt.
De informatie die wij toevoegden is nu ook vindbaar binnen een groter geheel. Wie binnen de website van Crotos zoekt naar architectuur, zal nu tekeningen uit de VAi-collectie zien opduiken in de zoekresultaten. Of wie zoekt op graveur Jozef Linnig, zal niet langer enkel beelden vinden uit het Prentenkabinet van de Universiteit Antwerpen, maar ook diens werken uit de verzameling van Jos De Beer in het VAi, naast stukken uit bv. het Felixarchief.
De mate waarin informatie kan worden geïntegreerd zal vooral afhangen van de mate waarin de erfgoedsector in de toekomst datareeksen zal opbouwen in Wikidata. Hoe meer materiaal op Wikidata en Wikimedia Commons, hoe groter het potentieel wordt om aan verdergaande integraties te kunnen denken.
Wereldwijd samenwerken
Wij hebben gemerkt dat werk van het VAi in Wikidata ook door anderen wordt opgepikt en opgevolgd. Onderstaand screenshot toont de bewerkingsgeschiedenis voor het item ‘Gewassen pentekening’: https://www.wikidata.org/w/index.php?title=Q85620896&action=history
Bewerkingslog van item 'Q85620896'
'Hannahtsas' en 'WimLo' zijn VAi-medewerkers. Na bewerking door 'Hannahtsas' is een extern ID toegevoegd, is de beschrijving verder geperfectioneerd door ‘Romaine’ en is er een Arabische vertaling toegevoegd door een bot. Een kort overzicht van al onze termen rond ‘productietechnieken’ die al in het Arabisch beschikbaar zijn vind je hier: https://w.wiki/tfy. Daarnaast hebben we gemerkt dat heel veel van onze uploads later ten goede zijn aangepast:
  • beelden kregen licentie statements
  • objecten die in plaats van een 'creatiedatum' een 'startdatum' van ons kregen (een verkeerd property dus), werden automatisch door een Wikipediaan aangepast

Geconnecteerd met Wikipedia en de Wikimedia Foundation
We hebben nog geen rechtstreekse voordelen ondervonden van deze eigenschap. In eerste instantie zal het vooral aan het VAi zijn om op de pagina’s van architecten op Wikipedia het bestaan van archieven duidelijk te maken. Daarnaast zien we een interessante ontwikkeling rond 'Wikidatadriven infoboxes' op Wikipedia. Vooral op de Franstalige Wikipedia staat men hier al redelijk ver in. Zo heeft het Franstalige Wikipedia-artikel over architect Emiel van Averbeke een infobox die datadriven is. Daar kan worden ontdekt dat archieven van de architect worden bewaard in de Archives d'architecture moderne (tegenwoordig CIVA), het Letterenhuis en het Vlaams Architectuurinstituut. Sowieso gaan we ervan vanuit dat aanwezigheid van data op Wikidata vanuit strategisch oogpunt interessant is, en ook tout court een taak is voor het Vlaams Architectuurinstituut. Het strategisch belang blijkt nu we ook op andere vlakken samenwerking met Wikimedia-tools uittesten. Zie hiervoor het project Wiki Women Design.
Wikidata = vrije data
Via de website Crotos (http://zone47.com/crotos/) zijn de afbeeldingen die wij geüpload hebben nu ook doorzoekbaar. Ondertussen heeft meemoo aangekondigd te werken aan een public domain tool, waarmee snel kan worden opgezocht of een auteur zich in het publiek domein bevindt. Deze tool zal werken op basis van Wikidata en dus ook gebruik maken van onze uploads van actoren.
Zoals gezegd kunnen we ervan uitgaan dat steeds meer tools zullen worden ontwikkeld op Wikidata, precies door de omvang en het bereik van de dataset.

En waarom niet voor een andere aggregator kiezen?


Wikidata is niet de enige data-aggregator. Waarom kiezen we bv. voor Wikidata en niet voor een aggregator als Europeana of Archives Portal Europe? Wat zijn - met deze platformen als vergelijkingspunt - argumenten om Wikidata NIET te gebruiken?
Data kunnen niet offline worden bewaard
Alles staat automatisch online, voor iedereen bereikbaar. Dit vormt op dit moment geen echt probleem, omdat het VAi data die niet publiek mogen worden gemaakt ook niet zal publiceren op een aggregatorplatform. In de toekomst zijn er mogelijk wel gebruiksscenario’s mogelijk waarbij we niet-publieke data gaan delen in afgesloten platformen. In zo’n scenario is Wikidata zeker niet het geschikte platform, maar moeten we kijken naar andere oplossingen, bv. een Wikibase, een soort van privé-Wikidata.
Het datamodel van Wikidata voldoet niet
Het datamodel is extreem flexibel en kan altijd worden uitgebreid met properties. Toch hebben we tijdens het project gemerkt dat je toch vaak creatief zult moeten omspringen om je data om te plooien naar een richting die de Wikidata community al is uitgegaan. Dit is echter nooit een heel groot probleem gebleken. De belangrijkste gegevens konden zeker worden opgeladen en voor velden waarbij dit niet kon, kunnen we op termijn nieuwe properties aanvragen. Zolang er een koppeling is met onze collectiewebsite, kunnen gebruikers bovendien altijd langs die weg de volledige gegevens opvragen.
Wanneer de structuur niet geschikt was, konden we ook zelf in één keer de aanpassingen doen. Opvallend was bv. dat er in Wikidata al lijstjes met archieftermen aanwezig waren, maar vaak niet 100% correct waren opgebouwd. In dit geval hebben we zelf de aanpassingen gedaan en de aanpassingen gestaafd door koppelingen toe te voegen naar de RiC Ontology, bv. in https://www.wikidata.org/wiki/Q59221146. Door koppelingen te leggen met RiC hopen we op die manier ook gemakkelijker de archiefdata vanuit Wikidata om te zetten naar een RiC-formaat.
Soms waren termen niet aanwezig en hebben we ze toegevoegd, bv. de term tekenlinnen. Waar mogelijk koppelden we met externe authorities.
De data in Wikidata zijn niet betrouwbaar
Het klopt dat iedereen data kan aanpassen en dat je data kunnen evolueren in een richting die jij niet wilt of hebt voorzien. Wikipedianen kunnen ook fouten maken. De filosofie  is echter dat wijzigingen meestal eerder verbeteringen dan verslechteringen zijn, en voor Wikipedia lijkt dit meestal te kloppen. Je kunt je ook de vraag stellen of het niet de taak van een efgoedinstelling zou kunnen zijn om de data in Wikidata te beheren, managen en betrouwbaar te houden? Twee modellen zijn immers mogelijk: of de erfgoedinstelling deelt zijn data in een afgeschermde, beschermde omgeving, of de erfgoedinstelling beheert actief mee data in Wikidata en zorgt mee voor de kwaliteit van het datapakket in Wikidata.
Een andere afweging die je moet maken is het doel van de aggregatie:
  1. Is betrouwbaarheid de hoofdbetrachting en wil je dat de data blijven zoals ze zijn opgeladen? Dan bestaat het risico dat de data traag zullen evolueren, niet veel zullen worden gebruikt en op termijn niet meer up to date zijn.
  2. Is vindbaarheid, deelbaarheid en bruikbaarheid de hoofdbetrachting? Wil je samen met een grotere groep aan datareeksen werken? In dat geval is Wikidata het perfecte kanaal, maar zul je moeten accepteren dat je niet meer alleen de controle over de data behoudt.

Tijdens Persistente Architectuur ging het VAi uit van volgende opstelling:
  1. De betrouwbare data zijn te vinden op onze collectiewebsite.
  2. De bruikbare, geaggregeerde data zijn te vinden op Wikidata.
  3. Betrouwbare en bruikbare data worden gekoppeld via de persistente URI.

Is de Wikimedia Foundation wel geïnteresseerd in massale hoeveelheden collectiegegevens op Wikidata?
Dit is een belangrijk risico. Op dit moment lijkt de Wikimedia community er geen graten in te zien dat archiefdata op Wikidata worden geplaatst. Het aantal archiefbeschrijvingen wordt momenteel bv. ruimschoots overtroffen door het aantal gespecialiseerde wetenschappelijke artikels in Wikidata. Toch bestaat er zeker een kans dat Wikidata op een bepaald moment strakkere richtlijnen gaat stellen over de data die op het platform mogen komen en welke niet. De openheid van het platform laat dan in ieder geval toe dat de data in machineleesbaar formaat kunnen worden geëxporteerd.
De Wikimedia Foundation accepteert enkel vrij herbruikbaar beeldmateriaal
Een zeer belangrijk nadeel voor de VAi-collectie zijn de restricties op beeldmateriaal, dat ofwel in het publieke domein dient te zijn, ofwel gepubliceerd onder een vrije licentie. Aangezien de collectie van het VAi relatief recent is, zal het nog heel lang duren vooraleer reproducties op Wikimedia Commons zullen verschijnen. De rechtenbeperkingen van Wikimedia Commons voor beelden vormen voor het VAi ongetwijfeld één van de grootste nadelen om Wikimediaplatformen te kiezen als aggregator.

Evaluatie: Werken met Python scripts


Het ontwikkelen van de Python scripts om data uit het archiefbeheersysteem om te zetten naar quickstatements bleek meer werk dan ingeschat. De noodzaak om termen steeds weer te mappen met Wikidataconcepten maakt alles in zekere mate complex. Het is de vraag in welke mate deze scripts in de toekomst onderhouden kunnen blijven worden binnen het VAi. Op dit moment zit de ontwikkeling en de kennis ervan bij één persoon, wat een aanzienlijk risico is. Op termijn is de huidige situatie dus niet duurzaam.
Om RDF-publicatie van archiefdata duurzaam mogelijk te maken voor het VAi en bij uitbreiding de hele Vlaamse erfgoedsector (of dit nu is op Wikidata, Europeana of Archives Portal Europe) kan er dus best worden gedacht aan centrale oplossingen om data uit archiefsystemen om te zetten naar verschillende formaten (bv. RiC-RDF, Wikidata-RDF, APE-EAD enz.) Met zo'n centrale oplossing zou het in principe mogelijk moeten zijn om vanuit het archiefbeheersysteem slechts één migratie te moeten laten plaatsvinden naar een RDF-formaat. Die centrale oplossing moet niet alleen een platform bieden, maar ook dienstverlening op maat om de migratie naar het centrale platform mogelijk te maken.

Conclusie


Deze use case voor Wikidata beschouwen we als erg veelbelovend. Indien er moet gekozen worden tussen Wikidata, Archives Portal Europe of Europeana als aggregatieplatform, dan wijzen meerdere argumenten op dit moment naar Wikidata:
  • Het is eenvoudiger: Wikidata biedt bijzonder rijke documentatie om je op weg te zetten. Wikidata ‘democratiseert’ als het ware moeilijke technologieën als RDF voor iedereen. De tools worden zoveel mogelijk ontwikkeld met oog op gebruiksvriendelijkheid, zie bv. het SPARQL-endpoint dat suggesties biedt.
  • Het is laagdrempeliger: Er zijn geen procedures die je moet doorlopen om data te publiceren. Je kunt bij wijze van spreken meteen beginnen.
  • Wikidata kan in principe alle informatie in zich opnemen. Archieven, erfgoed, maar ook personen, gebeurtenissen, gebouwen, planten, geologische tijdperken, fictieve personages, softwarepakketten, plastieksoorten enz. Het potentieel voor dataverrijking en integratie is daarmee zeer groot.
  • Het heeft een internationale scope: In Europeana vind je Europees erfgoed, in Wikidata vind je potentieel al het erfgoed van de wereld.
  • Wikidata heeft een erg groot bereik door de koppeling met Wikimedia Commons en Wikipedia.
  • De kans dat vele nuttige applicaties worden ontwikkeld op Wikidata is heel groot.

Maar er zijn ook enkele nadelen. Voor een relatief recente erfgoedcollectie als die van het VAi is het belangrijkste nadeel de beperkte mogelijkheid om gedigitaliseerde bestanden op te laden door restricties op rechten. Ook kan info die we wel met collega’s uit de sector willen delen, maar daarom niet meteen publiek hoeft worden gemaakt (archiefwaarderingen bv.) niet op Wikidata worden gedeeld. Een ander risico is vooralsnog de beperkte adoptie van de archiefsector van Wikidata. Op een meer praktisch niveau blijft de technische expertise die nodig is om de data te delen – ondanks alle inspanningen van de Wikimedia Foundation om alles zo gebruiksvriendelijk mogelijk te houden – wellicht ook teveel gevraagd voor kleine of middelgrote archiefinstellingen. Een organisatielaag tussen de erfgoedinstelling en Wikidata is in dat geval wenselijk.
Is Wikidata iets dat blijft? ... De kans is groot! En dat is toe te juichen, want de opportuniteiten voor de erfgoedsector en de doelgroepen zijn groot. Of er komt een model waarbij erfgoedinstellingen rechtstreeks data in Wikidata uploaden, of er komt een model waarbij de info via een tussenliggende instantie op Wikidata komt. In beide gevallen heeft de erfgoedgemeenschap er belang bij om de kwaliteit van de data in Wikidata hoog te houden en er dus op aanwezig te zijn.
Een laatste afsluitende gedachte: Hoe het zich ook ontwikkelt, het is als erfgoedinstelling geen verloren energie om te starten met Wikidata. Het lijkt immers zeker dat de toekomst van aggregatieplatformen er één van Linked Open Data en RDF is. Zonder twijfel is Wikidata een uitstekend platform om RDF en zijn query-taal SPARQL onder de knie te krijgen. Heb je als erfgoedinstelling al je data in Wikidata gekregen? Dan ben je wellicht klaar voor elk RDF-platform.

Licentie

  • CC-BY-SA

Verwante software

Verwante standaarden

Deze pagina is laatst aangepast op 27 juni 2024

Deze pagina aanvullen of corrigeren?

Heb je aanvullingen of wil je iets rechtzetten? Dan kan je deze pagina makkelijk bewerken via onderstaande knop.