Raadplegen van gearchiveerde websites en sociale media met SolrWayback
Gearchiveerde websites en sociale media raadplegen? Dat kan met SolrWayback, een webapplicatie die draait op een Solr-server en WARC-bestanden raadpleegbaar maakt met een WARC-indexer. Kom te weten hoe je het installeert en gebruikt.
Deze handleiding werd geschreven tijdens een edit-a-thon van het Praktijknetwerk Sociale Media Archiveren in 2025.
Auteurs
- Jeroen Fernandez-Alonso (Amsab-ISG)
- Sophie Bossaert (ADVN)
Vereisten en installatie
Vereisten:- Een collectie WARC-bestanden (van Wget, Heritrix, Webrecorder, Browsertrix,...)
- Werkt in macOS/Linux/Windows
Optie 1: SolrWayback installeren via Docker
Vereisten: Stap 1: Installatie- Installeer Docker
- Download de Dockerfile.txt van de Solrwayback-github
- Pas de naam van het bestand aan naar ‘dockerfile’ (zonder hoofdletter en extensie) en plaats deze in je home folder
- Open je terminal en bouw de Docker-image
docker build . --tag solrwayback.
- Open je terminal
- Voer het volgende commando uit:
docker run --publish 8080:8080 --publish 8983:8983 --volume <path/to/WARCs>:/host_dir --tty --interactive solrwayback bash. Vervang<path/to/WARCs>door het path van de map waar je WARC-bestanden opgeslagen zitten. In deze map mogen enkel WARC-bestanden en andere mappen zitten. - Wanneer de docker-container opgestart is, voer je vervolgens volgende commando's een voor een uit:
-
export SOLRWAYBACK_VERSION=5.1.2 -
export APACHE_TOMCAT_VERSION=9 -
export SOLR_VERSION=9 -
./unpacked-bundle/solrwayback_package_$SOLRWAYBACK_VERSION/solr-$SOLR_VERSION/bin/solr start -c -
./unpacked-bundle/solrwayback_package_$SOLRWAYBACK_VERSION/tomcat-$APACHE_TOMCAT_VERSION/bin/startup.sh - Open een browser en check of volgende links werken:
- http://localhost:8080/solrwayback/ - hiermee test je of Solrwayback opgestart is.
- http://localhost:8983/solr/#/ - hiermee test je of solr opgestart is.
- Vervolgens kan je je WARC-files laten indexeren via volgend commando's:
-
WARC_FILES=$(find /host_dir/ -type f) -
./unpacked-bundle/solrwayback_package_$SOLRWAYBACK_VERSION/indexing/warc-indexer.sh $WARC_FILES

Optie 2: SolrWayback lokaal installeren in Linux/Mac
Vereisten:- Java 11
- Tomcat 9+
- Solr 9+
- Download de recentste versie via volgende link en pak het bestand uit: https://github.com/netarchivesuite/solrwayback/releases
- Kopieer de bestanden
properties/solrwayback.propertiesenproperties/solrwaybackweb.propertiesnaar deuser/home/-map. - Wanneer je foutmeldingen krijgt tijdens de installatie of setup, verander dan de rechten op het bestand (
startup.shenz.). Op Linux en Mac kan dit via het volgende commando:chmod +x filename.sh. Veranderfilename.shdoor de naam van het bestand waarvan je de rechten wil wijzigen.
- Start tomcat:
tomcat-9/bin/startup.sh - Check via volgende link of Tomcat loopt: http://localhost:8080/solrwayback/
- Start Solr:
solr-9/bin/solr start -c -m 4g - Check via volgende link of Solr loopt: "http://localhost:8983/solr/#/netarchivebuilder "
Optie 3: SolrWayback lokaal installeren in Windows
Stap 1: Installatie- Download de recentste versie via volgende link en pak het bestand uit: https://github.com/netarchivesuite/solrwayback/releases
- Kopieer de bestanden
properties/solrwayback.propertiesenproperties/solrwaybackweb.propertiesnaar deuser/home/-map. - Maak een "environment value" die verwijst naar de map met Java 11 (of Java 17):
JAVA_HOME=C:\Program Files\Java\jdk-11
- Wanneer je foutmeldingen krijgt tijdens de installatie of setup, verander dan de rechten op het bestand (
startup.shenz.).
Stap 2: Opstarten van SolrWayback
- Start tomcat: navigeer naar de map `tomcat-9\bin\` en voer volgend commando uit
startup.bat - Check via volgende link of Tomcat loopt: http://localhost:8080/solrwayback/
- Start solr: navigeer naar de map `solr-9\bin\` en voer volgend commando uit
solr.cmd start -c -m 4g - Check via volgende link of Solr loopt: "http://localhost:8983/solr/#/netarchivebuilder "
Gebruik
Indexeren in Linux/Mac
SolrWayback maakt gebruik van Solr index om full-text zoeken te ondersteunen alsook allerhande zoekopdrachten uit te voeren.
- Standaard zijn de mappen "warcs1" en "warcs2" voorzien om de WARC-bestanden in op te slaan voor indexering.
- Wanneer je alle WARC-bestanden in de map "warcs1" wil indexeren, voer dan volgend commando uit:
THREADS=2 ./warc-indexer.sh warcs1/*
Indexeren in Windows
Indexeren werkt anders in Windows dan in Linux of Mac.
- Stap 1: Kopieer de WARC-bestanden in de map "indexing\warcs1"
- Stap 2: Om alle bestanden te indexeren gebruik het commando:
indexing\batch_warcs1_folder.bat - Ga naar volgende URL wanneer het indexeren is voltooid: http://localhost:8983/solr/netarchivebuilder/update?commit=true
- De WARC-bestanden zijn raadpleegbaar via volgende link: http://localhost:8080/solrwayback/
Index logs
De logs van de indexering worden bewaard in de map "status".
Om een WARC-bestand te herindexeren, verwijder het overeenkomstige logbestand.
Raadpleging
- Ga naar http://localhost:8080/solrwayback/

Je kan zoeken aan de hand van een zoekbalk en de resultaten vervolgens verfijnen met filters die je naast de zoekbalk kan terugvinden (bijvoorbeeld domeinnaam, bestandstype (html, tekst, afbeeldingen, PDF,..), jaar van opname).

Daarnaast zijn er tools om de data te visualiseren zoals Wordcloud.
Met Wordcloud kun je de meest voorkomende woorden van een specifiek domein visualiseren. Hoe groter het woord, hoe vaker het voorkomt.

Met Link Graph kan je de relaties tussen verschillende domeinen visualiseren en tonen hoe verschillende domeinen in sferen zijn geclusterd in het archief.

Met domeinstatistieken kan je een aantal basisstatistieken genereren van een specifiek domein.

Met de Ngram-viewer kan je de frequentie van geselecteerde woorden of zinnen weergeven.

De data of een selectie ervan kan je exporteren in WARC, CSV, JSON of JSONL-formaat.

Huidige problemen
We stelden vast dat SolrWayback niet alle sociale media archieven volledig kan indexeren (probleem met het laden van de afbeeldingen).
Persistente URI:
https://id.kbde.be/0199a98b-99b6-710c-b0c9-2efd1cdd8525Licentie
- CC0
Type
Collectie
Expertisedomein
Deze pagina is laatst aangepast op 31 oktober 2025
Deze pagina aanvullen of corrigeren?
Foutje gespot? Of heb je aanvullende inzichten? Deel je ervaringen via onderstaande knop.
Zie je geen video? Pas dan je cookieinstellingen aan onderaan deze pagina: Cookie policy Klik op ‘verander uw toestemming’ vlak boven de tabel en vink ‘voorkeuren’ en ‘statistieken’ aan.