Ga verder naar de inhoud

Raadplegen van gearchiveerde websites en sociale media met SolrWayback

Gearchiveerde websites en sociale media raadplegen? Dat kan met SolrWayback, een webapplicatie die draait op een Solr-server en WARC-bestanden raadpleegbaar maakt met een WARC-indexer. Kom te weten hoe je het installeert en gebruikt.

Deze handleiding werd geschreven tijdens een edit-a-thon van het Praktijknetwerk Sociale Media Archiveren in 2025.

Auteurs

  • Jeroen Fernandez-Alonso (Amsab-ISG)
  • Sophie Bossaert (ADVN)

Vereisten en installatie

Vereisten:

  • Een collectie WARC-bestanden (van Wget, Heritrix, Webrecorder, Browsertrix,...)
  • Werkt in macOS/Linux/Windows

Optie 1: SolrWayback installeren via Docker

Vereisten:

Stap 1: Installatie

Stap 2: Solrwayback opstarten

  • Open je terminal
  • Voer het volgende commando uit: docker run --publish 8080:8080 --publish 8983:8983 --volume <path/to/WARCs>:/host_dir --tty --interactive solrwayback bash. Vervang <path/to/WARCs> door het path van de map waar je WARC-bestanden opgeslagen zitten. In deze map mogen enkel WARC-bestanden en andere mappen zitten.
  • Wanneer de docker-container opgestart is, voer je vervolgens volgende commando's een voor een uit:
    • export SOLRWAYBACK_VERSION=5.1.2
    • export APACHE_TOMCAT_VERSION=9
    • export SOLR_VERSION=9
    • ./unpacked-bundle/solrwayback_package_$SOLRWAYBACK_VERSION/solr-$SOLR_VERSION/bin/solr start -c
    • ./unpacked-bundle/solrwayback_package_$SOLRWAYBACK_VERSION/tomcat-$APACHE_TOMCAT_VERSION/bin/startup.sh

  • Open een browser en check of volgende links werken:
    • http://localhost:8080/solrwayback/ - hiermee test je of Solrwayback opgestart is.
    • http://localhost:8983/solr/#/ - hiermee test je of solr opgestart is.

  • Vervolgens kan je je WARC-files laten indexeren via volgend commando's:
    • WARC_FILES=$(find /host_dir/ -type f)
    • ./unpacked-bundle/solrwayback_package_$SOLRWAYBACK_VERSION/indexing/warc-indexer.sh $WARC_FILES

Optie 2: SolrWayback lokaal installeren in Linux/Mac

Vereisten:
  • Java 11
  • Tomcat 9+
  • Solr 9+

Stap 1: Installatie

  • Download de recentste versie via volgende link en pak het bestand uit: https://github.com/netarchivesuite/solrwayback/releases
  • Kopieer de bestanden properties/solrwayback.properties en properties/solrwaybackweb.properties naar de user/home/-map.
  • Wanneer je foutmeldingen krijgt tijdens de installatie of setup, verander dan de rechten op het bestand (startup.sh enz.). Op Linux en Mac kan dit via het volgende commando: chmod +x filename.sh. Verander filename.sh door de naam van het bestand waarvan je de rechten wil wijzigen.

Stap 2: Opstarten van SolrWayback

  • Start tomcat: tomcat-9/bin/startup.sh
  • Check via volgende link of Tomcat loopt: http://localhost:8080/solrwayback/
  • Start Solr: solr-9/bin/solr start -c -m 4g
  • Check via volgende link of Solr loopt: "http://localhost:8983/solr/#/netarchivebuilder "

Optie 3: SolrWayback lokaal installeren in Windows

Stap 1: Installatie

  • Download de recentste versie via volgende link en pak het bestand uit: https://github.com/netarchivesuite/solrwayback/releases
  • Kopieer de bestanden properties/solrwayback.properties en properties/solrwaybackweb.properties naar de user/home/-map.
  • Maak een "environment value" die verwijst naar de map met Java 11 (of Java 17):
JAVA_HOME=C:\Program Files\Java\jdk-11
  • Wanneer je foutmeldingen krijgt tijdens de installatie of setup, verander dan de rechten op het bestand (startup.sh enz.).

Stap 2: Opstarten van SolrWayback

  • Start tomcat: navigeer naar de map `tomcat-9\bin\` en voer volgend commando uit startup.bat
  • Check via volgende link of Tomcat loopt: http://localhost:8080/solrwayback/
  • Start solr: navigeer naar de map `solr-9\bin\` en voer volgend commando uit solr.cmd start -c -m 4g
  • Check via volgende link of Solr loopt: "http://localhost:8983/solr/#/netarchivebuilder "

Gebruik

Indexeren in Linux/Mac

SolrWayback maakt gebruik van Solr index om full-text zoeken te ondersteunen alsook allerhande zoekopdrachten uit te voeren.

  • Standaard zijn de mappen "warcs1" en "warcs2" voorzien om de WARC-bestanden in op te slaan voor indexering.
  • Wanneer je alle WARC-bestanden in de map "warcs1" wil indexeren, voer dan volgend commando uit: THREADS=2 ./warc-indexer.sh warcs1/*

Indexeren in Windows

Indexeren werkt anders in Windows dan in Linux of Mac.

  • Stap 1: Kopieer de WARC-bestanden in de map "indexing\warcs1"
  • Stap 2: Om alle bestanden te indexeren gebruik het commando: indexing\batch_warcs1_folder.bat
  • Ga naar volgende URL wanneer het indexeren is voltooid: http://localhost:8983/solr/netarchivebuilder/update?commit=true
  • De WARC-bestanden zijn raadpleegbaar via volgende link: http://localhost:8080/solrwayback/

Index logs

De logs van de indexering worden bewaard in de map "status".

Om een WARC-bestand te herindexeren, verwijder het overeenkomstige logbestand.

Raadpleging

  • Ga naar http://localhost:8080/solrwayback/

Je kan zoeken aan de hand van een zoekbalk en de resultaten vervolgens verfijnen met filters die je naast de zoekbalk kan terugvinden (bijvoorbeeld domeinnaam, bestandstype (html, tekst, afbeeldingen, PDF,..), jaar van opname).

Daarnaast zijn er tools om de data te visualiseren zoals Wordcloud.

Met Wordcloud kun je de meest voorkomende woorden van een specifiek domein visualiseren. Hoe groter het woord, hoe vaker het voorkomt.

Met Link Graph kan je de relaties tussen verschillende domeinen visualiseren en tonen hoe verschillende domeinen in sferen zijn geclusterd in het archief.

Met domeinstatistieken kan je een aantal basisstatistieken genereren van een specifiek domein.

Met de Ngram-viewer kan je de frequentie van geselecteerde woorden of zinnen weergeven.

De data of een selectie ervan kan je exporteren in WARC, CSV, JSON of JSONL-formaat.

Huidige problemen

We stelden vast dat SolrWayback niet alle sociale media archieven volledig kan indexeren (probleem met het laden van de afbeeldingen).

Organisatie

Licentie

  • CC0

Collectie

Deze pagina is laatst aangepast op 31 oktober 2025

Deze pagina aanvullen of corrigeren?

Foutje gespot? Of heb je aanvullende inzichten? Deel je ervaringen via onderstaande knop.