Websites archiveren met browsertrix-crawler

In het kader van het Praktijknetwerk Sociale Media Archiveren werden verschillende tools getest. Deze handleiding beschrijft hoe je de tool browsertrix-crawler kan gebruiken om websites te archiveren.

Inhoud

Installeer de software
Websites archiveren met Browsertrix Crawler
Aanvulling: beveiligde websites archiveren met browsertrix-crawler
Geavanceerde opties
- De crawl opnieuw opstarten na een onderbreking
- Webarchief fulltext doorzoekbaar maken
Voetnoten

Deze handleiding werd gemaakt in 2025. Contacteer Nastasia wanneer je een probleem ervaart

Browsertrix Crawler is een crawler waarmee websites gecapteerd kunnen worden met behulp van geautomatiseerde browsers. De geautomatiseerde browsers kunnen zowel complex gedrag uitvoeren (bv. autoscrollen en media afspelen) als meerdere websites en webpagina's gelijktijdig capteren. Het is ook mogelijk om profielen aan te maken waarmee je kan inloggen in websites die met een wachtwoord beveiligd zijn. Dit maakt Browsertrix-crawler geschikt om websites te archiveren. Voor sociale media is het niet geschikt. De websites worden opgeslagen in WARC, het standaardformaat voor webarchieven, en WACZ, een containerformaten voor webarchieven.

Vereisten

Docker, software waarmee digitale containers gemaakt worden om eenvoudig applicaties te installeren en beheren;
stabiele internetverbinding;
basiskennis van de command line.

Voordelen

draait op Windows, macOS en Linux;
archiveert websites en sociale media in het standaardformaat WARC;
geautomatiseerd;
archiveringsproces kan gevolgd worden via een browser;
door het aanmaken van profielen kan je de crawler laten inloggen in beveiligde websites;
via een webinterface kan gearchiveerde content geraadpleegd worden i.f.v. kwaliteitscontrole;
via de webinterface is full-text search in gearchiveerde webpagina’s mogelijk;
crawlopdrachten kunnen verfijnd worden via een configuratiebestand.
wanneer de crawl onverwacht onderbroken wordt, dan wordt de huidige voortgang bewaard zodat je die opnieuw kan opstarten.

Nadelen

zowel de installatie van de software als de creatie van crawls en inlogprofielen verlopen via de command line;
geen controle over het archiveringsproces waardoor je niet weet of de website volledig gearchiveerd werd;
het geautomatiseerd gedrag werkt niet altijd goed;
creëert weinig metadata, enkel URL en tijdstempel van captatie.

Installeer de software

Installeer Docker

Windows
macOS > Voor Mac is het noodzakelijk om achteraf nog volgend commando uit te voeren in de terminal: export PATH="$PATH:/Applications/Docker.app/Contents/Resources/bin/"
Linux

Start Docker en voer volgend commando uit in de command line: docker pull webrecorder/browsertrix-crawler. Hiermee wordt de code van browsertrix-crawler in je docker-omgeving gedownload. Dit kan een tiental minuten duren.

Websites archiveren met Browsertrix Crawler

Kies een map waar je de gecapteerde websites wil bewaren en voer onderstaande commando’s uit.

cd [path-van-de-map] Vervang [path-van-de-map] door het path van de map waarin je de gecrawlde websites wil bewaren. Als je het archief bijvoorbeeld wil bewaren op je Desktop, dan doe je cd ~/Desktop¹

Voer vervolgens een commando uit om de te archiveren website zowel in WARC als WACZ te bewaren: docker run -v $PWD/crawls:/crawls -it webrecorder/browsertrix-crawler crawl --url [URL] --generateWACZ –combineWARC --collection [naam van de collectie]² Vervang [URL] door de URL van de te archiveren website en vervang [naam van de collectie] door de naam van de te archiveren website.

--generateWACZ creëert het WACZ-bestand.
browsertrix-crawler maakt verschillende WARC-bestanden bij het crawlen van een website/webpagina. --combineWARC zorgt ervoor dat de verschillende WARC-bestanden samengevoegd worden
Voorbeeld: docker run -v $PWD/crawls:/crawls -it webrecorder/browsertrix-crawler crawl --url https://meemoo.be --generateWACZ --combineWARC --collection meemoo_be

Zodra je het bovenstaande commando uitgevoerd hebt, verschijnt er een mapje crawls in de map waarin je de gearchiveerde websites wil bewaren.

De crawl zal nu lopen en geeft output in de command line om de voortgang te tonen. Afhankelijk van de grootte van de website, kan dit even duren (soms zelfs meerdere dagen). Je kan de crawl ook vroegtijdig beëindigen door de toetsen ctrl en c samen in te drukken.

Wanneer de crawl gedaan is, vind je een WACZ- en WARC-bestand in crawls/collections/[naam van de collectie]. Deze kan je openen met de ReplayWeb.page website of applicatie. Het WACZ-bestand kan je fulltext doorzoeken als je de --text-optie gebruikt hebt (Zie hiervoor Webarchief fulltext doorzoekbaar maken).

Aanvulling: beveiligde websites archiveren met browsertrix-crawler

Om websites te archiveren die beveiligd zijn met een wachtwoord (zoals sociale media) kan je een profiel aanmaken. Op deze manier wordt ook vermeden dat deze privacygevoelige gegevens opgenomen worden in een WARC- of WACZ-bestand. Je kan de inhoud van een sociale media pagina niet archiveren zonder eerst met een account in te loggen.

cd [path-van-de-map]: Vervang [path-van-de-map] door het path van de map waarin je de gecrawlde websites wil bewaren.

Voer volgend commando in om een profiel te maken: docker run -p 6080:6080 -p 9223:9223 -v $PWD/crawls/profiles:/crawls/profiles -it webrecorder/browsertrix-crawler create-login-profile --url "[URL]". Vervang [URL] door de URL van de website waarvoor je een profiel wil maken.

Open een browser en ga naar http://localhost:9223/. Vanaf nu kan je in dit tabblad naar iedere beveiligde website gaan die je wil archiveren en je inloggen. Als je klaar bent, druk je op de knop Create profile

Als het profiel opgeslagen is, krijg je de melding dat je het tabblad mag sluiten.

Er is ook een profile.tar.gz-bestand gecreëerd in de map crawls/profiles/

Om een website te capteren met dit profiel, verwijs je in het commando naar de locatie van het profiel. De website wordt dan gecapteerd alsof je ingelogd bent: docker run -v $PWD/crawls:/crawls -it webrecorder/browsertrix-crawler crawl --profile /crawls/profiles/profile.tar.gz --url [URL] --generateWARC --collection [naam van de collectie]. Vervang [URL] door de URL van de te archiveren website en [naam van de collectie] door de naam van de te archiveren website.

Geavanceerde opties

De crawl opnieuw opstarten na een onderbreking

Het crawlen van grote websites kan soms uren tot dagen duren. Het is echter niet altijd mogelijk om je computer zo lang aan te laten staan. Daarom bewaart browsertrix-crawler automatisch de huidige staat van je crawl wanneer de crawlsessie onderbroken wordt. Daarmee kan je dan later de sessie heropstarten zonder dat de hele website opnieuw gecapteerd moet worden. De staat wordt bewaard in een .yaml-bestand in de crawls/collections/[naam-van-collectie]/crawls-map.

state:
  extraSeeds:
	- '{"origSeedId":0,"newUrl":"https://meemoo.be/nl"}'
  finished:
	- https://meemoo.be/nl/advies-geven-over-digitaalerfgoedprocessen
	- https://meemoo.be/
	- https://meemoo.be/nl/privacybeleid
  queued:
	- '{"added":"2025-01-24T15:52:58.218Z","url":"https://meemoo.be/nl/content-toegankelijk-en-bruikbaar-maken","seedId":1,"depth":1,"extraHops":0}'
	- '{"added":"2025-01-24T15:52:58.218Z","url":"https://meemoo.be/nl/digitaliseren-digitaal-bewaren-en-beheren","seedId":1,"depth":1,"extraHops":0}'
	- '{"added":"2025-01-24T15:52:58.218Z","url":"https://meemoo.be/nl/wat-doet-meemoo","seedId":1,"depth":1,"extraHops":0}'
- ...


  pending: []
  sitemapDone: false
  failed: []
  errors: []

Het YAML-bestand bewaart enkel de URL’s die al gearchiveerd werden en die nog in de wachtrij staan. Het commando zelf dat je uitgevoerd hebt, wordt niet bewaard. Je moet daarom steeds het volledige commando terug invoeren in de command line om de crawlsessie te herstarten. Je verwijst browsertrix-crawler naar het YAML-bestand door de --config-optie aan je commando toe te voegen.

docker run -v $PWD/crawls:/crawls -it webrecorder/browsertrix-crawler crawl [rest van het commando] --config /crawls/collections/[naam van de collectie]/crawls/[bestandsnaam].yaml

Vervang [rest van het commando] door je eerdere commando vanaf crawl
Vervang [naam van de collectie] door de naam die je aan de collectie gegeven hebt (bv. de naam van de website)
Vervang [bestandsnaam] door de bestandsnaam van het YAML-bestand.

Vooorbeeld:

docker run -v $PWD/crawls:/crawls -it webrecorder/browsertrix-crawler crawl --url https://meemoo.be --generateWACZ --combineWARC --collection meemoo_be --config /crawls/collections/meemoo_be/crawls/crawl-20250127151939-903d2b0ef57d.yaml

Webarchief fulltext doorzoekbaar maken

Browsertrix-crawler kan de volledige tekst van de website scrapen en bewaren in het WACZ-bestand zodat het webarchief fulltext doorzoekbaar is. Gebruik daarvoor de --text optie.

docker run -v $PWD/crawls:/crawls -it webrecorder/browsertrix-crawler crawl --url [URL] --generateWACZ –combineWARC --collection [naam van de collectie]

vervang [URL] door de URL van de te archiveren website
vervang [naam van de collectie] door de naam van de te archiveren website

Voetnoten

↑ Dit kan anders zijn op computers die geback-upt worden door OneDrive.
↑ Er zijn nog verchillende opties die je kan toevoegen. De volledige lijst vind je in de handleiding gemaakt door Webrecorder.