Ga verder naar de inhoud

Websites archiveren met Wget

Statische websites archiveren kan met de commandlinetool Wget. Dit computerprogramma haalt, zoals een webcrawler, content op van webservers. Deze handleiding legt uit hoe het werkt.

Wget is een computerprogramma dat, zoals een webcrawler, content ophaalt van webservers. Het is een command line tool en heeft dus geen grafische gebruikersomgeving (GUI). Deze tool kan je enkel bedienen met behulp van command line interfaces zoals Terminal (Linux en macOS) en Powershell (Windows). Wget is relatief snel en kan websites archiveren in het WARC-formaat. Het is ontworpen om robuust te zijn en kan ook webcontent downloaden als je internetconnectie zwak, traag of instabiel is. Dynamische of interactieve elementen zullen wel verloren raken tijdens het archiveren.

Auteur

Nastasia Vanderperren (meemoo)

Installatie

  • De software is standaard ingebouwd in Linuxcomputers
  • Macgebruikers kunnen wget installeren met Homebrew
    • Open de terminal.
    • Controleer eerst of je nog geen Homebrew hebt. Type brew --help in de terminal. Als je de versie van Homebrew terugkrijgt, bv. Homebrew 4.5.6, is Homebrew al geïnstalleerd.
    • Installeer Homebrew als het nog niet geïnstalleerd is. Plak daarvoor volgend commando in de Terminal en druk op enter: /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
    • Installeer wget door volgend commando uit te voeren in de terminal: brew install wget
  • Windowsgebruikers kunnen een Windowsversie downloaden en installeren via deze website of kunnen WSL (een Linuxomgeving voor Windows) gebruiken.

Gebruik

  • Open de terminal.
    • Bij Windows is dit via Powershell of WSL
    • Op Mac vind je terminal onder Programma’s > Hulpprogramma’s > Terminal;
    • Op Linux kan je zoeken op ‘Terminal’.

  • In de terminal typ je vervolgens één commando in waarmee je de volledige website kan downloaden zoals als WARC-bestand als HTML: wget --mirror --no-clobber --convert-links --page-requisites --html-extension --warc-file=bestandsnaam website
    • wget: de naam van de tool.
    • --mirror: download volledige websites en bewaar de originele bestandsstructuur van de website.
    • --no-clobber: overschrijf geen bestaande files, bv. in het geval de download zou stilvallen en terug (automatisch) heropgestart wordt.
    • --convert-links: zet absolute links om naar relatieve links zodat je ook offline kunt browsen.
    • --page-requisites: download ook alle elementen van de website die noodzakelijk zijn om de HTML-pagina's correct weer te geven
    • --html-extension: zet de pagina's om in HTML
    • --warc-file=bestandsnaam: ipv bestandsnaam zet je hier de bestandsnaam die je aan het warc-bestand wil geven
    • website: vul hier de URL van je website in.
    • voorbeeld van het commando: wget --mirror --no-clobber --convert-links --page-requisites --html-extension --warc-file=20180327_website_packed www.packed.be

Het commando in de terminal

  • Wget zal vervolgens al de bestanden van je webserver halen
Wget downloadt alle bestanden van de webserver
  • Wanneer wget klaar is (dit kan enige uren duren - afhankelijk van de grootte van je website), vind je een WARC-file in de thuismap van je computer.
    • Op Windows is dit \Users\gebruikersnaam.
    • Op Mac vind je deze map door in Finder voor Ga > Thuismap te kiezen.
    • Op Linux is dit /home/

Het WARC-bestand in de je thuismap

  • Om het WARC-bestand te openen, kan je ReplayWeb.page gebruiken. Je kan nu doorheen de volledige website offline navigeren zoals oorspronkelijk.

Het WARC-bestand geopend in een WARC-viewer

Licentie

  • CC-BY-SA

Medium

Collectie

Expertisedomein

Deze pagina is laatst aangepast op 31 oktober 2025

Deze pagina aanvullen of corrigeren?

Foutje gespot? Of heb je aanvullende inzichten? Deel je ervaringen via onderstaande knop.