Statische websites archiveren kan met de commandlinetool Wget. Dit computerprogramma haalt, zoals een webcrawler, content op van webservers. Deze handleiding legt uit hoe het werkt.
Wget is een computerprogramma dat, zoals een webcrawler, content ophaalt van webservers. Het is een command line tool en heeft dus geen grafische gebruikersomgeving (GUI). Deze tool kan je enkel bedienen met behulp van command line interfaces zoals Terminal (Linux en macOS) en Powershell (Windows). Wget is relatief snel en kan websites archiveren in het WARC-formaat. Het is ontworpen om robuust te zijn en kan ook webcontent downloaden als je internetconnectie zwak, traag of instabiel is. Dynamische of interactieve elementen zullen wel verloren raken tijdens het archiveren.
Auteur
Nastasia Vanderperren (meemoo)
Installatie
De software is standaard ingebouwd in Linuxcomputers
Macgebruikers kunnen wget installeren met Homebrew
Open de terminal.
Controleer eerst of je nog geen Homebrew hebt. Type brew --help in de terminal. Als je de versie van Homebrew terugkrijgt, bv. Homebrew 4.5.6, is Homebrew al geïnstalleerd.
Op Mac vind je terminal onder Programma’s > Hulpprogramma’s > Terminal;
Op Linux kan je zoeken op ‘Terminal’.
In de terminal typ je vervolgens één commando in waarmee je de volledige website kan downloaden zoals als WARC-bestand als HTML: wget --mirror --no-clobber --convert-links --page-requisites --html-extension --warc-file=bestandsnaam website
wget: de naam van de tool.
--mirror: download volledige websites en bewaar de originele bestandsstructuur van de website.
--no-clobber: overschrijf geen bestaande files, bv. in het geval de download zou stilvallen en terug (automatisch) heropgestart wordt.
--convert-links: zet absolute links om naar relatieve links zodat je ook offline kunt browsen.
--page-requisites: download ook alle elementen van de website die noodzakelijk zijn om de HTML-pagina's correct weer te geven
--html-extension: zet de pagina's om in HTML
--warc-file=bestandsnaam: ipv bestandsnaam zet je hier de bestandsnaam die je aan het warc-bestand wil geven
website: vul hier de URL van je website in.
voorbeeld van het commando: wget --mirror --no-clobber --convert-links --page-requisites --html-extension --warc-file=20180327_website_packed www.packed.be
Het commando in de terminal
Wget zal vervolgens al de bestanden van je webserver halen
Wget downloadt alle bestanden van de webserver
Wanneer wget klaar is (dit kan enige uren duren - afhankelijk van de grootte van je website), vind je een WARC-file in de thuismap van je computer.
Op Windows is dit \Users\gebruikersnaam.
Op Mac vind je deze map door in Finder voor Ga > Thuismap te kiezen.
Op Linux is dit /home/
Het WARC-bestand in de je thuismap
Om het WARC-bestand te openen, kan je ReplayWeb.page gebruiken. Je kan nu doorheen de volledige website offline navigeren zoals oorspronkelijk.
Zie je geen video? Pas dan je cookieinstellingen aan onderaan deze pagina:
Cookie policy
Klik op ‘verander uw toestemming’ vlak boven de tabel en vink ‘voorkeuren’ en ‘statistieken’ aan.