Handleiding voor het raadplegen van gearchiveerde websites en sociale media (HTML, WARC, WACZ)
Auteurs
Fien Messens m.m.v. Katrien Weyns
HTML-Zip bestand openen
Een webbron waarvan enkel de basisbestanden in html, pdf, jpg, doc, gif, enzovoort bewaard zijn, al dan niet in mappen, kan je bekijken vanuit de index-file. Deze bestanden zullen veelal gecomprimeerd als .zip, .7z, .tar, enzovoort ter beschikking gesteld worden en moeten uitgepakt worden om ze te raadplegen. De werkwijze is voor alle compressieformaten gelijkaardig.
- Download het bestand met extensie .zip, .7z, .tar, of ander compressieformaat. Zoek vervolgens het bestand op je computer. Wellicht werd dit bewaard onder een map "Downloads". Klik op het zip-bestand en klik daarna op je rechtermuisknop om “extract all” te kiezen.
- Kies een locatie waar je de uitgepakte bestanden gaat bewaren. Klik daarna op “extract”. Je kan er eventueel voor kiezen om deze map te openen na het extraheren, vink dan "Show extracted files when complete" aan.
- Je bestanden worden “uitgepakt”.
- Open de geëxtraheerde map en klik op het index.html - bestand (hier onderaan de in lijst). Een webpagina die lokaal opgeslagen is, opent zich in je internetbrowser. Dit index-bestand leidt meestal naar de homepage van waaruit je kan vertrekken en doorklikken.
- Bekijk de gearchiveerde website. Bovenaan in de adresbalk van je internetbrowser zie je waar het bestand op je computer bewaard is. Het is mogelijk dat je bij het doorklikken geleid wordt naar een nog actieve webpagina die online staat. In dat geval verschijnt er in de adresbalk “http” vooraan en bekijk je niet meer de gearchiveerde website.
WARC-bestand openen
ReplayWeb.page is een zeer eenvoudige tool waarmee webarchieven bekeken kunnen worden in de browser zonder dat je software moet installeren. Je kan er WARC-bestanden mee openen die lokaal op je computer, Google Drive, Amazon S3 of een webserver (via HTTP of HTTPS) staan. Je kan ook WARC-bestanden die geladen zijn in ReplayWeb.page delen met anderen, tenzij het om een WARC-bestand gaat dat lokaal op je computer staat. Lees hierover meer in de documentatie over de tool.
- Download het bestand met extensie .warc of .warc.gz. Warc.gz is een gecomprimeerd WARC-bestand.
- Ga in je internetbrowser naar https://replayWeb.page en klik op “choose file”.
- Kies je WARC-bestand dat je zou willen zien.
- Klik op “load” om je WARC-bestand te laden.
- Plaats de url van de gearchiveerde website in de zoekbalk. Zo vind je direct de pagina’s die je zoekt. Klik op een geel gearceerde pagina in de lijst eronder. Filter eventueel door op exact te klikken.
- Bekijk de gearchiveerde website.
- Afhankelijk van de gebruikte captatietool kan het ook mogelijk zijn dat je direct na het laden van het bestand een lijst van verschillende pagina’s krijgt. Je hoeft de url niet meer in de zoekbalk in te geven. Er bestaat hier de mogelijkheid om full text te gaan zoeken.
WACZ-bestand openen
Een WACZ-bestand bestaat uit een verzameling van gearchiveerde webbronnen (WARC-bestanden). Het voordeel van dit bestandsformaat is dat je meerdere webbronnen tegelijk full text kan doorzoeken.
- Ga in je internetbrowser naar https://replayWeb.page en klik op “choose file”.
- Klik op een .wacz bestand dat je wilt openen.
- Klik op “load”.
- Je kan ervoor kiezen om op een post in de lijst te klikken of full text te zoeken in de zoekbalk.
- Hier bekijk je de post en kan je doorklikken naar andere posts. Ook kan je in de zoekbalk naar specifieke woorden zoeken.
Organisatie
Licentie
- CC-BY
Type
Expertisedomein
Verwante software
Verwante standaarden
Deze pagina is laatst aangepast op 19 juni 2024
Deze pagina aanvullen of corrigeren?
Heb je aanvullingen of wil je iets rechtzetten? Dan kan je deze pagina makkelijk bewerken via onderstaande knop.