Ga verder naar de inhoud

Twitter archiveren met pywb

In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om socialemediaplatformen te archiveren. Deze handleiding beschrijft de tool pywb voor het archiveren van Twitter.
Pywb is een webarchiveringstoolkit voor het afspelen van webarchieven. Het werd eind 2020 door IIPC (International Internet Preservation Coalition) verkozen als de beste software om webarchieven af te spelen. Met pywb kan je rechtstreeks in de browser webarchieven afspelen en creëren. Het is een goede tool om dynamische websites, die je kan bekijken zonder in te loggen, te archiveren. Twitter is een voorbeeld van zo’n dynamische website waarbij je publieke accounts kan bekijken zonder dat je over een account moet beschikken.
Vereisten
  • Python
  • geen schrik van de command line

Voordelen
  • draait op Windows, macOs en Linux
  • archiveert sociale media in het standaardformaat WARC
  • archivering verloopt rechtstreeks in de browser
  • zelfde software voor het maken en afspelen van webarchieven
  • uitgebreide documentatie

Nadelen
  • zowel de installatie van de software als de creatie van crawls verlopen via de command line
  • niet geautomatiseerd
  • kan geen sociale media capteren waarvoor je je moet inloggen
  • creëert weinig metadata, enkel URL en tijdstempel van captatie.

Workflow


Stap 1: installeer de software


Pywb installeer je met pip, de Python package manager. Zorg daarom dat Python reeds op je computer geïnstalleerd is.
  • open een terminalvenster
  • gebruik het commando pip install pywb om pywb te installeren

Pywb is nu geïnstalleerd.

Stap 2: maak een collectie


Net zoals Browsertrix en Webrecorder werkt pywb met collecties.
  • maak een map voor je pywb webarchieven met een naam naar keuze. Doorheen deze handleidingen zullen we ze pywb-map noemen.

  • download dit configuratiebestand en plaats het in de pywb-map. Raadpleeg de pywb-documentatie als je pywb nog meer wil aanpassen.


  • open een terminalvenster en navigeer naar de pywb-map met het commando cd pad/naar/pywb-map  Verander pad/naar/pywb-map in het juiste pad voor de pywb-map. Als de map pywb-map op je Desktop staat, dan is het commando:
    • voor Windows: cd c:\Users\(username)\Desktop\pywb-map (vervang (username) door je gebruikersnaam)
    • voor macOS: cd ~/Desktop/pywb-map


  • geef een naam naar keuze aan je collectie. In deze handleidingen noemen we de collectie mijn-archief. Gebruik hiervoor het commando wb-manager init mijn-archief.


  • Hou het terminalvenster open en ga naar de volgende stap

Stap 3: start pywb in opnamemodus


Vervolgens moet pywb opgestart worden in opnamemodus en kunnen we starten met browsen doorheen het socialemediaplatform.
  • Keer terug naar het terminalvenster dat nog open staat van de vorige stap

  • Start pywb op met het commando wayback --record --live --enable-auto-fetch. Dit commando maakt het mogelijk om live websites op te nemen. --enable-auto-fetch zorgt ervoor dat pywb automatisch extra content downloadt van responsieve websites, zoals de individuele posts op de Twitter timeline. Ingebedde media van tweets worden automatisch gedownload, maar als je in het webarchief afbeeldingen wil bekijken in volledige grootte door op een afbeelding in een tweet te klikken, moet je ze bij het archiveren wel nog zelf openen; deze worden niet automatisch gedownload omdat Twitter ze een andere domeinnaam geeft.


  • Als alles goed verlopen is, zie je in de terminal de tekst [INFO]: Starting Gevent Server on 8080 verschijnen

  • Laat het terminalvenster open staan

Stap 4: navigeer doorheen het Twitter account


  • Ga naar http://localhost:8080/mijn-archief/record/https://twitter.com/twitter-user. Wijzig mijn-archief in de naam die je in de vorige stap aan je collectie gegeven hebt en twitter-user in de naam van het account.


  • Scroll doorheen de website (en open eventueel alle afbeeldingen) tot je alles bekeken hebt dat je wil archiveren. Tijdens het interageren met de webpagina zie je in de terminal tekst verschijnen. Dit wijst erop dat pywb de webpagina aan het archiveren is.


  • Als je klaar bent met archiveren, kan je de browser of het tabblad sluiten. Ook het terminalvenster kan je sluiten; of je kan de opdracht beëindigen door gelijktijdig ctrl en c in te drukken.

  • Bekijk je pywb-map. In de map collections/mijn-archief/archive zou je nu een warc.gz-bestand moeten zien.


Resultaat


Je hebt nu een webarchief in het WARC-formaat dat je kan bekijken.
  • Open weer een terminalvenster en navigeer terug naar de pywb-map: cd pad/naar/pywb-map

  • Start pywb op via het commando wayback -a. De -a optie zorgt ervoor dat er een index gecreëerd wordt van het WARC-bestanden in de collectie. Pywb gebruikt deze index om snel doorheen het WARC-bestand te kunnen zoeken.


  • Er verschijnen een aantal berichten in de terminal. Als het bericht [INFO]: ...Done ziet, dan is je webarchief klaar om af te spelen.

  • Ga naar http://localhost:8080/mijn-archief (vervang mijn-archief door de naam die je aan de collectie gegeven hebt).

  • Je zal een zoekvenster te zien krijgen. Typ de URL in die je gearchiveerd hebt.


  • Klik vervolgens op Search. Je zal een lijst zien met het aantal crawls dat je gedaan hebt voor die URL en de datum van die crawls. Normaal zou je één capture moeten zien.


  • Klik op de crawl en scroll doorheen de gearchiveerde webpagina.



Referenties


Licentie

  • CC-BY-SA

Collectie

Expertisedomein

Verwante software

Verwante standaarden

Deze pagina is laatst aangepast op 19 juni 2024

Deze pagina aanvullen of corrigeren?

Heb je aanvullingen of wil je iets rechtzetten? Dan kan je deze pagina makkelijk bewerken via onderstaande knop.