Ga verder naar de inhoud

Sociale netwerken scrapen met snscrape

In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om verschillende sociale media platformen te archiveren. Deze publicatie beschrijft de tool snscrape. Een tool die in het archiveringsproces van sociale media belangrijk is in het afbakenen van te archiveren content door het scrapen van URLS. Zodanig dat software zoals grab-site of wget meer efficient de content kunnen crawlen.
Snscrape is een open source CLI programma om informatie van sociale media te scrapen, meer bepaald: gebruikersprofielen, hashtags, zoekopdrachten. snscrape ondersteunt momenteel de volgende platformen en onderdelen:
  • Facebook: gebruikersprofielen en groepen
  • Instagram: gebruikersprofielen, hashtags en locaties
  • Telegram: kanalen
  • Twitter: gebruikersprofielen, hashtags, zoekopdrachten, threads en lijsten (zowel leden als berichten)
  • VKontakte: gebruikersprofielen

Snscrape gaat URL's scrapen naar een tekstbestand. Er wordt geen data gedownload. De software is vooral nuttig als eerste stap in het archiveringsproces van een sociaalmediaplatform.
In een volgende stap kan het bestand gebruikt worden in combinatie met bijvoorbeeld wget met de -i / --input optie om de URL's opgehaald door snscrape te downloaden.

Vereisten:

Snscrape vereist Python 3.6 of hoger. Python installeren op Windows, Mac Os X, Linux.
De installatie gebeurt via de terminal en pip (de python package manager).
Kopier en plak het volgende commando in de terminal. In het geval van windows, powershell of Command Prompt.
pip3 install snscrape
Of installeer de dev versie:
pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git

Gebruik

Snscrape verwacht een specifieke volgorde van opties om te werken.
snscrape module-naam target > /pad/waar/je/het/bestand/wilt/opslaan.extensie (target is hier de ID van het gebruikersprofiel of pagina id.)
> : Is een operater (redirect) die gebruikt wordt om resultaten van een command-line interface programma weg te schrijven of te "redirecten" naar een plek en of bestand.
Om bijvoorbeeld een bestaand bestand te updaten met nieuwe resultaten gebruik de "append" operator: >> gevolgd door het pad en bestandsnaam plus extensie.

Op windows verander de "/" naar "\".
Bijvoorbeeld: c:\Users\JouwGebruikersNaam\Documents\facebook\EenFacebookgroep.extensie
Om bijvoorbeeld te archiveren naar de map "snscrape" in de map "Documents" op windows. snscrape optie module-naam target > c:\Users\JouwGebruikersNaam\Documents\snscrape\bestand.extensie
Snscrape ondersteund verschillende platformen en of onderdelen: telegram-channel,vkontakte-user,weibo-user,facebook-group,instagram-user,instagram-hashtag,instagram-location,reddit-user,reddit-subreddit,reddit-search,twitter-thread,twitter-search,facebook-user,facebook-community,twitter-user,twitter-hashtag,twitter-list-posts,twitter-profile
Opties om de vooruitgang te bekijken of om de resultaten weg te schrijven naar jsonl komen meteen na snscrape. bijvoorbeeld: snscrape --json facebook-group IdVanFacebookGroep of snscrape --progress facebook-group IdVanFacebookGroep
Bij het gebruik van de optie --json gebruik de extensie ".jsonl". Bijvoorbeeld: snscrape --jsonl twitter-profile c:\Users\Lode\Documents\snscrape\bestand.jsonl

Voorbeelden



Twitter:


Om alle tweets te archiveren van een bepaalde gebruiker, in dit voorbeeld, @meemoo_be:
snscrape twitter-user meemoo_be
Om de output weg te schrijven naar een specifieke map en bestandsnaam:
snscrape twitter-user meemoo_be >/pad/naar/map/meemoo_be.txt"

Facebook Group (publiek):


snscrape facebook-group talkgent >TALK-Gent.txt

Troubleshooting

  • Verwijderen van snscrape
pip3 uninstall snscrape
  • Bij het testen met het commando snscrape --help werd duidelijk dat er problemen waren met de standaard versie van snscrape.


Oplossing: Installeer de dev versie van snscrape. pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git
  • Eind maart 2021 werd vastgesteld dat Facebook snscrape blokkeert ( issue #208). Tot zolang de developers achter snscrape dit niet hersteld hebben, kan deze handleiding niet gebruikt worden voor Facebook. Je kan wel proberen Facebook te archiveren met enkel Browertrix. Bekijk hiervoor de handleiding Sociale media

Licentie

  • CC-BY-SA

Medium

Expertisedomein

Verwante software

Deze pagina is laatst aangepast op 19 juni 2024

Deze pagina aanvullen of corrigeren?

Heb je aanvullingen of wil je iets rechtzetten? Dan kan je deze pagina makkelijk bewerken via onderstaande knop.