Ga verder naar de inhoud

Sociale netwerken scrapen met snscrape

In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om verschillende sociale media platformen te archiveren. Deze publicatie beschrijft de tool snscrape. Een tool die in het archiveringsproces van sociale media belangrijk is in het afbakenen van te archiveren content door het scrapen van URLS. Zodanig dat software zoals grab-site of wget meer efficient de content kunnen crawlen.

Snscrape is een open source CLI programma om informatie van sociale media te scrapen, meer bepaald: gebruikersprofielen, hashtags, zoekopdrachten. snscrape ondersteunt momenteel de volgende platformen en onderdelen:

  • Facebook: gebruikersprofielen en groepen
  • Instagram: gebruikersprofielen, hashtags en locaties
  • Telegram: kanalen
  • Twitter: gebruikersprofielen, hashtags, zoekopdrachten, threads en lijsten (zowel leden als berichten)
  • VKontakte: gebruikersprofielen

Snscrape gaat URL's scrapen naar een tekstbestand. Er wordt geen data gedownload. De software is vooral nuttig als eerste stap in het archiveringsproces van een sociaalmediaplatform.

In een volgende stap kan het bestand gebruikt worden in combinatie met bijvoorbeeld wget met de -i / --input optie om de URL's opgehaald door snscrape te downloaden.

Vereisten:

Snscrape vereist Python 3.6 of hoger.

Python installeren op

Windows, Mac Os X, Linux.

De installatie gebeurt via de terminal en pip (de python package manager).

Kopier en plak het volgende commando in de terminal. In het geval van windows, powershell of Command Prompt.

pip3 install snscrape

Of installeer de dev versie:

pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git

Gebruik

Snscrape verwacht een specifieke volgorde van opties om te werken.

snscrape module-naam target > /pad/waar/je/het/bestand/wilt/opslaan.extensie (target is hier de ID van het gebruikersprofiel of pagina id.)
> : Is een operater (redirect) die gebruikt wordt om resultaten van een command-line interface programma weg te schrijven of te "redirecten" naar een plek en of bestand.

Om bijvoorbeeld een bestaand bestand te updaten met nieuwe resultaten gebruik de "append" operator:

>> gevolgd door het pad en bestandsnaam plus extensie.

Op windows verander de "/" naar "\".

Bijvoorbeeld:

c:\Users\JouwGebruikersNaam\Documents\facebook\EenFacebookgroep.extensie

Om bijvoorbeeld te archiveren naar de map "snscrape" in de map "Documents" op windows.

snscrape optie module-naam target > c:\Users\JouwGebruikersNaam\Documents\snscrape\bestand.extensie

Snscrape ondersteund verschillende platformen en of onderdelen:

telegram-channel,vkontakte-user,weibo-user,facebook-group,instagram-user,instagram-hashtag,instagram-location,reddit-user,reddit-subreddit,reddit-search,twitter-thread,twitter-search,facebook-user,facebook-community,twitter-user,twitter-hashtag,twitter-list-posts,twitter-profile

Opties om de vooruitgang te bekijken of om de resultaten weg te schrijven naar jsonl komen meteen na snscrape.

bijvoorbeeld: snscrape --json facebook-group IdVanFacebookGroep of snscrape --progress facebook-group IdVanFacebookGroep

Bij het gebruik van de optie --json gebruik de extensie ".jsonl".

Bijvoorbeeld:

snscrape --jsonl twitter-profile c:\Users\Lode\Documents\snscrape\bestand.jsonl

Voorbeelden

Twitter:

Om alle tweets te archiveren van een bepaalde gebruiker, in dit voorbeeld, @meemoo_be:

snscrape twitter-user meemoo_be

Om de output weg te schrijven naar een specifieke map en bestandsnaam:

snscrape twitter-user meemoo_be >/pad/naar/map/meemoo_be.txt"

Facebook Group (publiek):

snscrape facebook-group talkgent >TALK-Gent.txt

Troubleshooting

  • Verwijderen van snscrape
pip3 uninstall snscrape

  • Bij het testen met het commando snscrape --help werd duidelijk dat er problemen waren met de standaard versie van snscrape.

Oplossing: Installeer de dev versie van snscrape. pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git

  • Eind maart 2021 werd vastgesteld dat Facebook snscrape blokkeert ( issue #208). Tot zolang de developers achter snscrape dit niet hersteld hebben, kan deze handleiding niet gebruikt worden voor Facebook. Je kan wel proberen Facebook te archiveren met enkel Browertrix. Bekijk hiervoor de handleiding Sociale media

Licentie

  • CC-BY-SA

Medium

Expertisedomein

Verwante software

Deze pagina is laatst aangepast op 19 juni 2024

Deze pagina aanvullen of corrigeren?

Foutje gespot? Of heb je aanvullende inzichten? Deel je ervaringen via onderstaande knop.