Ga verder naar de inhoud

brozzler

Brozzler is een gedistribueerde webcrawler die gebruik maakt van een echte browser (Chrome of Chromium) om webpagin's op te halen. Het is daarom in staat om dynamische websites te capteren. Het bevat scripts met menselijk gedrag om interacties te capteren (bv. naar beneden scrolling, media afspelen, etc.). Crawls worden opgestart via de command line; de voortgang kan gevolgd worden via een webinterface. Webarchieven worden opgeslagen in het WARC-formaat.

Installatie


Met pip3 install brozzler[easy] installeer je de crawler
Met pip3 install brozzler[dasboard] installeer je het dashboard om je crawls te volgen en te bekijken.

Getting started


Om brozzler op te starten moet je commando's ingeven in de command line interface.
De eenvoudigste manier om een website te capteren:
Vervolgens zal een browser openen en kan je geautomatiseerd gedrag zien in de browser zoals navigeren van pagina tot pagina, afbeeldingen openen en video's afspelen. Je kan de gearchiveerde webpagina's onmiddellijk openen via http://localhost:8880/brozzler/
Het is ook mogelijk om een website te laten crawlen via een job. Dit is een configuratiebestand waarmee je extra vereisten en informatie kan toevoegen aan de crawl, bv. metadata die mee ingebed moet worden, een gebruikersnaam en wachtwoord waarmee de crawler kan inloggen in de website, etc. Meer informatie over jobs kan je vinden op de Brozzler Job Configuration documentatie.

Brozzler Dashboard


Om de status van de crawl te volgen, kan je het dashboard gebruiken. Start het dashboard door in de command line het commando brozzler-dashboard in te geven. Vanaf dan zal het dashboard beschikbaar zijn op http://localhost:8000.