Semalt: gebruik van de Chrome-extensie Web Scrapper

Er is een enorme hoeveelheid data beschikbaar via het net. Het kan een arbeidsintensief proces zijn om gegevens rechtstreeks van een site naar een bruikbare database te kopiëren. Daarom kan het gebruik van een webschraapmethode om gegevens van websites te extraheren tijd, energie en geld besparen.

Webscraping, ook bekend als Web Data Extraction of Web Harvesting, is een proces waarbij bots worden gebruikt om gegevens van sites te extraheren. Webschrapers navigeren door een site, beoordelen de inhoud ervan en trekken deze vervolgens in een spreadsheet of database.

Er is een overvloed aan tools voor webschrapen op de markt, maar deze zijn vrij duur en niet gemakkelijk te gebruiken voor niet-technisch onderlegde mensen. De Chrome-extensie Web Scraper is echter gratis en gemakkelijk te gebruiken. Met deze extensie kunt u het proces zelfs halverwege zijn werk stoppen.

U kunt Web Scraper Chrome Extension-software downloaden van de Google Chrome Web Store. Het enige nadeel is dat je de site handmatig moet schrapen en het is geen gemakkelijk proces. U kunt ook niet programmatisch met regelmatige tussenpozen uitvoeren.

Installatie van Chrome-extensie Web Scraper

  • Open de Google Chrome-browser;
  • Bezoek de Chrome Web Store en zoek naar Web Scraper Extension;
  • Voeg de tool toe aan Chrome;
  • U bent nu klaar om websites te gaan schrapen met uw Chrome-browser.

Zodra de schraper is geïnstalleerd, drukt u op F12 om de Google Chrome-ontwikkeltools te openen. U kunt ook met de rechtermuisknop op het scherm klikken en "inspecteer element" selecteren. Zodra u de ontwikkelaarstools opent, ziet u een tabblad met de naam "Web Scraper".

Laten we nu leren hoe we dit op een live webpagina kunnen gebruiken. Laten we ons voorstellen dat we de Awesomegifs-website willen schrappen en er wat inhoud en gegevens uit willen halen. Open de site. Wat zie je als eerste? Afbeeldingen zijn lui geladen, toch?

Zodra u een webpagina opent, moet u de gif-afbeeldings-URL's extraheren. Dit betekent dat u de CSS-selector moet identificeren die overeenkomt met de afbeeldingen. De website heeft ongeveer 130 pagina's met afbeeldingen; en om tussen pagina's te wisselen, moet u het nummer van de pagina wijzigen die momenteel 125 is. De eenvoudigste manier om dit te doen is door een nieuwe sitemap te maken en het veld Start-URL toe te voegen. Op deze manier wordt de Web Scraper gevraagd om de URL continu te openen, waardoor de uiteindelijke waarde in het proces wordt verhoogd. Het opent de eerste pagina, de tweede pagina, de derde pagina ... tot het de pagina 125 bereikt.

Om te beginnen met schrapen, opent u het tabblad sitemap en klikt u op "Schrapen". De tool begint met het schrapen van de vereiste gegevens. Als u het schraapproces in het midden wilt stoppen, sluit u gewoon het venster en gaat u naar het tabblad sitemap om de geëxtraheerde gegevens naar een CSV-bestand te exporteren.