如何使用Python,Selenium和Bose框架刮擦G2
#教程 #python #webscraping #webscrapingtools

g2

介绍

在本文中,您将学习如何使用Bose Framework刮擦G2.com。

此外,刮擦G2.com是进行竞争对手分析的绝佳方法。

Bose框架是一个基于硒的机器人开发框架,它提供了一套全面的工具和功能,专门旨在使开发人员容易机器人开发过程。

为了使刮擦G2.com变得容易,我已经准备了一个脚本,您可以使用该脚本有效地刮擦G2。本文将引导您完成使用脚本的步骤。

安装

  1. 克隆起动器模板
git clone https://github.com/omkarcloud/g2-scraper
cd g2-scraper
  1. 安装依赖项
python -m pip install -r requirements.txt

用法

  • extract_product_links.py中指定您的Task.product_url
  • 运行项目
python main.py

脚本将开始运行并输出进度更新到控制台。刮板完成后,它将在output目录中生成一个名为pending.json的JSON文件。 JSON文件将包含产品链接。

CloudFlare检测到机器人后,脚本将识别并提示您成功求解Cloudflare Catpcha后,请按控制台中的“ Enter”键。

附加,您不必配置硒驱动程序,因为它将根据您的Chrome浏览器版本自动下载适当的驱动程序。

  • main.py中,将task变量更改为src.extract_product_links
  • 重播项目
python main.py
  • 这些产品将被提取并存储在输出/成品中。CSV和utput/dearter.json文件。