介绍
在本文中,您将学习如何使用Bose Framework刮擦G2.com。
此外,刮擦G2.com是进行竞争对手分析的绝佳方法。
Bose框架是一个基于硒的机器人开发框架,它提供了一套全面的工具和功能,专门旨在使开发人员容易机器人开发过程。
为了使刮擦G2.com变得容易,我已经准备了一个脚本,您可以使用该脚本有效地刮擦G2。本文将引导您完成使用脚本的步骤。
安装
- 克隆起动器模板
git clone https://github.com/omkarcloud/g2-scraper
cd g2-scraper
- 安装依赖项
python -m pip install -r requirements.txt
用法
- 在
extract_product_links.py
中指定您的Task.product_url
- 运行项目
python main.py
脚本将开始运行并输出进度更新到控制台。刮板完成后,它将在output
目录中生成一个名为pending.json
的JSON文件。 JSON文件将包含产品链接。
CloudFlare检测到机器人后,脚本将识别并提示您成功求解Cloudflare Catpcha后,请按控制台中的“ Enter”键。
附加,您不必配置硒驱动程序,因为它将根据您的Chrome浏览器版本自动下载适当的驱动程序。
- 在
main.py
中,将task
变量更改为src.extract_product_links
- 重播项目
python main.py
- 这些产品将被提取并存储在输出/成品中。CSV和utput/dearter.json文件。