最近,我构建了一个工业规模的网络刮板。这是我学到的。
- 为什么要构建可扩展的刮刀/爬行者?
- Google的主要产品(他们的搜索引擎)被Web刮板和爬网授予以不可思议的规模提取数据。
- 打开AI的能力(和意愿),可以在互联网上使用刮刀和爬网访问数据,这是使他们有权建立(并不断改进)Chatgpt的方法。
-
与上十年不同,智能是您可以建立,使用和销售的东西,其中一个捕获物是您需要大量的一种资源来做到这一点,并且该资源是很多数据的地狱。<<<<<<<<<<<<<<<<<< /p>
-
在编程上使用铬很有帮助(我选择了木偶)
-
工业规模需要使用代理(我在住宅代理之间旋转)
-
bot可以通过robots.txt文件找到网站(询问SEO专家)
-
绕过验证码,尽管在道德上有疑问,但似乎并不是针对您的机器人进行编程的非法行为。 (我探索了能够满足我自己的好奇心的Github Python程序。