刮擦应该是关于extracting content from HTML。听起来很简单，但有许多障碍。第一个是获得上述HTML。为此，我们将使用 python避免检测。

可能需要绕过反机器人系统。网络刮擦而不会使用python或任何其他工具被阻止，这是在公园里散步的。

网站倾向于保护其数据和访问。防御系统可以采取许多可能的行动。与我们一起学习如何使用 Requests 或 Playwright。

注意：按大规模测试时，切勿直接使用家庭IP。一个小错误或滑倒，您将被禁止。

另外，这是出于信息目的，并确保您在授权的网站或平台上使用它。

先决条件

要使代码工作，您将需要Python 3 installed。一些系统已预装。之后，通过运行PIP安装来安装所有必要的库。

pip install requests playwright 
npx playwright install

IP率限制

最基本的安全系统是从同一IP禁止或节气门请求。这意味着常规用户不会在几秒钟内要求一百页，因此连接将被标记为危险。

import requests 

response = requests.get('http://httpbin.org/ip') 
print(response.json()['origin']) 
# xyz.84.7.83

IP率限制与API速率限制相似，但通常没有公共信息。我们可以确定我们可以安全地提出多少要求。

我们的互联网服务提供商为我们分配了我们的IP，我们可以影响或掩盖。解决方案是更改它。我们可以修改机器的IP，但可以使用不同的机器。数据中心可能具有不同的IP，尽管这不是真正的解决方案。

代理是。他们提出了传入的请求，并将其传递到最终目的地。它在那里没有处理。但这足以掩盖我们的IP并绕过块，因为目标网站将看到代理的IP。

旋转代理

即使我们不推荐它们，也有free proxies。他们可能会用于测试，但可靠。在某些示例中可以看出，我们可以使用其中一些进行测试。

现在我们有不同的IP，我们的家庭连接是安全且合理的。好的。但是，如果他们阻止代理IP怎么办？我们回到初始位置。

我们不会详细介绍免费代理。只需使用the next one on the list即可。由于它们的寿命通常很短，因此经常更改它们。

付费代理服务，另一方面提供IP旋转。我们的服务将类似地工作，但是该网站会看到不同的IP。在某些情况下，它们每次请求或每隔几分钟都旋转。无论如何，他们很难禁止。当它发生时，我们将很快获得新的IP。

import requests 

proxies = {'http': 'http://190.64.18.177:80'} 
response = requests.get('http://httpbin.org/ip', proxies=proxies) 
print(response.json()['origin']) # 190.64.18.162

我们知道这些；这意味着机器人检测服务也知道它们。一些大公司将阻止已知代理IP或数据中心的流量。对于这些情况，有一个较高的代理水平：住宅。

住宅代理更昂贵，有时是带宽限制的，但它们为我们提供了普通人使用的IP。这意味着我们的移动提供商可以明天分配IP。或昨天有一个朋友。他们与实际最终用户没有区别。

我们可以刮擦我们想要的任何东西，对吗？默认情况下，便宜的价格便宜，必要时昂贵。不，还没有。我们只通过了第一个障碍，还有一些障碍。我们必须看起来像合法的用户，以免被标记为机器人或刮刀。

用户代理标头

下一步将是检查我们的请求标题。最著名的是User-Agent（简称UA），但还有更多。 ua遵循我们将稍后再见的格式，例如，许多软件工具，例如Googlebot，都有自己的。

如果我们使用Python请求或直接卷曲，则目标网站将收到的内容。

import requests 

 

response = requests.get('http://httpbin.org/headers') 

print(response.json()['headers']['User-Agent']) 

# python-requests/2.25.1

curl http://httpbin.org/headers # { ... "User-Agent": "curl/7.74.0" ... }

许多网站都会检查UA，但这对于这样做的网站是一个巨大的危险信号。我们必须伪造它。幸运的是，大多数库都允许自定义标题。按照示例使用请求：

import requests 

 

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36"} 

response = requests.get('http://httpbin.org/headers', headers=headers) 

print(response.json()['headers']['User-Agent']) # Mozilla/5.0 ...

要获取当前的用户代理，请访问httpbin，就像代码片段所做的那样并复制它。 请求使用相同UA的所有URL也可能触发一些警报，使解决方案更加复杂。

理想情况下，我们将拥有所有当前可能的用户代理，并像对IPS一样旋转它们。由于这几乎是不可能的，我们至少可以有一些。有lists of User-Agents可供我们选择。

import requests 

import random 

 

user_agents = [ 

        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 

        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36', 

        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36', 

        'Mozilla/5.0 (iPhone; CPU iPhone OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148', 

        'Mozilla/5.0 (Linux; Android 11; SM-G960U) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Mobile Safari/537.36' 

] 

user_agent = random.choice(user_agents) 

headers = {'User-Agent': user_agent} 

response = requests.get('https://httpbin.org/headers', headers=headers) 

print(response.json()['headers']['User-Agent']) 

# Mozilla/5.0 (iPhone; CPU iPhone OS 12_2 like Mac OS X) ...

请记住，浏览器经常更改版本，并且该列表可以在几个月内过时。如果我们要使用用户代理旋转，那么可靠的来源至关重要。我们可以手工做或使用服务提供商。

我们更近了，但是标题中仍然存在一个缺陷：反机器人系统也知道此技巧，并检查其他标题以及用户代理。

全套标题

每个浏览器甚至版本都会发送不同的标题。检查Chrome和Firefox的作用：

{ 

        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", 

        "Accept-Encoding": "gzip, deflate, br", 

        "Accept-Language": "en-US,en;q=0.9", 

        "Host": "httpbin.org", 

        "Sec-Ch-Ua": "\"Chromium\";v=\"92\", \" Not A;Brand\";v=\"99\", \"Google Chrome\";v=\"92\"", 

        "Sec-Ch-Ua-Mobile": "?0", 

        "Sec-Fetch-Dest": "document", 

        "Sec-Fetch-Mode": "navigate", 

        "Sec-Fetch-Site": "none", 

        "Sec-Fetch-User": "?1", 
        "Upgrade-Insecure-Requests": "1", 
        "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" 

}

{ 

        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", 
        "Accept-Encoding": "gzip, deflate, br", 
        "Accept-Language": "en-US,en;q=0.5", 
        "Host": "httpbin.org", 
        "Sec-Fetch-Dest": "document", 
        "Sec-Fetch-Mode": "navigate", 
        "Sec-Fetch-Site": "none", 
        "Sec-Fetch-User": "?1", 
        "Upgrade-Insecure-Requests": "1", 
        "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:90.0) Gecko/20100101 Firefox/90.0" 
}

这意味着您认为这意味着什么。以前的具有五个用户代理的数组不完整。我们需要每个用户代理具有完整标题的数组。对于简洁起见，我们将显示一个带有一项的列表。已经足够长了。

在这种情况下，复制httpbin的结果不够。理想是将其直接从源复制。 Firefox，Chrome Devtools或您的浏览器等效的最简单方法。

转到“网络”选项卡，访问目标网站，右键单击请求，然后复制为curlâ。然后convert the cURL syntax to Python并将标题粘贴到列表中。

import requests 

import random 

 

headers_list = [{ 

        'authority': 'httpbin.org', 

        'cache-control': 'max-age=0', 

        'sec-ch-ua': '"Chromium";v="92", " Not A;Brand";v="99", "Google Chrome";v="92"', 

        'sec-ch-ua-mobile': '?0', 

        'upgrade-insecure-requests': '1', 

        'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36', 

        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9', 

        'sec-fetch-site': 'none', 

        'sec-fetch-mode': 'navigate', 

        'sec-fetch-user': '?1', 

        'sec-fetch-dest': 'document', 

        'accept-language': 'en-US,en;q=0.9', 

} # , {...} 

] 

headers = random.choice(headers_list) 

response = requests.get('https://httpbin.org/headers', headers=headers) 

print(response.json()['headers'])

我们可以为额外的安全性添加推荐人标头，例如Google或同一网站的内部页面。它将掩盖我们始终在没有互动的情况下直接要求URL的事实。

但是要小心，因为添加推荐人会更改更多标题。您不希望您的python请求脚本被这样的错误所阻止。

cookie

我们忽略了上面的cookies，因为它们应该得到一个单独的部分。 cookie可以帮助您绕过一些反机器人或阻止您的请求。它们是我们需要正确理解的强大工具。

例如，cookie可以跟踪用户会话，并在登录后记住该用户。网站为每个新用户分配一个cookie会话。有很多方法可以做到这一点，但是我们会尝试简化。然后，用户的浏览器将在每个请求中发送该cookie，以跟踪用户的活动。

这是怎么回事？我们使用旋转代理，因此每个请求可能与不同地区或国家 /地区具有不同的IP。反机器人可以看到并阻止该模式，因为这不是用户浏览的自然方式。

另一方面，一旦绕过反机器人解决方案，它将发送有价值的饼干。防守系统是否会检查两次是否看起来合法。查看how to bypass Cloudflare以获取更多信息。

cookie会帮助我们的python请求脚本以避免检测机器人吗？还是他们会伤害我们并使我们被阻止？答案在于我们的实施。

对于简单的情况，不发送cookie可能最有效。无需维护会话。

对于更高级的案例和反机器软件，会话cookie可能是访问和刮擦最终内容的唯一方法。始终考虑会话请求和IP必须匹配。

如果我们希望在XHR调用后在浏览器中生成的内容，也会发生同样的情况。我们需要使用无头浏览器。初始加载后，JavaScript将尝试使用XHR调用来获取一些内容。我们可以在受保护的站点上没有cookie进行电话。

我们将如何使用无头浏览器，特别是剧作家来避免检测？继续阅读！

无头浏览器

浏览器解决JavaScript挑战之后，某些反机器人系统只会显示内容。我们可以使用Python请求来模拟这样的浏览器行为。我们需要一个具有JavaScript执行的浏览器来运行并通过挑战。

Selenium，Puppeteer和剧作家是最常用和已知的库。出于绩效原因避免它们是可取的，并且它们会使刮擦速度较慢。但是有时候没有其他选择。

我们将看到如何参加剧作家。下面的摘要显示了一个简单的脚本，访问了打印已发送标题的页面。输出仅显示用户代理，但是由于它是一个真正的浏览器，因此标头将包含整个集合（接受，接受编码等）。

import json from playwright.sync_api import sync_playwright with sync_playwright() as p: for browser_type in [p.chromium, p.firefox, p.webkit]: browser = browser_type.launch() page = browser.new_page() page.goto('https://httpbin.org/headers') jsonContent = json.loads(page.inner_text('pre')) print(jsonContent['headers']['User-Agent']) browser.close() # Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/93.0.4576.0 Safari/537.36 # Mozilla/5.0 (X11; Linux x86_64; rv:90.0) Gecko/20100101 Firefox/90.0 # Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.0 Safari/605.1.15

这种方法带有自己的问题：看看用户代理。 Chromium One包括无头Chrome ，它将告诉目标网站是无头浏览器。他们可能会采取行动。

回到标题部分：我们可以添加自定义标题，以覆盖默认的标题。用本摘要中的一行替换该行，然后粘贴有效的用户代理：

koude9_page(extra_http_headers={'User-Agent': '...'})

这只是带有无头浏览器的入门级。无头检测本身就是一个领域，许多人正在努力。有些可以检测到它，有些则避免被阻止。例如，您可以使用实际的浏览器和无头浏览器访问Pixelscan。要被视为一致，您需要努力工作。

查看下面的屏幕截图，与剧作家一起访问Pixelscan时拍摄。看到UA吗？我们伪造的那个是正确的，但是他们可以通过检查导航器JavaScript API来检测到我们躺着的。

我们可以通过user_agent，剧作家将在JavaScript和我们的标题中设置用户代理。很好！

page = koude9_page(user_agent='...')

您可以轻松地将Playwright stealth添加到脚本中，以使其更高级的情况，从而使检测更加困难。它处理标题和浏览器JavaScript API之间的不一致之处。

总而言之，拥有100％的覆盖范围很复杂，但是您大多数时候都需要它。网站总是可以进行更复杂的检查：WebGL，触摸事件或电池状态。

除非您试图刮擦需要bypassing an anti-bot solution, like Akamai的网站，否则您将不需要这些额外的功能。对于这些情况，额外的努力将是强制性的。老实说，要求。

地理极限或地理障碍

您是否曾经尝试过从美国以外观看CNN？

称为geo-blocking。只有来自美国内部的连接才能现场观看CNN。我们可以使用Virtual Private Network (VPN)绕过它。然后，我们可以照常浏览，但是由于VPN。
，该网站将看到本地IP。
用地理障碍物刮擦网站时也会发生同样的情况。代理有一个等效的：地理分配的代理。一些代理提供商允许我们从国家列表中进行选择。通过激活该激活，我们将仅从美国获得本地IP。

行为模式

阻止IP和用户代理已经不够了。如果不是几分钟，它们就变得难以控制和陈旧。如果我们使用干净的IP和实际用户代理执行请求，我们主要是安全的。

涉及更多因素，但大多数请求应有效。

但是，大多数现代反机器软件都使用机器学习和行为模式，而不仅仅是静态标记（IP，UA，Geolocation）。这意味着如果我们始终以相同顺序执行相同的动作。
，我们将被检测到。

转到主页。

单击“商店”按钮。

向下滚动。

转到第2页。

几天后，启动相同的脚本可能会导致每个请求都被阻止。许多人可以执行相同的动作，但是机器人具有使它们显而易见的东西：速度。

使用软件，我们将依次执行每个步骤，而实际用户将花一秒钟，然后单击，使用鼠标轮子慢慢向下滚动，将鼠标移至链接，然后单击。
。
也许没有必要伪造所有这些，但是要知道可能的问题并知道如何面对它们。

我们必须考虑我们想要的东西。也许我们不需要第一个请求，因为我们只需要第二页。我们可以将其用作切入点，而不是主页。

并保存一个请求。它可以扩展到每个域的数百个URL。无需访问每个页面；向下滚动，单击下一页，然后重新开始。

要刮擦搜索结果，一旦我们识别了分页的URL模式，我们只需要两个数据点：每个页面的项目数量和项目。大多数时候，该信息都存在于首页或请求。

import requests from bs4 import BeautifulSoup response = requests.get('https://scrapeme.live/shop/') soup = BeautifulSoup(response.content, 'html.parser') pages = soup.select('.woocommerce-pagination a.page-numbers:not(.next)') print(pages[0].get('href')) # https://scrapeme.live/shop/page/2/ print(pages[-1].get('href')) # https://scrapeme.live/shop/page/48/

一个请求向我们表明有48页。我们现在可以排队。与其他技术混合在一起，我们将从此页面上刮擦内容并添加其余47。要通过绕过反机器人系统来刮擦它们，我们可以：

洗牌订单以避免模式检测。

使用不同的IP和用户代理，因此每个请求看起来都是新的。

在某些电话之间添加延迟。

随机使用Google作为推荐人。

我们可以编写一些混合所有这些片段，但是现实生活中最好的选择是使用所有这些工具，例如Scrapy，pyspider，node-crawler（Node.js）（Node.js）或Colly（GO）。
。
。
。
摘要的想法是单独理解每个问题。但是，对于大规模的现实生活项目，独立处理所有内容都太复杂了。

CAPTCHA

即使是最好的准备请求也可以被抓住并显示CAPTCHA。如今，解决验证码可以实现，使用抗验码和2captcha等解决方案，但浪费时间和金钱。 最好的解决方案是避免它们。第二好的是忘记该请求和重试。

例外很明显：在第一次访问时总是显示验证码的站点。如果没有办法绕过它，我们必须解决它。

然后，使用会话cookie避免再次受到挑战。

这听起来可能违反直觉，但是等待第二秒，然后用不同的IP和集合器恢复相同的请求要比求解验证码要快。自己尝试一下，并告诉我们有关体验的信息。

成为一个好的互联网公民

我们可以使用多个网站进行测试，但是在大规模进行相同操作时要小心。尝试成为一个好的互联网公民，不会导致DDOS。限制每个域的交互。亚马逊每秒可以处理数千个请求，但并非所有目标站点都可以。

我们总是在谈论“只读”浏览模式。访问页面并阅读其内容。切勿提交表格或以恶意意图执行主动行动。

如果我们采用更活跃的方法，其他几个因素将重要：写作速度，鼠标移动，导航而无需单击，同时浏览许多页面等。预防机器人预防软件特别具有积极性，具有主动动作。由于安全原因应该应该。

我们会讨论这部分，但是这些行动将为他们提供阻止请求的新理由。同样，好公民不会尝试大量登录。我们谈论的是刮擦，而不是恶意活动。

有时网站会使数据收集更加困难，也许不是故意的。但是，借助现代前端工具，CSS课程可能每天都会改变，破坏彻底准备的脚本。有关更多详细信息，请阅读我们先前在how to scrape data in Python上的条目。

结论

我们喜欢您记住低悬挂的水果：

IP旋转代理。
挑战目标的住宅代理。
全套标头，包括用户代理。
当需要JavaScript挑战时，请与剧作家进行绕过机器人检测，也许添加隐形模块。
避免使用可能将您标记为机器人的图案。还有更多，也许我们没有封面。但是有了这些技术，您应该能够大规模爬行和刮擦。毕竟，如果您知道如何进行网络刮擦而不会被python阻止。

如果您发现这篇文章令人兴奋，请在Learnhub Blog上找到更多令人兴奋的帖子；我们编写从Cloud computing到Frontend Dev，Cybersecurity，AI和Blockchain的所有技术。

。

这是由ZenRows撰写的，由Leaernhub Blog编辑。

先决条件

IP率限制

旋转代理

用户代理标头

全套标题

cookie

无头浏览器

地理极限或地理障碍

行为模式

CAPTCHA

成为一个好的互联网公民

结论

资源