当您将 Selenium 与 chromedriver 一起使用时，网站可以检测到吗？

javascript python google-chrome selenium selenium-chromedriver

我一直在用 Chromedriver 测试 Selenium，我注意到有些页面可以检测到您正在使用 Selenium，即使根本没有自动化。即使我只是通过 Selenium 和 Xephyr 使用 Chrome 手动浏览，我也经常得到一个页面，说检测到可疑活动。我检查了我的用户代理和浏览器指纹，它们都与普通的 Chrome 浏览器完全相同。

当我用普通的 Chrome 浏览这些网站时，一切正常，但是当我使用 Selenium 时，我就被检测到了。

从理论上讲，chromedriver 和 Chrome 在任何网络服务器上看起来都应该完全一样，但它们可以通过某种方式检测到它。

如果你想要一些测试代码试试这个：

from pyvirtualdisplay import Display
from selenium import webdriver

display = Display(visible=1, size=(1600, 902))
display.start()
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument('--profile-directory=Default')
chrome_options.add_argument("--incognito")
chrome_options.add_argument("--disable-plugins-discovery");
chrome_options.add_argument("--start-maximized")
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.delete_all_cookies()
driver.set_window_size(800,800)
driver.set_window_position(0,0)
print 'arguments done'
driver.get('http://stubhub.com')

如果您浏览 stubhub，您将在一两个请求中被重定向和“阻止”。我一直在对此进行调查，但我无法弄清楚他们如何判断用户正在使用 Selenium。

他们是怎么做到的呢？

我在 Firefox 中安装了 Selenium IDE 插件，当我在普通的 Firefox 浏览器中仅使用附加插件访问 stubhub.com 时被禁止。

当我使用 Fiddler 查看来回发送的 HTTP 请求时，我注意到“假浏览器”请求通常在响应标头中包含“无缓存”。

像这样的结果 Is there a way to detect that I'm in a Selenium Webdriver page from JavaScript 表明应该无法检测到您何时使用网络驱动程序。但这一证据表明并非如此。

该站点将指纹上传到他们的服务器，但我检查了 Selenium 的指纹与使用 Chrome 时的指纹相同。

这是他们发送到服务器的指纹有效负载之一：

{"appName":"Netscape","platform":"Linuxx86_64","cookies":1,"syslang":"en-US","userlang":"en-
US","cpu":"","productSub":"20030107","setTimeout":1,"setInterval":1,"plugins":
{"0":"ChromePDFViewer","1":"ShockwaveFlash","2":"WidevineContentDecryptionMo
dule","3":"NativeClient","4":"ChromePDFViewer"},"mimeTypes":
{"0":"application/pdf","1":"ShockwaveFlashapplication/x-shockwave-
flash","2":"FutureSplashPlayerapplication/futuresplash","3":"WidevineContent
DecryptionModuleapplication/x-ppapi-widevine-
cdm","4":"NativeClientExecutableapplication/x-
nacl","5":"PortableNativeClientExecutableapplication/x-
pnacl","6":"PortableDocumentFormatapplication/x-google-chrome-
pdf"},"screen":{"width":1600,"height":900,"colorDepth":24},"fonts":
{"0":"monospace","1":"DejaVuSerif","2":"Georgia","3":"DejaVuSans","4":"Trebu
chetMS","5":"Verdana","6":"AndaleMono","7":"DejaVuSansMono","8":"LiberationM
ono","9":"NimbusMonoL","10":"CourierNew","11":"Courier"}}

它在 Selenium 和 Chrome 中是相同的。

VPN 只能使用一次，但在我加载第一页后就会被检测到。显然，正在运行一些 JavaScript 来检测 Selenium。

@RyanWeinstein：这不是流量。我的猜测是 Selenium 需要公开一些可以在客户端 JavaScript 上检测到的 JavaScript 钩子。

或者如果它是流量，那么它就是一种流量模式......你浏览页面的速度太快了。

我没有浏览太快。我只加载一个页面，并使用鼠标和键盘正常浏览它。 Selenium 需要暴露钩子也没有任何意义，因为它实际上是在运行 chrome.exe。它只是运行普通的 chrome 并允许您从中获取数据。还有其他想法吗？我在想也许它与饼干有关。这真让我抓狂。

此站点使用 distill 机器人检测技术并使用来自不同 IP 的 akamaitechnologies.com CDN 提供内容，例如 95.100.59.245、104.70.243.66、23.202.161.241

我在使用 Selenium 和 firefox 驱动程序时遇到了同样的问题。值得注意的是，我在通过 NAT 访问 Internet 的 VMWare 工作站虚拟机中运行 Selenium。宿主机可以访问 stubhub，而 VM 在使用 Selenium 时无法访问，甚至浏览器实例 Selenium 启动时也无法访问。我已经阻止了 VM 浏览器实例，并且 stubhub 仍然可以识别机器并将其阻止。所以它必须以某种方式执行浏览器和机器的指纹。

Peter Mortensen

基本上，Selenium 检测的工作方式是，它们测试使用 Selenium 运行时出现的预定义 JavaScript 变量。 bot 检测脚本通常会在任何变量（在窗口对象上）中查找包含单词“selenium”/“webdriver”的任何内容，以及称为 $cdc_ 和 $wdc_ 的文档变量。当然，所有这些都取决于您使用的浏览器。所有不同的浏览器都暴露了不同的东西。

对我来说，我使用的是 Chrome，所以，我所要做的就是确保 $cdc_ 不再作为文档变量存在，然后瞧（下载 chromedriver 源代码，修改 chromedriver 和以不同的名称重新编译 $cdc_。）

这是我在chromedriver中修改的函数：

文件 call_function.js：

function getPageCache(opt_doc) {
  var doc = opt_doc || document;
  //var key = '$cdc_asdjflasutopfhvcZLmcfl_';
  var key = 'randomblabla_';
  if (!(key in doc))
    doc[key] = new Cache();
  return doc[key];
}

（注意评论。我所做的一切都是将 $cdc_ 变成 randomblabla_。）

以下是演示僵尸网络可能使用的一些技术的伪代码：

runBotDetection = function () {
    var documentDetectionKeys = [
        "__webdriver_evaluate",
        "__selenium_evaluate",
        "__webdriver_script_function",
        "__webdriver_script_func",
        "__webdriver_script_fn",
        "__fxdriver_evaluate",
        "__driver_unwrapped",
        "__webdriver_unwrapped",
        "__driver_evaluate",
        "__selenium_unwrapped",
        "__fxdriver_unwrapped",
    ];

    var windowDetectionKeys = [
        "_phantom",
        "__nightmare",
        "_selenium",
        "callPhantom",
        "callSelenium",
        "_Selenium_IDE_Recorder",
    ];

    for (const windowDetectionKey in windowDetectionKeys) {
        const windowDetectionKeyValue = windowDetectionKeys[windowDetectionKey];
        if (window[windowDetectionKeyValue]) {
            return true;
        }
    };
    for (const documentDetectionKey in documentDetectionKeys) {
        const documentDetectionKeyValue = documentDetectionKeys[documentDetectionKey];
        if (window['document'][documentDetectionKeyValue]) {
            return true;
        }
    };

    for (const documentKey in window['document']) {
        if (documentKey.match(/\$[a-z]dc_/) && window['document'][documentKey]['cache_']) {
            return true;
        }
    }

    if (window['external'] && window['external'].toString() && (window['external'].toString()['indexOf']('Sequentum') != -1)) return true;

    if (window['document']['documentElement']['getAttribute']('selenium')) return true;
    if (window['document']['documentElement']['getAttribute']('webdriver')) return true;
    if (window['document']['documentElement']['getAttribute']('driver')) return true;

    return false;
};

According to user szx，也可以在十六进制编辑器中简单地打开 chromedriver.exe，然后手动进行替换，而无需实际进行任何编译。

是的，它在没有问题的情况下工作，请注意一个问题是，如果您在此更改之前落入“黑名单”，则很难摆脱。如果你想摆脱现有的黑名单，你需要实现fake canvas指纹，禁用flash，改变IP，改变请求头顺序（交换语言和接受头）。一旦你落入黑名单，他们有很好的措施来跟踪你，即使你改变了 IP，即使你在隐身模式下打开 chrome 等等

我只是在十六进制编辑器中用 chromedriver.exe 中的 xxxx 替换了 $cdc，它就成功了！我还注意到，如果您最大化浏览器窗口（而不是使用预定义的大小），它的检测频率就会降低。

这是在windows、osx还是linux上？ osx 上的十六进制编辑似乎不起作用。

用 $zzz_zzzzzzzzzzzzzzzzzzzzzz_ （相同数量的字符）进行十六进制编辑但没有用。

@Erti-ChrisEelmaa 您是否知道任何无法检测到的开源分支？

colossatr0n

替换 cdc_ 字符串

您可以使用 vim 或 perl 替换 chromedriver 中的 cdc_ 字符串。 请参阅 answer by @Erti-Chris Eelmaa 以了解有关该字符串以及它如何成为检测点的更多信息。

使用 vim 或 perl 可以避免重新编译源代码或使用十六进制编辑器。

确保在尝试编辑之前复制原始 chromedriver。

我们的目标是更改类似于 $cdc_lasutopfhvcZLmcfl 的 cdc_ 字符串。

以下方法在 chromedriver version 2.41.578706 上进行了测试。

使用 Vim

vim /path/to/chromedriver

运行上面的代码后，你可能会看到一堆乱码。请执行下列操作：

通过键入 :%s/cdc_/dog_/g 将所有 cdc_ 实例替换为 dog_。 dog_ 只是一个例子。您可以选择任何内容，只要它具有与搜索字符串相同数量的字符（例如，cdc_），否则 chromedriver 将失败。要保存更改并退出，请输入 :wq!然后按回车。如果您需要退出而不保存更改，请输入 :q!然后按回车。

使用 Perl

下面的行将所有出现的 cdc_ 替换为 dog_。归功于 Vic Seedoubleyew：

perl -pi -e 's/cdc_/dog_/g' /path/to/chromedriver

确保替换字符串（例如，dog_）与搜索字符串（例如，cdc_）的字符数相同，否则 chromedriver 将失败。

包起来

要验证是否替换了所有出现的 cdc_：

grep "cdc_" /path/to/chromedriver

如果没有返回输出，则替换成功。

转到更改后的 chromedriver 并双击它。应打开一个终端窗口。如果您在输出中没有看到 killed，则您已成功更改了驱动程序。

确保更改后的 chromedriver 二进制文件的名称为 chromedriver，并且原始二进制文件已从其原始位置移动或重命名。

我对这种方法的体验

我之前在尝试登录时在网站上被检测到，但在用相同大小的字符串替换 cdc_ 后，我能够登录。就像其他人所说的那样，如果你已经被检测到，你可能会得到即使在使用此方法后，也因多种其他原因被阻止。因此，您可能必须尝试访问使用 VPN、其他网络等检测到您的站点。

@LekaBaper 感谢您的提醒。我使用的 chromedriver 版本是 2.41.578706。

即使我在不同网络上的新物理计算机上使用此 chromedriver.exe 修改，也无法正常工作。

它给出一个错误说，这个版本不能在这台电脑上工作:(

请注意，chromedriver 人员已声明此问题无法修复，因此您可以预期必须使用 fork 或无限期地编辑二进制文件。 bugs.chromium.org/p/chromedriver/issues/detail?id=3220

TLDR；在十六进制编辑器中打开二进制文件，将以 $cdc 开头的字符串更改为其他相同长度的字符串，然后保存并运行修改后的二进制文件。

alecxe

正如我们已经在问题和发布的答案中发现的那样，这里有一个名为 "Distil Networks" 的反 Web 抓取和 Bot 检测服务。而且，根据公司 CEO 的interview：

尽管他们可以创建新的机器人，但我们找到了一种方法来识别 Selenium 是他们正在使用的工具，因此无论他们在该机器人上迭代多少次，我们都会阻止 Selenium。我们现在正在使用 Python 和许多不同的技术来做到这一点。一旦我们看到一种类型的机器人出现了某种模式，我们就会对他们使用的技术进行逆向工程，并将其识别为恶意。

了解他们如何准确检测 Selenium 需要时间和额外的挑战，但目前我们可以肯定地说：

它与您使用 selenium 执行的操作无关 - 一旦您导航到该站点，您就会立即被检测到并被禁止。我试图在动作之间添加人为的随机延迟，在页面加载后暂停 - 没有任何帮助

这也与浏览器指纹无关-在具有干净配置文件而不是隐身模式的多个浏览器中尝试过-没有任何帮助

因为，根据采访中的提示，这是“逆向工程”，我怀疑这是通过在浏览器中执行的一些 JS 代码完成的，这表明这是一个通过 selenium webdriver 自动化的浏览器

决定将其发布为答案，因为很明显：

网站可以检测到您何时将硒与 chromedriver 一起使用？

是的。

此外，我还没有尝试过旧的 selenium 和旧的浏览器版本——理论上，在 Distil Networks bot 检测器当前依赖的某个点上，可能会有一些实现/添加到 selenium 的东西。然后，如果是这种情况，我们可能会检测（是的，让我们检测检测器）在哪个点/版本进行了相关更改，查看更改日志和更改集，并且可能会为我们提供有关在哪里查看的更多信息他们用什么来检测由 webdriver 驱动的浏览器。这只是一个需要检验的理论。

@RyanWeinstein 好吧，我们没有实际证据，我们只能推测和测试。现在，我想说他们有办法使用硒来检测我们。尝试使用 selenium 版本 - 这可能会给你一些线索。

这可能与如何确定临时端口有关吗？该方法远离众所周知的范围。 github.com/SeleniumHQ/selenium/blob/…

Easyjet 正在使用 distilnetwork 服务，是的，它可以阻止虚拟机器人，但不能阻止复杂的机器人，因为我们已经测试了它每天有超过 2000 个来自不同 IP 的请求（我们再次使用“相同”地址）所以基本上每个 IP 都适用每天有 5-10 个请求，由此我可以看出，所有这些机器人检测服务只是为了开发和销售大约 45% 的工作算法，我们使用的抓取工具很容易检测到我可以阻止它，而 destilnetworks、squareshield 和其他不能，这促使我永远不要使用它们中的任何一个。

我认为他们在 chrome webdriver 中检测到 navigator.webdriver。我试图在 intoli.com/blog/not-possible-to-block-chrome-headless 和 stackoverflow.com/questions/47297877/… 的帮助下使 navigator.webdriver = false。它返回一个机器人检测页面而不是 distilnetworks.com/distil_identify_cookie.html

undetected Selenium

关于检测到由 Selenium 控制的 ChromeDriver 驱动的网站，已经进行了很多分析和讨论。这是我的两分钱：

根据文章 Browser detection using the user agent，为不同的浏览器提供不同的网页或服务通常不是最好的想法。网络意味着每个人都可以访问，无论用户使用哪种浏览器或设备。概述了开发网站的最佳实践，以根据功能可用性而不是针对特定浏览器来逐步增强自身。

但是，浏览器和标准并不完美，仍然存在一些边缘情况，即某些网站仍然会检测到浏览器，并且如果浏览器是由 Selenium 控制的 WebDriver 驱动的。可以通过不同的方式检测浏览器，一些常用的机制如下：

实施验证码/重新验证码以检测自动机器人。

您可以在 Recaptcha 3 如何知道我正在使用 selenium/chromedriver 中找到相关的详细讨论？

在无头 Chrome UserAgent 中检测术语 HeadlessChrome

您可以在 Linux 上使用无头 Chrome 的访问被拒绝页面中找到相关的详细讨论，而有头 Chrome 通过 Python 使用 Selenium 在 Windows 上工作

使用 Distil Networks 的 Bot Management 服务

您可以在无法使用 Selenium 自动登录 Chase 站点中找到相关的详细讨论

使用 Akamai 的 Bot Manager 服务

当使用 Selenium 和 Python 传递值时，您可以在 https://www.nseindia.com/ 上的动态下拉列表中找到相关的详细讨论

使用 Datadome 的 Bot Protection 服务

您可以在使用 Selenium 和 Python 抓取时使用 DataDome 获取验证码被阻止的网站中找到相关的详细讨论

但是，使用 user-agent 检测浏览器看起来很简单，但要做好实际上有点困难。

注意：此时值得一提的是：使用用户代理嗅探几乎不是一个好主意。总是有更好和更广泛兼容的方法来解决某个问题。

浏览器检测的注意事项

检测浏览器背后的想法可以是以下任何一种：

试图解决某些特定变体或特定版本的网络浏览器中的特定错误。

尝试检查某些浏览器尚不支持的特定功能是否存在。

尝试根据所使用的浏览器提供不同的 HTML。

通过 UserAgents 替代浏览器检测

浏览器检测的一些替代方案如下：

实施测试以检测浏览器如何实现功能的 API 并从中确定如何使用它。一个例子是 Chrome 在正则表达式中未标记的实验性后向支持。

采用渐进式增强的设计技术，这将涉及分层开发网站，使用自下而上的方法，从更简单的层开始，并在连续层中提高网站的功能，每个层都使用更多功能。

采用自上而下的优雅降级方法，我们使用我们想要的所有功能构建尽可能好的网站，然后对其进行调整以使其在旧版浏览器上工作。

解决方案

为了防止检测到 Selenium 驱动的 WebDriver，一个小众方法将包括以下提到的方法之一/所有：

在每次执行测试套件时使用 fake_useragent 模块轮换 UserAgent，如下所示： from selenium import webdriver from selenium.webdriver.chrome.options import Options from fake_useragent import UserAgent options = Options() ua = UserAgent() userAgent = ua.random print (userAgent) options.add_argument(f'user-agent={userAgent}') driver = webdriver.Chrome(chrome_options=options, executable_path=r'C:\WebDrivers\ChromeDriver\chromedriver_win32\chromedriver.exe') driver.get( "https://www.google.co.in") driver.quit()

您可以在如何在 Selenium 中更改 Google Chrome 用户代理中找到相关的详细讨论？

使用 Network.setUserAgentOverride 通过 execute_cdp_cmd() 在每个测试中旋转 UserAgent，如下所示： from selenium import webdriver driver = webdriver.Chrome(executable_path=r'C:\WebDrivers\chromedriver.exe') print(driver.execute_script(" return navigator.userAgent;")) # 将用户代理设置为 Chrome/83.0.4103.97 driver.execute_cdp_cmd('Network.setUserAgentOverride', {"userAgent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ( KHTML，如 Gecko) Chrome/83.0.4103.97 Safari/537.36'}) print(driver.execute_script("return navigator.userAgent;"))

您可以在如何使用 Selenium 和 Python 更改用户代理中找到相关的详细讨论

将 webdriver 的 navigator 的属性值更改为 undefined 如下： driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", { "source": """ Object.defineProperty(navigator, 'webdriver', { get: () => undefined } ) """ })

您可以在 Selenium webdriver 中找到相关的详细讨论：修改 navigator.webdriver flag to prevent selenium detection

更改 navigator.plugins、navigator.languages、WebGL、细线特征、缺失图像等的值。

您可以在 Is there a version of selenium webdriver that is not detected? 中找到相关的详细讨论？

更改常规视口

您可以在 How to bypass Google captcha with Selenium and python 中找到相关的详细讨论？

处理 reCAPTCHA

在处理 2captcha 和 recaptcha-v3 而不是点击与文本相关的 checkbox 我不是机器人 时，提取和使用 data-sitekey 可能更容易获得认证。

您可以在如何识别 ReCaptcha V2 的 32 位数据站点密钥以使用 Selenium 和 Python 请求以编程方式获取有效响应中找到相关的详细讨论？

tl;博士

您可以在以下位置找到逃避 webdriver 检测的尖端解决方案：

selenium-stealth - 一种经过验证的逃避 webdriver 检测的方法

我在bloomberg.com 上测试了你的python 代码。仍然认我是机器人。

将 webdriver 的 navigator 的属性值更改为 undefined 对我有用！

stackoverflow.com/a/70133896 已过时？

Shubham Jain

在 wellsfargo.com 上如何实施的示例：

try {
 if (window.document.documentElement.getAttribute("webdriver")) return !+[]
} catch (IDLMrxxel) {}
try {
 if ("_Selenium_IDE_Recorder" in window) return !+""
} catch (KknKsUayS) {}
try {
 if ("__webdriver_script_fn" in document) return !+""

为什么最后一次尝试没有关闭？除了你能解释一下你的答案吗？

ShayanKM

混淆 JavaScript 结果

我已经检查了 chromedriver 源代码。这会向浏览器注入一些 javascript 文件。
此链接上的每个 javascript 文件都会注入网页： https://chromium.googlesource.com/chromium/src/+/master/chrome/test/chromedriver/js/

所以我使用逆向工程并通过十六进制编辑混淆了js文件。现在我确信不再使用 javascript 变量、函数名和固定字符串来发现 selenium 活动。但仍有一些网站和 reCaptcha 检测到硒！也许他们检查了由 chromedriver js 执行引起的修改:)

编辑1：

Chrome 'navigator' 参数修改

我发现“导航器”中有一些参数可以简要介绍 chromedriver 的使用。这些是参数：

“navigator.webdriver” 在非自动模式下它是“未定义的”。在自动模式下，它是“真实的”。

“navigator.plugins”在无头镀铬上的长度为 0。所以我添加了一些虚假的元素来欺骗插件长度检查过程。

"navigator.languages" 设置为默认 chrome 值 '["en-US", "en", "es"]' 。

所以我需要的是一个 chrome 扩展来在网页上运行 javascript。我使用文章中提供的 js code 做了一个扩展，并使用 another article 将压缩后的扩展添加到我的项目中。 我已成功更改值；但仍然没有任何改变！

我没有找到像这样的其他变量，但这并不意味着它们不存在。 reCaptcha 还是检测到 chromedriver，所以应该有更多的变量需要改变。下一步应该是我不想做的检测器服务的逆向工程。

现在我不确定是否值得花更多时间在这个自动化过程上或寻找替代方法！

这是否可能通过十六进制编辑器删除 $cdc 条目？

Kobi K

尝试将 selenium 与特定的 chrome 用户配置文件一起使用，这样您就可以将其用作特定用户并定义您想要的任何内容，这样做时它将作为“真实”用户运行，使用一些进程资源管理器查看 chrome 进程和你会看到标签的区别。

例如：

username = os.getenv("USERNAME")
userProfile = "C:\\Users\\" + username + "\\AppData\\Local\\Google\\Chrome\\User Data\\Default"
options = webdriver.ChromeOptions()
options.add_argument("user-data-dir={}".format(userProfile))
# add here any tag you want.
options.add_experimental_option("excludeSwitches", ["ignore-certificate-errors", "safebrowsing-disable-download-protection", "safebrowsing-disable-auto-update", "disable-client-side-phishing-detection"])
chromedriver = "C:\Python27\chromedriver\chromedriver.exe"
os.environ["webdriver.chrome.driver"] = chromedriver
browser = webdriver.Chrome(executable_path=chromedriver, chrome_options=options)

chrome 标签列表 here

undetected Selenium

随着 Selenium Stealth 的出现，避免检测由 Selenium 驱动的 ChromeDriver 发起的 google-chrome 浏览上下文 变得更加容易。

硒隐形

selenium-stealth 是一个防止检测的 python 包。这个程序试图让 python selenium 更加隐蔽。但是，目前 selenium-stealth 仅支持 Selenium Chrome。

目前 selenium-stealth 可以提供的功能：

selenium-stealth 隐身通过了所有公共机器人测试。

使用 selenium-stealth selenium 可以做 google 帐户登录。

selenium-stealth 有助于维持正常的 reCAPTCHA v3 分数

安装

Selenium-stealth 在 PyPI 上可用，因此您可以使用 pip 安装，如下所示：

$ pip install selenium-stealth

selenium4 兼容代码

代码块： from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.chrome.service import Service from selenium_stealth import Stealth options = Options() options.add_argument("start-maximized") # Chrome 被控制通过自动化测试软件 options.add_experimental_option("excludeSwitches", ["enable-automation"]) options.add_experimental_option('useAutomationExtension', False) s = Service('C:\\BrowserDrivers\\chromedriver.exe') driver = webdriver .Chrome(service=s, options=options) # Selenium Stealth 设置隐形（驱动程序，languages=["en-US", "en"], vendor="Google Inc.", platform="Win32", webgl_vendor=" Intel Inc.", renderer="Intel Iris OpenGL Engine", fix_hairline=True, ) driver.get("https://bot.sannysoft.com/")