我正在使用 Python 绑定来运行 Selenium WebDriver:
from selenium import webdriver
wd = webdriver.Firefox()
我知道我可以像这样抓取一个网络元素:
elem = wd.find_element_by_css_selector('#my-id')
而且我知道我可以通过...获得整页源代码...
wd.page_source
但是有没有办法获得“元素来源”?
elem.source # <-- returns the HTML as a string
Python 的 Selenium WebDriver 文档基本上不存在,我在代码中看不到任何似乎启用该功能的东西。
访问元素(及其子元素)的 HTML 的最佳方式是什么?
wd.page_source
您可以阅读 innerHTML
属性来获取元素的 content 的来源,或者阅读 outerHTML
来获取当前元素的来源。
Python:
element.get_attribute('innerHTML')
爪哇:
elem.getAttribute("innerHTML");
C#:
element.GetAttribute("innerHTML");
红宝石:
element.attribute("innerHTML")
JavaScript:
element.getAttribute('innerHTML');
PHP:
$element->getAttribute('innerHTML');
它已经过测试并与 ChromeDriver
一起使用。
获取 webelement
的 HTML 源代码并没有真正的直接方法。您将不得不使用 JavaScript。我不太确定 python 绑定,但你可以在 Java 中轻松地做到这一点。我确信 Python 中一定有类似于 JavascriptExecutor
类的东西。
WebElement element = driver.findElement(By.id("foo"));
String contents = (String)((JavascriptExecutor)driver).executeScript("return arguments[0].innerHTML;", element);
innerHTML
不是 DOM 属性。当我在 2011 年回答这个问题时,它对我不起作用,看起来现在一些浏览器正在支持它。如果它对您有用,那么使用 innerHTML
会更干净。但是,不能保证它适用于所有浏览器。
当然,我们可以在 Selenium Python 中使用以下脚本获取所有 HTML 源代码:
elem = driver.find_element_by_xpath("//*")
source_code = elem.get_attribute("outerHTML")
如果要将其保存到文件:
with open('c:/html_source_code.html', 'w') as f:
f.write(source_code.encode('utf-8'))
我建议保存到文件中,因为源代码非常长。
time.sleep(x) # Where x is seconds
设置延迟。
在 Ruby 中,使用 selenium-webdriver (2.32.1),有一个包含整个页面源代码的 page_source
方法。
其他答案提供了许多有关检索 WebElement 标记的详细信息。然而,一个重要的方面是,现代网站越来越多地使用 JavaScript、ReactJS、jQuery、Ajax、Vue.js、Ember.js、GWT 等来呈现 { 9}。因此,在检索标记之前有必要等待元素及其子元素完全呈现。
Python
因此,理想情况下,您需要为 visibility_of_element_located()
引入 WebDriverWait,并且您可以使用以下任一 Locator Strategies:
使用 get_attribute("outerHTML"): element = WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#my-id"))) print(element.get_attribute("outerHTML"))
使用 execute_script(): element = WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.CSS_SELECTOR, "#my-id"))) print(driver.execute_script("return arguments[0].outerHTML;" , 元素))
注意:您必须添加以下导入: from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC
事实上,使用属性方法更简单直接。
将 Ruby 与 Selenium 和 PageObject gem 一起使用,以获取与某个元素关联的类,该行将是 element.attribute(Class)
。
如果您想获得与元素相关的其他属性,则同样的概念也适用。例如,如果我想要一个元素的 string,element.attribute(String)
。
它看起来已经过时了,但还是让它在这里吧。在您的情况下正确的方法:
elem = wd.find_element_by_css_selector('#my-id')
html = wd.execute_script("return arguments[0].innerHTML;", elem)
或者
html = elem.get_attribute('innerHTML')
两者都为我工作(selenium-server-standalone-2.35.0)。
Java 与 Selenium 2.53.0
driver.getPageSource();
getPageSource
方法可能不会返回实际的页面源(即,可能会更改 javascript)。返回的源可能是服务器发送的原始源。必须检查 webdriver 文档以确保这一点。
$driver->getPageSource()
InnerHTML 将返回所选元素内的元素,outerHTML 将返回内部 HTML 以及您选择的元素
例子:
现在假设您的元素如下
<tr id="myRow"><td>A</td><td>B</td></tr>
innerHTML 元素输出
<td>A</td><td>B</td>
outerHTML 元素输出
<tr id="myRow"><td>A</td><td>B</td></tr>
现场示例:
您将在下面找到根据不同绑定所需的语法。根据需要将 innerHTML
更改为 outerHTML
。
Python:
element.get_attribute('innerHTML')
爪哇:
elem.getAttribute("innerHTML");
如果您想要整个页面的 HTML,请使用以下代码:
driver.getPageSource();
我希望这会有所帮助:http://selenium.googlecode.com/svn/trunk/docs/api/java/org/openqa/selenium/WebElement.html
下面介绍Java方法:
java.lang.String getText()
但不幸的是,它在 Python 中不可用。因此,您可以将方法名称从 Java 转换为 Python,并使用现有方法尝试另一种逻辑,而无需获取整个页面源...
例如
my_id = elem[0].get_attribute('my-id')
这对我来说无缝。
element.get_attribute('innerHTML')
获取我喜欢的渲染 HTML 的方法如下:
driver.get("http://www.google.com")
body_html = driver.find_element_by_xpath("/html/body")
print body_html.text
但是,上述方法会删除所有标签(是的,嵌套标签也是如此)并且只返回文本内容。如果您也有兴趣获取 HTML 标记,请使用以下方法。
print body_html.getAttribute("innerHTML")
如果您对 Python 中的 Selenium Remote Control 解决方案感兴趣,以下是获取 innerHTML 的方法:
innerHTML = sel.get_eval("window.document.getElementById('prodid').innerHTML")
innerHTML = {solenium selector code}.text
的工作原理相同。
在 PHPUnit Selenium 测试中是这样的:
$text = $this->byCssSelector('.some-class-nmae')->attribute('innerHTML');
使用 execute_script 获取 html
bs4(BeautifulSoup) 也可以快速访问html标签。
from bs4 import BeautifulSoup
html = adriver.execute_script("return document.documentElement.outerHTML")
bs4_onepage_object=BeautifulSoup(html,"html.parser")
bs4_div_object=bs4_onepage_object.find_all("atag",class_="attribute")
在当前版本的 php-webdriver (1.12.0+) 你可以使用
$element->getDomProperty('innerHTML');
正如本期所指出的:https://github.com/php-webdriver/php-webdriver/issues/929
在 PHP Selenium WebDriver 中,您可以像这样获取页面源:
$html = $driver->getPageSource();
或者像这样获取元素的 HTML:
// innerHTML if you need HTML of the element content
$html = $element->getDomProperty('outerHTML');
WebElement element = driver.findElement(By.id("foo"));
String contents = (String)((JavascriptExecutor)driver).executeScript("return arguments[0].innerHTML;", element);
这段代码也确实适用于从源代码获取 JavaScript!
不定期副业成功案例分享
getAttribute
方法(或其他语言中的等效方法)只是调用名称为 arg 的 js 方法。但是文档没有明确说明这一点,所以 nilesh 的解决方案应该是一个后备。HtmlUnitDriver
失败。 适用于ChromeDriver
、FirefoxDriver
、InternetExplorerDriver
(IE10) 和PhantomJSDriver
(我没有测试过其他人)。