python爬虫从入门到放弃(八)之Selenium库的使用--688IT编程网

python爬⾍从⼊门到放弃（⼋）之Selenium库的使⽤

⼀、什么是Selenium

selenium 是⼀套完整的web应⽤程序测试系统，包含了测试的录制（selenium IDE），编写及运⾏（Selenium Remote Control）和测试的并⾏处理（Selenium Grid）。Selenium的核⼼Selenium Core基于JsUnit，完全由JavaScript编写，因此可以⽤于任何⽀持JavaScript的浏览器上。

selenium可以模拟真实浏览器，⾃动化测试⼯具，⽀持多种浏览器，爬⾍中主要⽤来解决JavaScript渲染问题。

⼆、selenium基本使⽤

⽤python写爬⾍的时候，主要⽤的是selenium的Webdriver，我们可以通过下⾯的⽅式先看看Selenium.Webdriver⽀持哪些浏览器

执⾏结果如下，从结果中我们也可以看出基本⼭⽀持了常见的所有浏览器：

这⾥要说⼀下⽐较重要的PhantomJS,PhantomJS是⼀个⽽基于WebKit的服务端JavaScript API,⽀持Web⽽不需要浏览器⽀持，其快速、原⽣⽀持各种Web标准：Dom处理，CSS选择器，JSON等等。PhantomJS可以⽤⽤于页⾯⾃动化、⽹络监测、⽹页截屏，以及⽆界⾯测试

声明浏览器对象

上⾯我们知道了selenium⽀持很多的浏览器，但是如果想要声明并调⽤浏览器则需要：

from selenium import webdriver

browser = webdriver.Chrome()

browser = webdriver.Firefox()

这⾥只写了两个例⼦，当然了其他的⽀持的浏览器都可以通过这种⽅式调⽤

访问页⾯

from selenium import webdriver

browser = webdriver.Chrome()

<("www.baidu")

print(browser.page_source)

browser.close()

上述代码运⾏后，会⾃动打开Chrome浏览器，并登陆百度打印百度⾸页的源代码，然后关闭浏览器

查元素

单个元素查

from selenium import webdriver

browser = webdriver.Chrome()

<("www.taobao")

input_first = browser.find_element_by_id("q")

input_second = browser.find_element_by_css_selector("#q")

input_third = browser.find_element_by_xpath('//*[@id="q"]')

print(input_first)

print(input_second)

print(input_third)

browser.close()

这⾥我们通过三种不同的⽅式去获取响应的元素，第⼀种是通过id的⽅式，第⼆个中是CSS选择器，第三种是xpath选择器，结果都是相同的。

结果如下：

这⾥列举⼀下常⽤的查元素⽅法：

find_element_by_name

find_element_by_id

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

下⾯这种⽅式是⽐较通⽤的⼀种⽅式：这⾥需要记住By模块所以需要导⼊

from selenium.webdrivermon.by import By

from selenium import webdriver

from selenium.webdrivermon.by import By

browser = webdriver.Chrome()

<("www.taobao")

input_first = browser.find_element(By.ID,"q")

print(input_first)

browser.close()

当然这种⽅法和上述的⽅式是通⽤的，browser.find_element(By.ID,"q")这⾥By.ID中的ID可以替换为其他⼏个

多个元素查

其实多个元素和单个元素的区别，举个例⼦：find_elements，单个元素是find_element，其他使⽤上没什么区别，通过其中的⼀个例⼦演⽰：from selenium import webdriver

browser = webdriver.Chrome()

<("www.taobao")

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

browser.close()

这样获得就是⼀个列表

当然上⾯的⽅式也是可以通过导⼊from selenium.webdrivermon.by import By 这种⽅式实现

lis = browser.find_elements(By.CSS_SELECTOR,'.service-bd li')

同样的在单个元素中查的⽅法在多个元素查中同样存在：

find_elements_by_name

find_elements_by_id

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

元素交互操作

对于获取的元素调⽤交互⽅法

from selenium import webdriver

import time

browser = webdriver.Chrome()

<("www.taobao")

input_str = browser.find_element_by_id('q')

input_str.send_keys("ipad")

time.sleep(1)

input_str.clear()

input_str.send_keys("MakBook pro")

button = browser.find_element_by_class_name('btn-search')

button.click()

运⾏的结果可以看出程序会⾃动打开Chrome浏览器并打开淘宝输⼊ipad，然后删除，重新输⼊MakBook pro，并点击搜索

交互动作

将动作附加到动作链中串⾏执⾏

from selenium import webdriver

from selenium.webdriver import ActionChains

browser = webdriver.Chrome()

url = "www.runoob/try/try.php?filename=jqueryui-api-droppable"

<(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

执⾏JavaScript

这是⼀个⾮常有⽤的⽅法，这⾥就可以直接调⽤js⽅法来实现⼀些操作，

下⾯的例⼦是通过登录知乎然后通过js翻到页⾯底部，并弹框提⽰

from selenium import webdriver

browser = webdriver.Chrome()

<("www.zhihu/explore")

获取元素属性

get_attribute('class')

from selenium import webdriver

browser = webdriver.Chrome()

url = 'www.zhihu/explore'

<(url)

logo = browser.find_element_by_id('zh-top-link-logo')

print(logo)

_attribute('class'))

获取⽂本值

text

from selenium import webdriver

browser = webdriver.Chrome()

url = 'www.zhihu/explore'

<(url)

input = browser.find_element_by_class_name('zu-top-add-question')

)

获取ID，位置，标签名

location

tag_name

size

from selenium import webdriver

browser = webdriver.Chrome()

url = 'www.zhihu/explore'

<(url)

input = browser.find_element_by_class_name('zu-top-add-question')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

Frame

在很多⽹页中都是有Frame标签，所以我们爬取数据的时候就涉及到切⼊到frame中以及切出来的问题，通过下⾯的例⼦演⽰这⾥常⽤的是switch_to.from()和switch_to.parent_frame()

import time

from selenium import webdriver

ptions import NoSuchElementException

browser = webdriver.Chrome()

url = 'www.runoob/try/try.php?filename=jqueryui-api-droppable'

<(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

print(source)

try:

logo = browser.find_element_by_class_name('logo')

except NoSuchElementException:

print('NO LOGO')

browser.switch_to.parent_frame()

logo = browser.find_element_by_class_name('logo')

print(logo)

)

等待

当使⽤了隐式等待执⾏测试的时候，如果 WebDriver没有在 DOM中到元素，将继续等待，超出设定时间后则抛出不到元素的异常, 换句话说，当查元素或元素并没有⽴即出现的时候，隐式等待将等待⼀段时间再查 DOM，默认的时间是0

隐式等待

到了⼀定的时间发现元素还没有加载，则继续等待我们指定的时间，如果超过了我们指定的时间还没有加载就会抛出异常，如果没有需要等待的时候就已经加载完毕就会⽴即执⾏

from selenium import webdriver

browser = webdriver.Chrome()

browser.implicitly_wait(10)

<('www.zhihu/explore')

jquery是什么有什么作用

input = browser.find_element_by_class_name('zu-top-add-question')

print(input)

显⽰等待

指定⼀个等待条件，并且指定⼀个最长等待时间，会在这个时间内进⾏判断是否满⾜等待条件，如果成⽴就会⽴即返回，如果不成⽴，就会⼀直等待，直到等待你指定的最长等待时间，如果还是不满⾜，

就会抛出异常，如果满⾜了就会正常返回

from selenium import webdriver

from selenium.webdrivermon.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

<('www.taobao/')

wait = WebDriverWait(browser, 10)

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

print(input, button)

上述的例⼦中的条件：EC.presence_of_element_located（）是确认元素是否已经出现了

EC.element_to_be_clickable（）是确认元素是否是可点击的

常⽤的判断条件：

title_is 标题是某内容

title_contains 标题包含某内容

presence_of_element_located 元素加载出，传⼊定位元组，如(By.ID, 'p')

visibility_of_element_located 元素可见，传⼊定位元组

visibility_of 可见，传⼊元素对象

presence_of_all_elements_located 所有元素加载出

text_to_be_present_in_element 某个元素⽂本包含某⽂字

text_to_be_present_in_element_value 某个元素值包含某⽂字

frame_to_be_available_and_switch_to_it frame加载并切换

invisibility_of_element_located 元素不可见

element_to_be_clickable 元素可点击

staleness_of 判断⼀个元素是否仍在DOM，可判断页⾯是否已经刷新

element_to_be_selected 元素可选择，传元素对象

element_located_to_be_selected 元素可选择，传⼊定位元组

element_selection_state_to_be 传⼊元素对象以及状态，相等返回True，否则返回False

element_located_selection_state_to_be 传⼊定位元组以及状态，相等返回True，否则返回False

alert_is_present 是否出现Alert

浏览器的前进和后退

back()

forward()

import time

from selenium import webdriver

browser = webdriver.Chrome()

<('www.baidu/')

<('www.taobao/')

<('/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()

cookie操作

get_cookies()

delete_all_cookes()

add_cookie()

from selenium import webdriver

browser = webdriver.Chrome()

<('www.zhihu/explore')

_cookies())

browser.add_cookie({'name': 'name', 'domain': 'www.zhihu', 'value': 'zhaofan'})

_cookies())

browser.delete_all_cookies()

_cookies())

选项卡管理

通过执⾏js命令实现新开选项卡window.open()

不同的选项卡是存在列表⾥browser.window_handles

通过browser.window_handles[0]就可以操作第⼀个选项卡

import time

from selenium import webdriver

browser = webdriver.Chrome()

<('www.baidu')

print(browser.window_handles)

browser.switch_to_window(browser.window_handles[1])

<('www.taobao')

time.sleep(1)

browser.switch_to_window(browser.window_handles[0])

<('')

异常处理

from selenium import webdriver

ptions import TimeoutException, NoSuchElementException browser = webdriver.Chrome()

try:

<('www.baidu')

except TimeoutException:

print('Time Out')

try:

browser.find_element_by_id('hello')

except NoSuchElementException:

print('No Element')

finally:

browser.close()

688IT编程网

python爬虫从入门到放弃(八)之Selenium库的使用

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python爬虫从入门到放弃(八)之Selenium库的使用

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式