【GOGO闯】python selenium自动化测试

selenium是自动化测试中常用的python库，直接控制浏览器来进行网页访问，与火狐浏览器的iMacros类似，但功能更多，跟python其他库结合能完成很多iMacros单独实现不了的功能。

常用功能如下：

1、切换ip点击百度关键词排名、竞价关键词
2、采集需要触发js或加密的网页，如百度文库，页面上的文字源码中根本不可见，可以用selenium来copy前端页面上的内容；如百度指数，所有数据加密，可以把对网页显示指数的部分截图到本地，在ORC识别
示例：

#coding:utf-8
 
'''导入selenium中的webdriver包，只有导入这个包才能使用webdriver api 进行自动化脚本开发'''
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.proxy import *
import time,re
 
'''打开firefox浏览器'''
browser = webdriver.Firefox()
 
'''向浏览器输入指定网址'''
browser.get("https://www.baidu.com")
 
 
'''浏览器指定宽高显示，一般用于对页面截图并保存，对测试页面的前端样式进行测评，通常用于移动端'''
browser.set_window_size(480,800)
 
 
'''浏览器窗口最大化'''
browser.maximize_window()
 
 
'''通过id=kw定位到百度输入框，并通过键盘方法send_keys()向输入框输入selenium'''
browser.find_element_by_id("kw").send_keys("python")
 
'''通过id=su定位搜索按钮，向按钮发送点击事件click() '''
browser.find_element_by_id("su").click()
 
browser.get("https://zhidao.baidu.com")  #访问百度知道
 
'''后退到百度首页'''
browser.back()
 
'''前进到百度知道'''
browser.forward()
 
browser.get("https://www.kanzhun.com/")
browser.find_element_by_xpath("/html/body/header/div/p/a[1]").click()
 
browser.find_element_by_xpath("//*[@id=\"loginField\"]/li[1]/div/input").send_keys("username")
browser.find_element_by_xpath("//*[@id=\"loginField\"]/li[2]/div/input").send_keys("password")
browser.find_element_by_xpath("//*[@id=\"emailLogin\"]/p[3]/input").click()
 
'''获得title'''
title = browser.title
print title
 
'''刷百度关键词点击'''
browser.get("https://www.baidu.com")
browser.find_element_by_id("kw").send_keys(u"工资")
 
'''超时设置，如果超过指定时间，则抛出异常'''
browser.implicitly_wait(30)
 
'''通过键盘回车来代替搜素按钮的点击操作'''
browser.find_element_by_id("su").send_keys(Keys.ENTER)
 
line_list = browser.find_elements_by_xpath("//h3[@class='t']") 
for line in line_list:
    t = line.find_element_by_xpath("a")
    print '%s - %s' % (t.text, type(t.text)) 
    if u'看准网' in t.text:
        print 'yes'
        t.click()
browser.quit()
 
 
'''采集百度文库内容'''
browser = webdriver.Firefox()
browser.get("https://wenku.baidu.com/")
browser.find_element_by_id("kw").send_keys(u'销售工作计划')
browser.find_element_by_id("sb").send_keys(Keys.ENTER)
line_list = browser.find_elements_by_xpath("//p[@class='fl']")
 
'''获取当前窗口'''
nowhandle = browser.current_window_handle
 
for line in line_list:
    print line.text
 
    link = line.find_element_by_xpath("a").click()
 
    '''获取所有窗口'''
    allhandles=browser.window_handles
 
    '''循环判断窗口是否为当前窗口'''
    for handle in allhandles:
        if handle != nowhandle:
            browser.switch_to_window(handle)
 
            txt = browser.find_element_by_xpath("//*[@id=\"reader-container-inner-3\"]").text
            print re.sub(r'\s+','\n',txt.replace('\n',''))
 
            '''关闭当前窗口'''
            browser.close()
 
    '''回到原先的窗口'''
    browser.switch_to_window(nowhandle)
browser.quit()
 
 
'''切换代理'''
myProxy_list = [
"60.29.248.142:8080",
"117.136.234.9:80"
]
 
for myProxy in myProxy_list:
    proxy = Proxy({
        'proxyType': ProxyType.MANUAL,
        'httpProxy': myProxy,
        'ftpProxy': myProxy,
        'sslProxy': myProxy,
        'noProxy': '' # set this value as desired
        })
 
    browser = webdriver.Firefox(proxy=proxy)
 
    browser.get("https://www.baidu.com")
    browser.find_element_by_id("kw").send_keys("ip")
    browser.find_element_by_id("su").click()
 
    time.sleep(5)
    browser.quit()

【工具】phantomjs + seleinum采集百度文库

关于如何采集百度文库的讨论详见：https://www.5118.com/discuss/topic/48
反正百度文库为了防采集已经做到了令人发指的程度，模拟spider是没有格式的，正常访问html是不包含内容的，直接请求json只包含元素定位的信息。

所以像火车头浏览器、python爬虫无法获取内容，只能用phantomjs模拟浏览器访问，再从浏览器解析过的html把相关部分的东西copy下来，但效率不高且占系统资源。

#coding:utf-8
'''采集百度文库'''
 
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.proxy import *
import time,re,csv
 
csvfile = open('jihua_wenku.csv','wb')
 
for word in open('word'):
    word = word.strip()
 
    '''指定phantomjs路径'''
    browser = webdriver.PhantomJS(executable_path='/Users/sunjian/phantomjs-2.0.0-macosx//bin/phantomjs',service_args=['--ssl-protocol=any',])
 
    #browser.set_window_size(300,400)
 
 
    browser.get("https://wenku.baidu.com/")
 
    browser.find_element_by_id("kw").send_keys(word.decode('utf8'))
 
 
    browser.find_element_by_id("sb").send_keys(Keys.ENTER)
 
    line_list = browser.find_elements_by_xpath("//p[@class='fl']")
      
    n = 0
 
    nowhandle = browser.current_window_handle
      
    for line in line_list:
        if n < 3:
            try:
                link = line.find_element_by_xpath("a").click()
            except:
                continue
 
            allhandles=browser.window_handles
 
            for handle in allhandles:
                if handle != nowhandle:
                    browser.switch_to_window(handle)
                    try:
                        txt = browser.find_element_by_xpath("//*[@id=\"reader-container-inner-3\"]").text
                        text = re.sub(r'\s+','\n',txt.replace('\n','')).encode('utf8')
                        n += 1
 
                        data = []
                        data.append(word)
                        data.append(text)
                        writer = csv.writer(csvfile,dialect='excel')
                        writer.writerow(data)                       
 
                        print '%s，已采集第%s篇' % (word,n)
 
                    except:
                        continue
         
                    browser.close()
 
            browser.switch_to_window(nowhandle)
        else:
            break
 
    browser.quit()

GOGO闯公众号：流量贩子

5 thoughts on “【GOGO闯】python selenium自动化测试”

one

2017年6月11日 at 上午6:39

关于PhantomJS 设置代理问题尝试了很多方法都不见效
希望大神给予指点迷津小弟不胜感激
回复
- Bigway
  
  2017年6月14日 at 上午11:32
  
  可以使用phantomjs的api，文档地址http://phantomjs.org/api/webserver/method/listen.html
  里面有var service = server.listen(‘127.0.0.1:8080’, function(request, response)
  如果要指定ip与端口，则轮换127.0.0.1:8080就行
  回复
- Bigway
  
  2017年6月14日 at 上午11:34
  
  第二个选择可以使用pyv8，效率要比phantomjs要高
  回复
cheap nba 2k17 mt

2016年8月29日 at 下午11:08

You ‘re so smart.
回复
QQ569694087

2016年8月11日 at 下午4:19

博客不错，嘎嘎！
回复

相关文章:

5 thoughts on “【GOGO闯】python selenium自动化测试”

Leave a Comment 取消回复