selenium

python爬虫之selenium--获取HTML源码断言和URL地址

发表于 2021年12月29日阅读 3888 评论 0

前言

在做测试的时候经常会使用selenium获取网页url与源代码，判断当前执行是否正确，接下来我们一起看下如果通过selenium获取url及网页源代码

获取HTML源码

from selenium import webdriver
import unittest


class Test_source(unittest.TestCase):
    def Test_getPageSource(self):
        url = 'http://www.sogou.com'
        self.driver = webdriver.Chrome()
        self.driver.get(url)

        # 调取driver的page_source属性获取页面源码
        pageSource = self.driver.page_source

        print('当前网页的源码：', pageSource)

        # 断言页面源码中是否包含"新闻"两个关键字，以此判断页面内容是否正确
        self.assertTrue(u"新闻" in pageSource, "页面源码中未找到新闻关键字")


test1 = Test_source()
test1.Test_getPageSource()

获取URL地址

from selenium import webdriver
import unittest


class Test_Pageurl(unittest.TestCase):
    def test_getCurrentPageUrl(self):
        url = 'http://www.sogou.com'
        self.driver = webdriver.Chrome()
        self.driver.get(url)

        # 获取当前页面的url
        currentPageUrl = self.driver.current_url
        print('当前网页的url：', currentPageUrl)

        # 断言当前网页的网址是否为 https://www.sogou.com/
        self.assertEqual(currentPageUrl, 'https://www.sogou.com/', "当前网页网址非预期")


test1 = Test_Pageurl()
test1.test_getCurrentPageUrl()

断言源码中的关键字

from selenium import webdriver
import unittest
import time


class Test_KeyWord(unittest.TestCase):
    def test_assertKeyWord(self):
        url = 'http://www.baidu.com'
        self.driver = webdriver.Chrome()
        self.driver.get(url)
        self.driver.find_element_by_id('kw').send_keys('自动化测试')
        self.driver.find_element_by_id('su').click()
        time.sleep(4)
        assert '自动化' in self.driver.page_source, '页面中不存在该关键字'


test1 = Test_KeyWord()
test1.test_assertKeyWord()