网站建设 >

查看其它板块

Python中如何使用Selenium自动进行百度搜索

这篇文章主要介绍了Python中如何使用Selenium自动进行百度搜索的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python中如何使用Selenium自动进行百度搜索文章都会有所收获，下面我们一起来看看吧。

10年积累的成都做网站、成都网站制作经验，可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你，你也不认识我。但先网站设计后付款的网站建设流程，更有东海免费网站建设让你可以放心的选择与我们合作。

安装 Selenium

可以使用 pip 安装 Python 的 Selenium 库：pip install selenium

（可选项：要执行项目并控制浏览器，需要安装特定于浏览器的 WebDriver 二进制文件。

下载 WebDriver 二进制文件并放入系统 PATH 环境变量中.）

由于本地浏览器版本升级，引起的版本不一致问题，和系统PATH环境变量的设置比较繁琐，所以我使用webdriver_manager，

安装 Install manager:

pip install webdriver-manager

写代码

引入模块：

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

首先我们定义一个类Search_Baidu，它主要用于初始化；定义自动化步骤的方法；结束关闭浏览器。

class Search_Baidu:
def __init__(self):
def search(self, keyword):
def tear_down(self):

接下来我们分别介绍每个方法的实现过程。

   def __init__(self): #类构造函数，用于初始化selenium的webdriver
        url = "https://www.baidu.com/" #这里定义访问的网络地址
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium
# 这里使用chrome浏览器，而且使用我们刚才安装的webdriver_manager的chrome driver，并赋值上面的浏览器设置options变量
        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s，由于自动化需要等待网页控件的加载，所以这里设置一个默认的等待超时，时长为10秒

    def tear_down(self):
        self.browser.close() #最后，关闭浏览器

接下来是重头戏，写我们操作浏览器的步骤，打开浏览器，进入百度网页，输入搜索关键字：Selenium，等待搜索结果，把搜索结果的题目和网址保存到文件里。

def search(self, keyword):
    # 打开百度网页
    self.browser.get(self.url)
    # 等待搜索框出现，最多等待10秒，否则报超时错误
    search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))
    # 在搜索框输入搜索的关键字
    search_input.send_keys(keyword)
    # 回车
    search_input.send_keys(Keys.ENTER)
    # 等待10秒钟
    self.browser.implicitly_wait(10)
    # 找到所有的搜索结果
    results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
    # 遍历所有的搜索结果
    with open("search_result.txt","w") as file:            
        for result in results:
            if result.get_attribute("href"):
                print(result.get_attribute("text").strip())
                # 搜索结果的标题
                title = result.get_attribute("text").strip()
                # 搜索结果的网址
                link = result.get_attribute("href")
                # 写入文件
                file.write(f"Title: {title}, link is: {link} 
")

点位网页元素

这里头有个关键点，就是如何点位网页元素：

比如：

search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))

还有：

self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

打个比方，快递员通过地址找到你家，给你送快递，这里的XPATH和CSS Selector就是网页元素的地址，那么如何得到呢？
第一个就是Chrome自带的开发者工具，可以快捷键F12，也可以自己在下图中找到：

Python中如何使用Selenium自动进行百度搜索

然后在百度搜索框，右键：

Python中如何使用Selenium自动进行百度搜索

找到输入框的HTML元素，

Python中如何使用Selenium自动进行百度搜索

在HTML元素右键，拷贝XPath地址。

Python中如何使用Selenium自动进行百度搜索

这是比较简单的定位网页元素的方法。接下来我们定位搜索结果元素的时候，就遇到了麻烦，如下图：

Python中如何使用Selenium自动进行百度搜索

我们不能单独的定位每个元素，而是要找到规律，一次把所有的搜索结果找到，然后返回一个list，我们好遍历这个list，这个怎么实现呢？

接下来，我们请出一大神器：SelectorGadget

Python中如何使用Selenium自动进行百度搜索

SelectorGadget是一个CSS Selector生成器，大家可以在他的官方文档找到具体的使用说明，我这里简单介绍一下：
首先启动SelectorGadget，点击一下图标

Python中如何使用Selenium自动进行百度搜索

浏览器会出现下面的框框：

Python中如何使用Selenium自动进行百度搜索

然后我们在网页用鼠标左键，点击我们要定位的元素

Python中如何使用Selenium自动进行百度搜索

然后页面会变成下面的样子：

Python中如何使用Selenium自动进行百度搜索

所有黄色的部分说明都被选择了，如果我们不想要的元素，右键点击，使它变为红色，说明它被去掉了。如果没有被选择我们又需要的元素，我们左键选择它，使它变为绿色。最后我们希望选择的页面元素都变成了绿色或者黄色，如下图：

Python中如何使用Selenium自动进行百度搜索

我们就可以拷贝框框里的内容作为CSS Selector了。

Python中如何使用Selenium自动进行百度搜索

通过CSS Selector找到所有的搜索结果。

results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")

到此，我们就实现了这么个简单的小应用了，其实selenium就是帮助我们自动操作网页元素，所以我们定位网页元素就是重中之重，希望本文给你带来一点帮助。

下面我附上代码：

from datetime import time
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys

class Search_Baidu:
    def __init__(self):
        url = "https://www.baidu.com/"
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium

        self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s

    def search(self, keyword):
        # 打开百度网页
        self.browser.get(self.url)
        # 等待搜索框出现，最多等待10秒，否则报超时错误
        search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id="kw"]")))
        # 在搜索框输入搜索的关键字
        search_input.send_keys(keyword)
        # 回车
        search_input.send_keys(Keys.ENTER)
        # 等待10秒钟
        self.browser.implicitly_wait(10)
        # 找到所有的搜索结果
        results = self.browser.find_elements_by_css_selector(".t a , em , .c-title-text")
        # 遍历所有的搜索结果
        with open("search_result.txt","w") as file:            
            for result in results:
                if result.get_attribute("href"):
                    print(result.get_attribute("text").strip())
                    # 搜索结果的标题
                    title = result.get_attribute("text").strip()
                    # 搜索结果的网址
                    link = result.get_attribute("href")
                    # 写入文件
                    file.write(f"Title: {title}, link is: {link} 
")

    def tear_down(self):
        self.browser.close()

if __name__ == "__main__":
    search = Search_Baidu()
    search.search("selenium")
    search.tear_down()

关于“Python中如何使用Selenium自动进行百度搜索”这篇文章的内容就介绍到这里，感谢各位的阅读！相信大家对“Python中如何使用Selenium自动进行百度搜索”知识都有一定的了解，大家如果还想学习更多知识，欢迎关注创新互联行业资讯频道。

文章名称：Python中如何使用Selenium自动进行百度搜索
文章来源：http://cdkjz.cn/article/jpsjos.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都模板网站成都小程序开发成都光华机房营销型网站建设响应式网站设计方案网站设计马边网站建设个体公司注册 lnruijie.cn 木业包装箱

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Python中如何使用Selenium自动进行百度搜索

安装 Selenium

写代码

点位网页元素

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Python中如何使用Selenium自动进行百度搜索

安装 Selenium

写代码

点位网页元素

相关资讯

mysql怎么查询每月 mysql查询16月的订单数量

zblog链接优化 zblog必备插件

vb点虐 基础教程 vbnet ui

linux虚拟机路径命令 linux 虚拟机命令

mysql怎么上表锁 mysql如何加锁

wap帝国cms 帝国cms seo

帝国cms列表栏目名称 帝国cms界面

linux需要开机命令吗 linux 需要激活吗

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

vb点虐基础教程 vbnet ui

帝国cms列表栏目名称帝国cms界面

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接