使用Selenium抓取百度新闻热搜榜实用指南

一、环境准备及初始化 🛠️

from selenium import webdriver
from selenium.webdriver.common.by import By

引入Selenium及相关依赖。首次使用时请确保已正确安装ChromeDriver 并配置到 PATH 环境变量！

driver = webdriver.Chrome() 🚗 初始化WebDriver示例，推荐使用Chrome浏览器。

打开目标页面 driver.get("https://news.baidu.com/")
访问百度新闻页面。
等待页面加载
使用 time.sleep(3)，可换为更优雅的显式等待实现。
定位热搜榜区域 hot_search_section = driver.find_element ...
热搜区域 XPath/CSS选择器需依据实际页面调整。建议使用浏览器开发者工具核查。
获取并遍历热搜内容
hot_search_items = ...find_elements...
取出所有热搜条目，并按 title 提取标题。
存储与展示结果
将排名和标题以 (index, title) 形式保存，并逐条打印： print(f"{rank}. {title}")

遍历中如遇结构变化，可catch异常提示：
print(f"Error extracting item {index}: {e}")

最后，无论采集是否成功，务必关闭浏览器：
driver.quit() 🔚