Python Playwright 是一个用于自动化浏览器操作的库,它支持多种浏览器(如 Chrome、Firefox 和 Safari)。要使用 Playwright 进行爬虫,你需要先安装 Playwright 库,然后编写代码来控制浏览器,访问网页,解析页面内容并提取所需信息。以下是一个简单的示例,展示了如何使用 Playwright 进行爬虫:
- 安装 Playwright 库:
pip install playwright
- 编写爬虫代码:
from playwright.sync_api import sync_playwright def run(playwright, browser_type): # 启动浏览器 browser = playwright.chromium.launch(browser_type=browser_type) context = browser.new_context() # 访问网页 page = context.new_page() page.goto("https://example.com") # 获取页面标题 title = page.title() print(f"Page title: {title}") # 提取页面内容 content = page.content() print(f"Page content: {content}") # 关闭浏览器 browser.close() if __name__ == "__main__": with sync_playwright() as playwright: run(playwright, browser_type="chromium")
这个示例中,我们首先导入了 sync_playwright
,然后定义了一个名为 run
的函数。这个函数接受一个 Playwright 实例和一个浏览器类型作为参数。在函数内部,我们启动浏览器,创建一个新的上下文,然后访问指定的网页。接下来,我们获取页面标题和内容,并将它们打印出来。最后,我们关闭浏览器。
要运行这个示例,请将代码保存到一个名为 爬虫示例.py
的文件中,然后在命令行中运行以下命令:
python 爬虫示例.py
这将会启动 Chromium 浏览器,访问 https://example.com
页面,并打印出页面标题和内容。你可以根据需要修改代码,以提取你感兴趣的信息。要使用其他浏览器,只需将 browser_type
参数更改为相应的浏览器类型即可。