编写Python Scrapy爬虫的过程分为几个步骤。首先,确保你已经安装了Scrapy。如果没有,请使用以下命令安装:
pip install scrapy
接下来,遵循以下步骤创建一个简单的Scrapy爬虫:
- 创建一个新的Scrapy项目:
scrapy startproject my_spider
这将在名为my_spider
的目录中创建一个新的Scrapy项目。
- 进入项目目录:
cd my_spider
- 创建一个新的爬虫:
scrapy genspider my_spider example.com
这将在spiders
目录中创建一个名为my_spider.py
的新文件,其中包含一个名为MySpider
的基本爬虫类。
- 编辑
my_spider.py
文件,定义爬虫的行为:
import scrapy class MySpider(scrapy.Spider): name = 'my_spider' allowed_domains = ['example.com'] start_urls = ['http://example.com/'] def parse(self, response): # 提取页面中的标题 title = response.css('title::text').get() self.log(f'Page title: {title}') # 提取页面中的所有链接 links = response.css('a::attr(href)').getall() for link in links: self.log(f'Link: {link}')
在这个例子中,我们定义了一个名为MySpider
的爬虫,它从一个名为example.com
的域中抓取页面标题和链接。parse
方法用于处理从目标网站抓取到的响应。
- 运行爬虫:
scrapy crawl my_spider
这将启动爬虫并打印出抓取到的页面标题和链接。
这只是一个简单的Scrapy爬虫示例。你可以根据需要扩展它,以处理更复杂的网站结构和抓取需求。要了解更多关于Scrapy的信息,请查阅官方文档:https://docs.scrapy.org/