在Python的Scrapy框架中,你可以通过在Spider类中定义一个start_requests
方法来设置请求头。以下是一个简单的示例:
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['https://example.com'] def start_requests(self): for url in self.start_urls: yield scrapy.Request(url, headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3', 'Accept-Language': 'en', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Connection': 'keep-alive', })
在这个示例中,我们定义了一个名为MySpider
的Spider类,并在其中设置了请求头。start_requests
方法遍历start_urls
列表中的每个URL,并使用scrapy.Request
对象发起请求。在创建scrapy.Request
对象时,我们传递了headers
参数,其中包含了我们想要设置的请求头。
这样,当你运行这个爬虫时,它将使用指定的请求头来发起网络请求。