在Python的requests库中,合理设置超时时间对于避免爬虫在网络问题或目标服务器响应缓慢时卡住非常重要。以下是设置超时时间的建议:
- 默认超时时间:requests库有一个默认的超时时间,这是在不指定超时参数时使用的。默认超时时间通常为30秒。这个值对于大多数情况可能是合适的,但在某些情况下可能需要调整。
import requests response = requests.get('https://example.com')
- 显式设置超时时间:如果你需要为特定的请求设置不同的超时时间,可以使用
timeout
参数。这个参数接受两个值,一个是连接超时时间(以秒为单位),另一个是读取超时时间(以秒为单位)。将这两个值作为元组传递给timeout
参数。
import requests response = requests.get('https://example.com', timeout=(5, 14))
在这个例子中,连接超时时间被设置为5秒,而读取超时时间被设置为14秒。这意味着如果请求在5秒内无法建立连接,或者服务器在14秒内无法返回完整的响应,请求将被终止。
- 使用
try-except
处理超时异常:为了确保爬虫在遇到超时时能够优雅地处理错误,可以使用try-except
语句捕获Timeout
异常。这样,当发生超时时,你可以记录错误信息并采取适当的措施,例如重试请求或跳过当前迭代。
import requests from requests.exceptions import Timeout url = 'https://example.com' try: response = requests.get(url, timeout=5) response.raise_for_status() except Timeout: print("请求超时,请稍后重试。")
在这个例子中,我们将超时时间设置为5秒。如果请求在5秒内没有完成,将抛出Timeout
异常,然后我们可以捕获它并输出一条友好的错误消息。