python爬虫网页有哪些常见错误-乐工具技术知识

在使用Python进行网页爬取时，可能会遇到多种错误。以下是一些常见的错误及其解决方法：

请求超时：

错误信息：requests.exceptions.Timeout

解决方法：增加请求的超时时间，或者检查网络连接是否稳定。

import requests
try:
    response = requests.get('http://example.com', timeout=10)
except requests.exceptions.Timeout:
    print("请求超时")

连接错误：
- 错误信息：requests.exceptions.ConnectionError
- 解决方法：检查目标URL是否正确，或者尝试使用代理服务器。
```
import requests
try:
    response = requests.get('http://example.com')
except requests.exceptions.ConnectionError:
    print("连接错误")
```

HTTP错误：

错误信息：requests.exceptions.HTTPError

解决方法：检查HTTP响应状态码，并根据不同的状态码进行相应的处理。

import requests
try:
    response = requests.get('http://example.com')
    if response.status_code != 200:
        print(f"HTTP错误，状态码：{response.status_code}")
except requests.exceptions.HTTPError as e:
    print(f"HTTP错误：{e}")

解析错误：

错误信息：BeautifulSoup相关的解析错误

解决方法：确保HTML结构符合预期，或者使用不同的解析器。

from bs4 import BeautifulSoup
try:
    soup = BeautifulSoup(response.text, 'html.parser')
except Exception as e:
    print(f"解析错误：{e}")

反爬虫机制：

错误信息：requests.exceptions.RequestException 或 urllib.error.URLError

解决方法：设置请求头（User-Agent），使用代理IP，或者遵守网站的robots.txt规则。

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
try:
    response = requests.get('http://example.com', headers=headers)
except requests.exceptions.RequestException as e:
    print(f"请求错误：{e}")

编码问题：

错误信息：UnicodeDecodeError 或 UnicodeEncodeError

解决方法：指定正确的编码格式，或者在处理字符串时进行适当的编码转换。

try:
    response = requests.get('http://example.com')
    text = response.text.encode('utf-8').decode('utf-8')
except UnicodeDecodeError as e:
    print(f"编码错误：{e}")

资源限制：

错误信息：MemoryError 或 RecursionError

解决方法：优化代码逻辑，减少内存消耗，或者使用迭代器处理大量数据。

# 避免递归深度过大
def process_page(url):
    try:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        # 处理逻辑...
    except Exception as e:
        print(f"处理错误：{e}")