在 Linux 上部署简单的 Python 爬虫可以通过以下步骤完成:
- 安装 Python 和 pip(如果尚未安装):
sudo apt update sudo apt install python3 python3-pip
- 创建一个新的 Python 虚拟环境(可选,但推荐):
python3 -m venv my_crawler_env source my_crawler_env/bin/activate
- 使用 pip 安装爬虫所需的库,例如 Requests 和 BeautifulSoup4:
pip install requests beautifulsoup4
- 编写一个简单的 Python 爬虫脚本。例如,创建一个名为
my_crawler.py
的文件,并添加以下内容:
import requests from bs4 import BeautifulSoup def fetch_data(url): response = requests.get(url) if response.status_code == 200: return response.text else: print(f"Error fetching data: {response.status_code}") return None def parse_data(html): soup = BeautifulSoup(html, "html.parser") # 根据网页结构解析数据,例如提取所有链接 links = [a["href"] for a in soup.find_all("a", href=https://www.yisu.com/ask/True)]"https://example.com" html = fetch_data(url) if html: links = parse_data(html) print(links) if __name__ == "__main__": main()
- 运行爬虫脚本:
python my_crawler.py
- 如果要将爬虫部署到服务器上,可以使用 Gunicorn 或 uWSGI 等 WSGI 服务器。首先安装 Gunicorn:
pip install gunicorn
- 使用 Gunicorn 运行爬虫脚本:
gunicorn --bind 0.0.0.0:8000 my_crawler:app
这将使用默认设置启动 Gunicorn 服务器,监听所有网络接口上的 8000 端口。你可以根据需要调整 Gunicorn 的配置。
- (可选)为了提高安全性,可以使用 Nginx 作为反向代理服务器。安装 Nginx 并配置它以将请求转发到 Gunicorn 服务器。
通过以上步骤,你可以在 Linux 上成功部署一个简单的 Python 爬虫。