PhantomJS 是一个无头浏览器,它可以加载一个网页并完全渲染它,包括执行 JavaScript 代码。要使用 PhantomJS 处理 JavaScript 渲染的页面,你需要编写一个脚本来控制 PhantomJS 的行为。
以下是一个简单的 PhantomJS 脚本示例,用于加载一个网页并获取其内容:
var page = require('webpage').create(); var url = 'https://example.com'; page.open(url, function(status) { if (status === 'success') { console.log('Page loaded successfully'); console.log('Content: ' + page.content); } else { console.log('Failed to load the page'); } phantom.exit(); });
这个脚本创建了一个新的 PhantomJS 页面实例,然后打开指定的 URL。当页面加载成功时,它会输出页面的内容和 JavaScript 渲染的结果。
如果你需要处理更复杂的 JavaScript 渲染情况,可以使用 PhantomJS 提供的 API 来操作页面,例如:
page.evaluate()
: 在页面的上下文中执行 JavaScript 代码。page.onConsoleMessage()
: 监听页面输出的 console.log 消息。page.render()
: 将页面渲染为图片或 PDF 文件。
以下是一个更复杂的示例,展示了如何使用 page.evaluate()
和 page.onConsoleMessage()
:
var page = require('webpage').create(); var url = 'https://example.com'; page.open(url, function(status) { if (status === 'success') { console.log('Page loaded successfully'); // 在页面的上下文中执行 JavaScript 代码 page.evaluate(function() { console.log('This message will be captured by PhantomJS'); }); // 监听页面输出的 console.log 消息 page.onConsoleMessage = function(msg) { console.log('Captured message from the page: ' + msg); }; // 等待一段时间,让 JavaScript 代码执行完成 setTimeout(function() { console.log('Content: ' + page.content); phantom.exit(); }, 5000); } else { console.log('Failed to load the page'); } });
这个脚本会在页面加载成功后,执行一个简单的 JavaScript 代码,并在 PhantomJS 中捕获页面输出的 console.log 消息。最后,它会等待一段时间,让 JavaScript 代码执行完成,并输出页面的内容。