怎样用PHP的cURL库编写一个爬取网页数据的脚本

wen PHP项目 2026-06-05 84

掌握PHP cURL：从零构建高效网页数据爬取脚本实战指南

目录导读

cURL库的核心原理与PHP环境配置
编写基础爬虫脚本的5个关键步骤
处理反爬机制的实用技巧
数据解析与存储的完整方案
常见错误排查与性能优化问答
完整代码示例与最佳实践

cURL库的核心原理与PHP环境配置

什么是cURL？
cURL（Client URL）是一个支持多种协议的传输库，PHP通过libcurl扩展封装了它的功能，它允许开发者像浏览器一样发送HTTP请求、处理Cookies、设置代理等,是实现网页爬虫的核心工具。

环境检查与启用
在PHP中启用cURL很简单：

打开php.ini文件，去掉extension=curl前的分号
重启Web服务器后，通过phpinfo()或print_r(curl_version());验证是否启用

cURL的工作流程

初始化会话：curl_init()
设置选项：curl_setopt()（核心步骤）
执行请求：curl_exec()
关闭会话：curl_close()

小知识：cURL支持HTTP/HTTPS、FTP、SMTP等20多种协议，但对于网页爬虫,我们主要使用HTTP协议。

编写基础爬虫脚本的5个关键步骤

步骤1：构建目标URL与请求头

$url = "https://example.com/data";
$headers = [
    "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Accept: text/html,application/xhtml+xml",
    "Accept-Language: zh-CN,zh;q=0.9"
];

步骤2：设置cURL选项

$ch = curl_init();
curl_setopt_array($ch, [
    CURLOPT_URL => $url,
    CURLOPT_RETURNTRANSFER => true,  // 返回字符串而非直接输出
    CURLOPT_HTTPHEADER => $headers,
    CURLOPT_TIMEOUT => 30,           // 超时时间
    CURLOPT_FOLLOWLOCATION => true,  // 自动跟随重定向
    CURLOPT_SSL_VERIFYPEER => false  // 测试环境可关闭SSL验证
]);

步骤3：执行并获取响应

$response = curl_exec($ch);
$httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
if (curl_errno($ch)) {
    echo "cURL Error: " . curl_error($ch);
}
curl_close($ch);

步骤4：处理HTTP状态码

200 → 成功
301/302 → 已自动重定向
403 → 被禁止访问，需调整请求头
429 → 请求过频，需添加延时

步骤5：提取关键数据

使用正则或DOM解析器（如DOMDocument）提取内容：

$dom = new DOMDocument();
@$dom->loadHTML($response);
$xpath = new DOMXPath($dom);
$titles = $xpath->query("//h2[@class='title']");

处理反爬机制的实用技巧

常见反爬手段

IP频率限制
User-Agent检测
Cookie/Session验证
JavaScript渲染内容
验证码与滑块

破解方案

IP代理池：使用CURLOPT_PROXY和CURLOPT_PROXYTYPE

curl_setopt($ch, CURLOPT_PROXY, "代理IP:端口");
curl_setopt($ch, CURLOPT_PROXYPASSWORD, "用户:密码");

随机User-Agent：维护一个UA列表，每次随机切换

会话保持：启用Cookie存储：

curl_setopt($ch, CURLOPT_COOKIEJAR, "cookies.txt");
curl_setopt($ch, CURLOPT_COOKIEFILE, "cookies.txt");

请求延迟：usleep(rand(500000, 1500000)); // 0.5-1.5秒随机延迟

重要提示：请遵守目标网站的robots.txt协议，合理控制请求频率,避免对服务器造成负担。

数据解析与存储的完整方案

HTML解析方法对比

方法	优点	缺点
正则表达式	快速简单	难以处理复杂HTML
DOMDocument + XPath	标准W3C方式	对不规范HTML处理差
SimpleHTMLDom	类似jQuery选择器	第三方库需引入
QueryPath	支持CSS选择器	依赖Composer

推荐方案：SimpleHTMLDom

安装：composer require simplesoftwareio/simple-html-dom

use SimpleSoftwareIO\HtmlDom\HtmlDom;
$html = new HtmlDom($response);
$items = $html->find('div.product-item');
foreach ($items as $item) {
    $title = $item->find('h3', 0)->plaintext;
    $price = $item->find('.price', 0)->plaintext;
}

数据存储

CSV文件：适合结构化数据
MySQL数据库：使用PDO预处理防止注入
JSON文件：适合后续API对接

$db = new PDO('mysql:host=localhost;dbname=spider', 'user', 'pass');
$stmt = $db->prepare("INSERT INTO products (title, price) VALUES (?, ?)");
$stmt->execute([$title, $price]);

常见错误排查与性能优化问答

Q1：为什么cURL总是返回空字符串？
A：检查三个地方：

是否开启了CURLOPT_RETURNTRANSFER
目标服务器是否返回了非200状态码（用curl_getinfo查看）
是否存在SSL证书问题（CURLOPT_SSL_VERIFYPEER => false）

Q2：如何处理需要登录的网站？
A：分两步：

先模拟登录POST请求获取Cookie

后续请求携带Cookie进行身份验证

// 登录请求
curl_setopt($ch, CURLOPT_POSTFIELDS, "username=user&password=123");
// 获取后通过CURLOPT_COOKIEFILE携带

Q3：多页面爬取如何提速？
A：使用cURL的多句柄功能（curl_multi_*），实现并发请求。

$mh = curl_multi_init();
foreach ($urls as $i => $url) {
    $ch = curl_init($url);
    curl_multi_add_handle($mh, $ch);
}
// 参考PHP官方文档实现

Q4：遇到大量重定向怎么办？
A：启用CURLOPT_FOLLOWLOCATION，并设置最大重定向次数：

curl_setopt($ch, CURLOPT_MAXREDIRS, 5);

完整代码示例与最佳实践

综合爬虫模板

<?php
class WebScraper {
    private $ch;
    private $proxyList = [];
    public function __construct() {
        $this->ch = curl_init();
        $this->setDefaultOptions();
    }
    private function setDefaultOptions() {
        curl_setopt_array($this->ch, [
            CURLOPT_RETURNTRANSFER => true,
            CURLOPT_FOLLOWLOCATION => true,
            CURLOPT_TIMEOUT => 30,
            CURLOPT_USERAGENT => $this->getRandomUserAgent(),
            CURLOPT_ENCODING => 'gzip',
        ]);
    }
    public function fetch($url) {
        curl_setopt($this->ch, CURLOPT_URL, $url);
        $response = curl_exec($this->ch);
        $info = curl_getinfo($this->ch);
        if ($info['http_code'] != 200) {
            throw new Exception("HTTP Error: " . $info['http_code']);
        }
        // 反爬间隔
        usleep(rand(1000000, 2000000));
        return $response;
    }
    private function getRandomUserAgent() {
        $agents = [
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...',
            'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15...',
            // 维护更多UA
        ];
        return $agents[array_rand($agents)];
    }
    public function __destruct() {
        curl_close($this->ch);
    }
}
// 使用示例
$scraper = new WebScraper();
try {
    $html = $scraper->fetch("https://example.com/products");
    // 解析并存储...
} catch (Exception $e) {
    echo "Error: " . $e->getMessage();
}
?>

最佳实践清单

[ ] 始终设置超时时间
[ ] 使用异常处理而非简单die()
[ ] 记录日志便于调试
[ ] 遵守robots.txt规则
[ ] 使用try-catch包裹网络请求
[ ] 测试阶段限制请求数量
[ ] 定期更新代理IP和User-Agent库

PHP cURL为我们提供了强大的网络数据获取能力，但技术中立性原则要求我们合理使用，在构建爬虫时，请始终将合法性放在首位，尊重网站的使用条款，掌握本文的知识点后，你已具备从任意公开网站提取结构化数据的能力,接下来就是通过大量实践来精进这项技能了。

（全文共约1800字,覆盖了cURL爬虫从原理到实战的完整知识体系）