网站建设 >

查看其它板块

php爬虫直接获取数据 php爬虫数据采集

php中curl爬虫怎么样通过网页获取所有链接

本文承接上面两篇，本篇中的示例要调用到前两篇中的函数，做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业，更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下：

波密ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景，ssl证书未来市场广阔！成为成都创新互联公司的ssl证书销售渠道，可以享受市场价格4-6折优惠！如果有意向欢迎电话联系或者加微信：18980820575（备注：SSL证书合作）期待与您的合作！

?php

* 使用curl 采集hao123.com下的所有链接。

include_once('function.php');

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, '');

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1);

// 页面内容我们并不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1);

// 返回结果，而不是输出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$html = curl_exec($ch);

$info = curl_getinfo($ch);

if ($html === false) {

echo "cURL Error: " . curl_error($ch);

}

curl_close($ch);

$linkarr = _striplinks($html);

// 主机部分，补全用

$host = '';

if (is_array($linkarr)) {

foreach ($linkarr as $k = $v) {

$linkresult[$k] = _expandlinks($v, $host);

}

printf("p此页面的所有链接为：/ppre%s/pren", var_export($linkresult , true));

function.php内容如下（即为上两篇中两个函数的合集）：

?php

function _striplinks($document) {

preg_match_all("'s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s]+))'isx", $document, $links);

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val;

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val;

}

// return the links

return $match;

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI);

$host = $URI_PARTS["host"];

preg_match("/^[^?]+/",$URI,$match);

$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0]);

$match = preg_replace("|/$|","",$match);

$match_part = parse_url($match);

$match_root =

$match_part["scheme"]."://".$match_part["host"];

$search = array( "|^http://".preg_quote($host)."|i",

"|^(/)|i",

"|^(?!http://)(?!mailto:)|i",

"|/./|",

"|/[^/]+/../|"

);

$replace = array( "",

$match_root."/",

$match."/",

"/",

"/"

);

$expandedLinks = preg_replace($search,$replace,$links);

return $expandedLinks;

}

php中怎么直接获取post数据

方法1、最常见的方法是：$_POST['fieldname'];

说明：只能接收Content-Type: application/x-www-form-urlencoded提交的数据

解释：也就是表单POST过来的数据

方法2、file_get_contents("php://input");

说明：

允许读取 POST 的原始数据。

和 $HTTP_RAW_POST_DATA 比起来，它给内存带来的压力较小，并且不需要任何特殊的 php.ini 设置。

php://input 不能用于 enctype="multipart/form-data"。

解释：

对于未指定 Content-Type 的POST数据，则可以使用file_get_contents(“php://input”);来获取原始数据。

事实上，用PHP接收POST的任何数据都可以使用本方法。而不用考虑Content-Type,包括二进制文件流也可以。

所以用方法二是最保险的方法

php 实现网络爬虫

pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms，开200个进程，可以实现每秒400个页面的抓取。

curl实现页面抓取，设置cookie可以实现模拟登录

simple_html_dom 实现页面的解析和DOM处理

如果想要模拟浏览器，可以使用casperJS。用swoole扩展封装一个服务接口给PHP层调用

在这里有一套爬虫系统就是基于上述技术方案实现的，每天会抓取几千万个页面。

php如何爬取天猫和淘宝商品数据

直接用Curl就行，具体爬取的数据可以穿参查看结果，方法不区分淘宝和天猫链接，但是前提是必须是PC端链接，另外正则写的不规范，所以可以自己重写正则来匹配数据。

如何用PHP做网络爬虫

其实用PHP来爬会非常方便，主要是PHP的正则表达式功能在搜集页面连接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函数非常方便的下载网页内容。

具体处理方式就是建立就一个任务队列，往队列里面插入一些种子任务和可以开始爬行，爬行的过程就是循环的从队列里面提取一个URL，打开后获取连接插入队列中，进行相关的保存。队列可以使用数组实现。

当然PHP作为但线程的东西，慢慢爬还是可以，怕的就是有的URL打不开，会死在那里。

本文标题：php爬虫直接获取数据 php爬虫数据采集
当前链接：http://cdkjz.cn/article/hpicss.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

公路钻孔机精灵网德阳机房托管成都app制作成都LED显示屏德阳发电机网站建设费用温江网站制作成都免费网站建设南宁旺客科技

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

php爬虫直接获取数据 php爬虫数据采集

php中curl爬虫怎么样通过网页获取所有链接

php中怎么直接获取post数据

php 实现网络爬虫

php如何爬取天猫和淘宝商品数据

如何用PHP做网络爬虫

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

php爬虫直接获取数据 php爬虫数据采集

php中curl爬虫 怎么样通过网页获取所有链接

php中怎么直接获取post数据

php 实现网络爬虫

php如何爬取天猫和淘宝商品数据

如何用PHP做网络爬虫

相关资讯

linux全命令 linux全部命令

腾讯云服务器怎么加入 腾讯云服务器怎么绑定域名?

腾达路由器怎么无线桥接 腾达路由器怎么无线桥接另一个路由器

数学函数c语言使用 数学函数 c语言

xftp怎么上传到阿里云服务器的简单介绍

帝国cms仿淘宝内容页 帝国cms伪原创插件

服务器安全组什么 服务器安全组配置

视频号怎么修改领域名称 视频号内容领域修改失败

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

php中curl爬虫怎么样通过网页获取所有链接

腾讯云服务器怎么加入腾讯云服务器怎么绑定域名?

腾达路由器怎么无线桥接腾达路由器怎么无线桥接另一个路由器

数学函数c语言使用数学函数 c语言

帝国cms仿淘宝内容页帝国cms伪原创插件

服务器安全组什么服务器安全组配置

视频号怎么修改领域名称视频号内容领域修改失败

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接