网站建设 >

查看其它板块

php数据爬取原理数据爬取方法

php中curl爬虫怎么样通过网页获取所有链接

本文承接上面两篇，本篇中的示例要调用到前两篇中的函数，做一个简单的URL采集。一般php采集网络数据会用file_get_contents、file和cURL。不过据说cURL会比file_get_contents、file更快更专业，更适合采集。今天就试试用cURL来获取网页上的所有链接。示例如下：

创新互联建站是一家集网站建设,法库企业网站建设,法库品牌网站建设,网站定制,法库网站建设报价,网络营销,网络优化,法库网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

?php

* 使用curl 采集hao123.com下的所有链接。

include_once('function.php');

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, '');

// 只需返回HTTP header

curl_setopt($ch, CURLOPT_HEADER, 1);

// 页面内容我们并不需要

// curl_setopt($ch, CURLOPT_NOBODY, 1);

// 返回结果，而不是输出它

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

$html = curl_exec($ch);

$info = curl_getinfo($ch);

if ($html === false) {

echo "cURL Error: " . curl_error($ch);

}

curl_close($ch);

$linkarr = _striplinks($html);

// 主机部分，补全用

$host = '';

if (is_array($linkarr)) {

foreach ($linkarr as $k = $v) {

$linkresult[$k] = _expandlinks($v, $host);

}

printf("p此页面的所有链接为：/ppre%s/pren", var_export($linkresult , true));

function.php内容如下（即为上两篇中两个函数的合集）：

?php

function _striplinks($document) {

preg_match_all("'s*as.*?hrefs*=s*(["'])?(?(1) (.*?)\1 | ([^s]+))'isx", $document, $links);

// catenate the non-empty matches from the conditional subpattern

while (list($key, $val) = each($links[2])) {

if (!empty($val))

$match[] = $val;

} while (list($key, $val) = each($links[3])) {

if (!empty($val))

$match[] = $val;

}

// return the links

return $match;

}

/*===================================================================*

Function: _expandlinks

Purpose: expand each link into a fully qualified URL

Input: $links the links to qualify

$URI the full URI to get the base from

Output: $expandedLinks the expanded links

*===================================================================*/

function _expandlinks($links,$URI)

{

$URI_PARTS = parse_url($URI);

$host = $URI_PARTS["host"];

preg_match("/^[^?]+/",$URI,$match);

$match = preg_replace("|/[^/.]+.[^/.]+$|","",$match[0]);

$match = preg_replace("|/$|","",$match);

$match_part = parse_url($match);

$match_root =

$match_part["scheme"]."://".$match_part["host"];

$search = array( "|^http://".preg_quote($host)."|i",

"|^(/)|i",

"|^(?!http://)(?!mailto:)|i",

"|/./|",

"|/[^/]+/../|"

);

$replace = array( "",

$match_root."/",

$match."/",

"/",

"/"

);

$expandedLinks = preg_replace($search,$replace,$links);

return $expandedLinks;

}

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

如何用php 编写网络爬虫

其实用PHP来爬会非常方便，主要是PHP的正则表达式功能在搜集页面连接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函数非常方便的下载网页内容。

爬虫技术什么编程语言

相关的网络编程API，比如Java, Python, C++, C#, PHP, Perl等

网络爬虫，又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常被称为网页追逐者，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源，通过相应的索引技术组织这些信息，提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。

网络爬虫另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎，例如传统的通用搜索引擎AltaVista，Yahoo！和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：

不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。

通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。

通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。

标题名称：php数据爬取原理数据爬取方法
地址分享：http://cdkjz.cn/article/docsgid.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

造型师设计正泰动物制药重庆电商网站定制网站SEO优化排名微信小程序重庆主机托管德阳服务器托管手机APP开发企业画册设计制作成都微信小程序开发

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询400-028-6601

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

php数据爬取原理数据爬取方法

php中curl爬虫怎么样通过网页获取所有链接

怎么用php采集网站数据

如何用php 编写网络爬虫

爬虫技术什么编程语言

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

php数据爬取原理 数据爬取方法

php中curl爬虫 怎么样通过网页获取所有链接

怎么用php采集网站数据

如何用php 编写网络爬虫

爬虫技术 什么编程语言

相关资讯

家里可以装两个路由器吗 家里可以装两个路由器吗怎么设置

盐城抖音账号直播运营直播间,抖音账号可以开直播吗？

C语言函数怎么设置竖线 c语言中一个竖杠表示什么

java代码质量规范 java爬虫代码示例

路由器怎么网关设置 路由器怎么网关设置同一个网段

linux命令help linux命令hex绕过

linux常用命令od Linux常用命令的使用实验总结

c语言形参传回调用函数 通过形参传回调用函数

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

php数据爬取原理数据爬取方法

php中curl爬虫怎么样通过网页获取所有链接

爬虫技术什么编程语言

家里可以装两个路由器吗家里可以装两个路由器吗怎么设置

路由器怎么网关设置路由器怎么网关设置同一个网段

c语言形参传回调用函数通过形参传回调用函数

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接