网站建设 >

查看其它板块

php正则抓取网页数据,php获取网页数据

php 用正则表达式提取网页内容

$str = 'li class="blackArea" data-sourcelatest-elem="item" data-tvid="694641300" data-vid="7b0b59d2ef0cb1152368ca9be9a4ae76" data-idx="4" data-sourcelatest-month="" data-delegate="videoPlayList"

创新互联公司是一家专业的成都网站建设公司，我们专注网站设计、网站制作、网络营销、企业网站建设，外链，一元广告为企业客户提供一站式建站解决方案，能带给客户新的互联网理念。从网站结构的规划UI设计到用户体验提高，创新互联力求做到尽善尽美。

p class="video_position video_rb"span class="v_name" rseat="xj_ty3"第2017-06-08期/span/p

h3 a title="微体兔新版馋嘴小面" href="javascript:void(0);" rseat="xj_vn3"微体兔新版馋嘴小面/a /h3

/li';

$pattern = "/[\s\S]*li[^]+data-tvid[=\"\']+([^\"\']*)[\"\'][^]*data-vid[=\"\']+([^\"\']*)[\"\'][\s\S]*/i";

$tvid = preg_replace($pattern, "$1", $str);

$vid = preg_replace($pattern, "$2", $str);

$reg = "/[\s\S]*p[^]*((?:(?!\/p)[\s\S])*)\/p[\s\S]*/i";

$p = preg_replace($reg, "$1", $str);

$reg = "/[\s\S]*h3[^]*((?:(?!\/h3)[\s\S])*)\/h3[\s\S]*/i";

$h3 = preg_replace($reg, "$1", $str);

echo $tvid."\n".$vid."\n".$p."\n".$h3;

php 正则获取网站内容

我写好了，用Dreamweaver调试过，可以匹配。

先用下面正则提取需要的代码段：

Draw Result.+?(\d{1,2})/td.+?(\d{1,2})/td.+?(\d{1,2})/td.+?(\d{1,2})/td.+?(\d{1,2})/td.+?(\d{1,2})/td

再用正则替换，把该内容中除了数字以外的代码去除：

替换成$1,$2,$3,$4,$5,$6 即可得到 4,7,8,33,36,43

php获取网页源码内容有哪些办法

可以参考以下几种方法：

方法一： file_get_contents获取

span style="white-space:pre" /span$url="";

span style="white-space:pre" /span$fh= file_get_contents

('');span style="white-space:pre" /spanecho $fh;

方法二：使用fopen获取网页源代码

span style="white-space:pre" /span$url="";

span style="white-space:pre" /span$handle = fopen ($url, "rb");

span style="white-space:pre" /span$contents = "";

span style="white-space:pre" /spanwhile (!feof($handle)) {

span style="white-space:pre" /span$contents .= fread($handle, 8192);

span style="white-space:pre" /span}

span style="white-space:pre" /spanfclose($handle);

span style="white-space:pre" /spanecho $contents; //输出获取到得内容。

方法三：使用CURL获取网页源代码

$url="";

$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';

$curl = curl_init(); //创建一个新的CURL资源

curl_setopt($curl, CURLOPT_URL, $url); //设置URL和相应的选项

curl_setopt($curl, CURLOPT_HEADER, 0); //0表示不输出Header，1表示输出

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //设定是否显示头信息,1显示，0不显示。//如果成功只将结果返回，不自动输出任何内容。如果失败返回FALSE

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

curl_setopt($curl, CURLOPT_ENCODING, ''); //设置编码格式，为空表示支持所有格式的编码

//header中“Accept-Encoding: ”部分的内容，支持的编码格式为："identity"，"deflate"，"gzip"。

curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);

curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);

//设置这个选项为一个非零值(象 “Location: “)的头，服务器会把它当做HTTP头的一部分发送(注意这是递归的，PHP将发送形如 “Location: “的头)。

$data = curl_exec($curl);

echo $data;

//echo curl_errno($curl); //返回0时表示程序执行成功

curl_close($curl); //关闭cURL资源，并释放系统资源

拓展资料

PHP（外文名:PHP: Hypertext Preprocessor，中文名：“超文本预处理器”）是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点，利于学习，使用广泛，主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。

用PHP做出的动态页面与其他的编程语言相比，PHP是将程序嵌入到HTML（标准通用标记语言下的一个应用）文档中去执行，执行效率比完全生成HTML标记的CGI要高许多；PHP还可以执行编译后代码，编译可以达到加密和优化代码运行，使代码运行更快。

参考资料：PHP（超文本预处理器)-百度百科

php正则表达式怎么抓取网页数据

会用正则就会抓取。

不会正则，一时半会也教不错。

不过，推荐你使用phpQuery这个框架，用jQuery的使用器来抓取数据。

PHP如何正则表达式提取网页内容

如果你要div class="nav" monkey="nav"和div class="head-ad"之间的所有源码，用 preg_match 就可以，不用preg_match_all ，如果你要里面的所有的 li/li标签中的内容，可以用preg_match_all

//提取所有代码

$pattern = '/div class="nav" monkey="nav"(.+?)div class="head-ad"/is';

preg_match($pattern, $string, $match);

//$match[0] 即为div class="nav" monkey="nav"和div class="head-ad"之间的所有源码

echo $match[0];

//然后再提取li/li之间的内容

$pattern = '/li.*?(.+?)\/li/is';

preg_match_all($pattern, $match[0], $results);

$new_arr=array_unique($results[0]);

foreach($new_arr as $kkk){

echo $kkk;

}

网站名称：php正则抓取网页数据,php获取网页数据
本文URL：http://cdkjz.cn/article/hsdpgj.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都定制网站建设成都网站维护公司橡塑保温管简阳服务器托管做网站公司公司宣传册设计 shjierui.cn 西部信息中心普能电气高防服务器租用

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

php正则抓取网页数据,php获取网页数据

php 用正则表达式提取网页内容

php 正则获取网站内容

php获取网页源码内容有哪些办法

php正则表达式怎么抓取网页数据

PHP如何正则表达式提取网页内容

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

php正则抓取网页数据,php获取网页数据

php 用正则表达式提取网页内容

php 正则获取网站内容

php获取网页源码内容有哪些办法

php正则表达式怎么抓取网页数据

PHP如何正则表达式提取网页内容

相关资讯

包含SAP和业务系统产生接口的词条

linux命令行查找命令 linux查找的命令

java用户管理代码 java 用户管理

群晖路由器配置 群晖路由器配置ip地址

阿里云服务器资费标准 阿里云服务器资费标准是多少

如何卖好阿里云服务器 阿里云服务器购买流程

路由器华为h3c 路由器华为ax3

如何判断路由器的好坏 怎么判断路由器的好坏?

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

群晖路由器配置群晖路由器配置ip地址

阿里云服务器资费标准阿里云服务器资费标准是多少

如何卖好阿里云服务器阿里云服务器购买流程

如何判断路由器的好坏怎么判断路由器的好坏?

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接