可以用以下4个方法来抓取网站 的数据:
创新互联服务项目包括沧州网站建设、沧州网站制作、沧州网页制作以及沧州网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,沧州网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到沧州省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!
1. 用 file_get_contents 以 get 方式获取内容:
?
$url = '';
$html = file_get_contents($url);
echo $html;
2. 用fopen打开url,以get方式获取内容
?
$url = '';
$fp = fopen($url, 'r');
stream_get_meta_data($fp);
$result = '';
while(!feof($fp))
{
$result .= fgets($fp, 1024);
}
echo "url body: $result";
fclose($fp);
3. 用file_get_contents函数,以post方式获取url
?
$data = array(
'foo'='bar',
'baz'='boom',
'site'='',
'name'='nowa magic');
$data = http_build_query($data);
//$postdata = http_build_query($data);
$options = array(
'http' = array(
'method' = 'POST',
'header' = 'Content-type:application/x-www-form-urlencoded',
'content' = $data
//'timeout' = 60 * 60 // 超时时间(单位:s)
)
);
$url = "";
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);
echo $result;
4、使用curl库,使用curl库之前,可能需要查看一下php.ini是否已经打开了curl扩展
$url = '';
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
echo $file_contents;
mysql_connect("网站mysql的url","账户","密码");
通常情况下
网站的mysql也是服务器上的
服务器厂商会给你mysql的url地址
通常用phphmyadmin在线管理mysql
因为window和linux的根目录不太一样
linux的根目录是root
而mysql通常是和php等等平级的
你在浏览器地址栏输入“localhost”
你可以看到你的apache
php
phpmyadmin
mysql
等等的目录和信息
输入localhost/info
可以看到php的信息
一般情况下
你把xxx.sql文件放到www下
以www为根目录
mysql在上一级
就“../”
php文件在平级
即“./”
创建一个新cURL资源
设置URL和相应的选项
抓取URL并把它传递给浏览器
关闭cURL资源,并且释放系统资源
代码案例:
PHP Simple HTML DOM或者phpQuery可以直接取得某些div中的内容,里面有几个例子专门针对于网页抓取,调整好抓取频次,舍去已经存在的数据,你可以参考下
;id=57class=2