简单的分了几个步骤:
扶沟ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:028-86922220(备注:SSL证书合作)期待与您的合作!
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库
工具/原料
PHPCMS
文章采集器
方法/步骤
1、首先我们需要下载并安装GBK格式的PHPCMS系统。
2、下载PHPCMS和文章采集器的接口文件
3、将jiekou.php文件复制到网站的根目录下,并用记事本打开该文件,修改“密码验证”栏目password处的密码
4、启动文章采集器,先点击【第三步发布内容设置】中的"web发布管理配置"
5、在弹出的【web发布配置管理】窗口中单击右侧的【更多】按钮,导入“phpcms9.wpm”配置模块,并选择该模块
6、设置【web发布配置管理】中的编码设置、登录操作、获取分类栏目等选项
7、单击【测试】按钮,在弹出的【发布配置测试】对话框中设置标签和内容的值,此项为必须设置,否则发布测试文章会失败。至此PHPCMS已经与文章采集器连接成功。
是小猪浏览器 出的 瞬采PHPWIND采集器吧?
很不错的,是一款智能的机器人软件,完全模拟人工,支持phpwind论坛全系列以及phpwind门户发布文章,简单易用,看了教程,立马就可以上手使用了。
1.瞬采phpwind采集器,内置phpwind发布接口,不限制添加网站数量,只要是phpwind源程序的论坛,都可以支持,不仅仅是发布到自己的phpwind论坛;
2.不绑定电脑,软件是纯绿色的,压缩包2m多,随身携带,u盘上都可以运行;
3.内置300多条采集规则,智能自动识别大部分论坛和网站,采集主帖和回复、采集文章都可以,不限制被采集的网站,自己做采集规则也很简单;
4.强大的论坛账号角色管理系统,批量注册、批量换签名和头像,指定账号发布首帖,账号绑定到某些版块禁止串门发表;
5.全自动 附件、图片本地化,无需手动ftp到网站附件文件夹;
6.支持附件、图片自动上传到网盘,节约有限的论坛空间,还能赚网盘下载费用;
7.跟踪跟新采集,只要目标网站有新文章,立刻能采集发布到指定的版块,有多少抓多少,自动更新网站内容;
8.目标站帖子隐藏的也能采集,会自动回复并采集下来;
9.自动购买目标站的附件,实现完全无障碍采集;
10.伪原创支持多国语言自动翻译
11.伪原创支持 词汇过滤、替换,支持繁体化,段落错排,删除句子等高级优化功能
……
功能太多,无法一一列举。
瞬采系列为收费版,可以试用小猪浏览器免费版,2者内核一样的!
防采集的一些思路的探讨
1、用不同的模板
对于用程序的网站来说,不大可行,一个网站的模板最多也就几套吧。
2、使用robots禁止访问网页目录
这个方法可以有效的防止采集,不过将搜索引擎也封掉了,对于靠搜索引擎吃饭的站长们来说,得不偿失。
一个例子,Disallow 后面就是禁止访问的目录:
User-agent: *
Disallow: /admin
Disallow: /attachments
Disallow: /images
Disallow: /forumdata
Disallow: /include
3、使用HTTP_REFERER禁止采集,发现来自非本站连接就禁止察看叶面,就像前一段落伍im286.net防DDOS那个禁止调用一样。
这个方法可以比较有效的防止采集,不过也一样把搜索引擎封掉了,对于靠搜索引擎吃饭的站长们来说,得不偿失。
对高手无效,因为HTTP_REFERER可以伪造。但对一般使用采集的人来说,已经足够应付了。
例:
php
if(preg_replace("/https?://([^/]+).*/i", "1", $HTTP_SERVER_VARS['HTTP_REFERER']) != $HTTP_SERVER_VARS['HTTP_HOST']) {
exit('警告----你的操作已经被禁止。');
}
4、使用HTTP_REFERER伪造内容
这个方法可以比较有效的防止采集,不过对于搜索引擎来说,查到的东西跟你伪造的东西一样的,可能会影响收录。(如有不对,请高手指出)
同上,对于高手无效。
5、使用java加密内容。
这个可能会比较有效,但是我对java一窍不通,也就不清楚如何入手了。
但我想,既然你这样使得别人采集到乱码,搜索引擎有可能也是收录到乱码的(我不清楚搜索引擎怎么工作,不过我猜测他们是察看网页源代码的。),也就影响收录。
6、使用java加密网址
同上,有可能让搜索引擎无法搜索到你的网页。
7、生成pdf文件、生成图片
这个方法可以比较有效的防止采集,不过照样让搜索引擎望而却止。
8、加上自己的版权信息
这个方法最大的好处就是不影响搜索引擎,效果马马虎虎,一般上可以让采集者采集到带有自己版权的稿件内容。但是对于可以过滤广告的采集程序来说,不大有效。
以下是作者给俺的PM:
Quote:
你的版权是不是加了你的网站和网址?
只要把网址和网站名替换成他的就可以了啊.这样还让他有了版权功能呢.
反正防采真是头疼....
有点麻烦,我的思路是将网站名称分成一个一个字来显示,他不可能将每个字都替换掉吧?不过要这样我就没办法了。比如说我将我的 武侠网 拆开,分成
武侠网
,$rand_color*是随机颜色,可以自己控制的,如果是动态网页的话,还配合HTTP_REFERER来搞随机,这样子随机性就更大了。一般上,尽量制造难度就是了。模板也可以制造随机性,几个相似的模板轮流来弄,这样子让人采集的难度更大。
不过说实话,要使他们真要搞,那是没办法的事,不过至少要花他们很多的时间去研究。在此之前,他们可能没耐性转向别的站了。
另外,最好不要让人知道你使用随机函数。一般人只是稍微看一下网页代码,就开始采集了。
其实俺地网站也喜欢采集别家的东东,我感觉只要是好的东东,就应该大家一起分享嘛,要真是机密数据,那就最好在每个页面上加随机密码了,但这样也会使搜索引擎找不到你的,得不偿失呀