下面产生复制内容的原因。
(1)前面讨论的网址规范化问题会产生复制内容。
(2)代理商和零售商从产品生产商那里转载产品信息。这到没什么不对,一般生产商也都同意,没有版权问题。但绝大部分代理商、零售商、批发商都是直接COPY,而不做任何改动,大家用的都是一模一样的产品说明,所以这些
电子商务网站上有大量复制内容。
(3)打印版本。很多网站除了正常供浏览的网页外,还提供更适于打印的页面版本,如果没有用适当方式禁止抓取,这些打印版本网页就会变成复制内容。
(4)网站结构造成的各种页面版本。如产品列表按价格、评论、上架时间等排序在前,博客的分内存档、时间存档等。
(5)网页内容有RSS生成。有很多网站,尤其是新闻,类网站,用其他网站RSS feed生成网站内容,这些内容在原始出处和很多其他类网站上都已经出现过很多次了。
(6)使用Session ID。搜索引擎蜘蛛在不同的时间访问网页的时候,被给予了不同的Session ID,实际上网页内容是一样的。由于Sessin ID参数不同,就被当成了不同的网页。
(7)网页的实质内容很少,没个网页上都不可避免的有通用部分,不如导航条、版权声明、广告等、如果网页的正文部分内容太短,内容数量还低不上通用部分,就有可能被认为是复制内容页面。
(8)转载或抄袭。有时是其他人抄袭了你的内容,有时是善意的转载,有时是作者自己在不同的网站发布同一篇文章,这些都会造成复制内容。
(9)镜象网站。镜象网站曾经很流行,当一个网站太忙太慢时。用户可以通过替代镜像来看内容或下载。这些也有造成复制内容的风险。
(10)产品或服务类型之间的区别比较小,不如有的网站把自己的服务按地区进行分类,但实际上提供给每一个地区的产品或服务都是一样的。这些按地区分类的页面只是把地名改了改,其他服务内容说明都一样。
(11)URL任意加字符还是返回200状态吗。有的网站由于技术原因,用户在URL后加上任意字符和参数,服务器 还能正常返回200状态码,并返回没有加上任意字符时一样的重复内容页面。
检查页面是否有复制版本相对简单,拿出页面正文中的一句话,加上双引号,在搜索引擎中搜索一下,从结果中就可以看到是否有多个页面包含这句话。一般来说,随机挑选的一个句子,完整出现在另一篇文章中的可能性很低。
举一个比较极端却很清楚的例子。我为了试验搜索引擎是否使用关键词标签,曾在一篇博客帖子上提到“无论是东方fsdds”这么一个字符串。在我发这个贴之前,搜索引擎没有任何这个字符串的结果。现在搜索一下,可以清楚的看懂啊不少为转载或抄袭形成的复制内容。
在Google搜索得到的结果就更多了,将近1000个页面。令人无赖的是,绝大部分转载没有按版权声明来
链接到原出处,更有很多链接直接连作者都给修改了。
新闻标题:网站为什么会有重复内容?
本文地址:
http://cdkjz.cn/article/sehesj.html