从品牌网站建设到网络营销策划,从策略到执行的一站式服务
这篇文章主要介绍“Nutch数据集的目录具体内容是什么”,在日常操作中,相信很多人在Nutch数据集的目录具体内容是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Nutch数据集的目录具体内容是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
创新互联建站长期为1000多家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为兴山企业提供专业的做网站、成都网站制作,兴山网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。
#导出crawldb
bin/nutch readdb data/crawldb/ -dump data/crawldb_dump
#查看crawldb
Crawldb内容主要包括,抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。
#查看linkdb
#查看segments
一次爬行会产生很多个段(segment),段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list),然后Fetcher类通过预取列表中的URL抓取这些网页并索引,然后将其存入段中。
#查看segments目录
Content:保存的是 fetcher 所抓取回来的源内容,html脚本
Crawl_fetch:包含每个抓取页面的状态
Crawl_generate:包含所抓取的网址列表
Crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库
Parse_data: 包含每个页面的外部链接和元数据
Parse_text: 包含每个抓取页面的解析文本
到此,关于“Nutch数据集的目录具体内容是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!
咨询相关问题或预约面谈,可以通过以下方式与我们联系
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询400-028-6601
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图