网站建设 >

查看其它板块

怎么在python中提取文本信息

怎么在python中提取文本信息？很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。

创新互联建站专注于企业营销型网站、网站重做改版、鹤庆网站定制设计、自适应品牌网站建设、HTML5、购物商城网站建设、集团公司官网建设、外贸网站制作、高端网站制作、响应式网页设计等建站业务，价格优惠性价比高，为鹤庆等各大城市提供网站开发制作服务。

Python主要用来做什么

Python主要应用于：1、Web开发；2、数据科学研究；3、网络爬虫；4、嵌入式应用开发；5、游戏开发；6、桌面应用开发。

1、信息提取

先用句子分段器将文档的原始文本分成句子，再用记号赋值器将每个句子进一步分成单词。其次，给每一个句子做词性标记。以nltk中的默认工具为例，将句子分段器、分词器、词性标记器连接。

def ie_preprocess(document):
    # nltk 默认的句子分段器
    sentences = nltk.sent_tokenize(document)
    # nltk默认分词器
    sentences = [nltk.word_tokenize(sent) for sent in sentences]
    # nltk默认词性标记
    sentences = [nltk.pos_tag(sent) for sent in sentences]

2、词块划分

词块划分是实体识别的基础技术，对多个词的顺序进行划分和标记。

如Noun Phrase Chunking（名词短语词块划分）

使用正则表达式来定义一个语法，来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是，不是确定每个单词的正确单词性标记，而是根据每个单词的单词性标记，确定正确的单词块标记。

# 使用一元标注器建立一个词块划分器。根据每个词的词性标记，尝试确定正确的词块标记。
class UnigramChunker(nltk.ChunkParserI):
    # constructor
    def __init__(self, train_sents):
        # 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组（word，tag，chunk）的列表
        train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)]
                      for sent in train_sents]
        # 训练一元分块器
        # self.tagger = nltk.UnigramTagger(train_data)
        # 训练二元分块器
        self.tagger = nltk.BigramTagger(train_data)
 
    # sentence为一个已标注的句子
    def parse(self, sentence):
        # 提取词性标记
        pos_tags = [pos for (word, pos) in sentence]
        # 使用标注器为词性标记 标注IOB词块
        tagged_pos_tags = self.tagger.tag(pos_tags)
        # 提取词块标记
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        # 将词块标记与原句组合
        conlltags = [(word, pos, chunktag) for ((word, pos), chunktag)
                     in zip(sentence, chunktags)]
        # 转换成词块树
        return nltk.chunk.conlltags2tree(conlltags)

看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注创新互联行业资讯频道，感谢您对创新互联的支持。

分享标题：怎么在python中提取文本信息
标题URL：http://cdkjz.cn/article/jjphds.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都服务器租赁品牌网站建设公司成都微信小程序开发成都网站建设格蓝特设备成都网站建设公司成都创新互联云主机八点广告成都高电机柜租用

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

怎么在python中提取文本信息

Python主要用来做什么

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

怎么在python中提取文本信息

Python主要用来做什么

相关资讯

C语言date函数6,c语言date函数用法

ios开发趋势,ios未来发展趋势

css样式边界,css样式边距

oracle如何查询日均,oracle 平均时间

go语言能干些什么,go语言可以用来干什么

go语言循环每次加1,go循环引用

jquery随机,jquery随机数1到100

鸿蒙开发进展,鸿蒙开发生态

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接