盲反馈检索系统实验记录三-快上网网站建设公司

盲反馈检索系统实验记录三

计算tf/idf

超过10年行业经验，技术领先，服务至上的经营模式，全靠网络和口碑获得客户，为自己降低成本，也就是为客户降低成本。到目前业务范围包括了：网站制作、成都网站制作，成都网站推广，成都网站优化，整体网络托管，微信小程序定制开发，微信开发，重庆APP软件开发，同时也可以让客户的网站和网络营销和我们一样获得订单和生意！

在使用fileStr获取新闻的内容和长度后，我们就可以计算他们的tf和idf:

//计算tf\idf
static public function tf_df($seg){
    $str=self::fileStr();
    $file_dir=self::fileDir(TEXT_PATH);
    $df=array();
    for($i=0;$i
该方法传递的参数$seg就是前面提到若的使用segment分词方法返回的结果。这里使用的是它计算出来的['word']和['times']。
第一个for双重循环：第一个for循环得到每一篇文档所有词的信息，第二个for循环取出这篇文档每个词的信息，比如$seg[$i][$j]['times']是一个词出现的次数，再除以这篇文档的长度$str[$i]['len']就可以得到词频。
第二个for双重循环：大概意思就是得到该文档集的文档频率df后,使用公式idf=log(N/df)，N表示文档集总数，df就是所计算词的文档频率，最后得出idf（逆文档频率）。
新创建一个用来测试的php文件test.php,代码如下
在浏览器中运行（这个过程大概花费20s）,查看源代码：
计算特征向量
万事俱备，只欠东风。到这里，我们已经得到了所有词项的tf和idf，他们的权重=tf*idf.在这里我们又会使用到之前已经创建好的词表（保存在dic.txt），词表中的每一个词代表空间中的一个维度，dic.txt中有1000多个词，因而空间中就有1000多维。我们把每篇文档的词项都映射到这1000多个维度里，每个维度的值表示该词项的权重，若该篇文档不存在词典中出现的词，则对应的维度值设为0.（这里利用的是向量空间模型的知识）。
计算特征向量的代码封装在方法vsm中：
//特征向量,并写入文件(tf/idf以及存在seg中)
static public function vsm($seg){
    $file_dir=self::fileDir(TEXT_PATH);
    $dic_str=file_get_contents('dic.txt');
    $dic_arr=explode(',',$dic_str);
                                                                                                       
    $vsm_arr=array();   //向量空间
    for($i=0;$i
该方法把对应文档的特征向量计算出来后，把他们保存在目录名为vsm的目录中，文件名和它们的新闻文档文件名相同。修改test.php：
即可运行，在系统目录的vsm下可以看到多出了10个txt文件，里边的内容保存的分别是对应文档的特征向量。
			附件：http://down.51cto.com/data/2364246							            
            
                        

            文章名称：盲反馈检索系统实验记录三            

            文章位置：http://cdkjz.cn/article/gccgee.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

盲反馈检索系统实验记录三

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

盲反馈检索系统实验记录三

相关资讯

java仿qq主界面代码 java制作登录界面

向量vb点虐 向量垂直公式

泰州sap系统费用的简单介绍

sap系统物料流的简单介绍

域名更新速度很慢怎么回事 域名及时更新

linuxvi只读命令 linux只读文件怎么修改权限

wordpress做专题 wordpress文章主题

vb点虐 回车键确认 vb中回车

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

向量vb点虐向量垂直公式

域名更新速度很慢怎么回事域名及时更新

vb点虐回车键确认 vb中回车

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接