网站建设 >

查看其它板块

python+mle函数,python中函数

python scikit-learn 有什么算法

1，前言

公司主营业务：网站制作、成都网站建设、移动网站开发等业务。帮助企业客户真正实现互联网宣传，提高企业的竞争能力。创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化，感谢他们对我们的高要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联推出代县免费做网站回馈大家。

很久不发文章，主要是Copy别人的总感觉有些不爽，所以整理些干货，希望相互学习吧。不啰嗦，进入主题吧，本文主要时说的为朴素贝叶斯分类算法。与逻辑回归，决策树一样，是较为广泛使用的有监督分类算法，简单且易于理解（号称十大数据挖掘算法中最简单的算法）。但其在处理文本分类，邮件分类，拼写纠错，中文分词，统计机器翻译等自然语言处理范畴较为广泛使用，或许主要得益于基于概率理论，本文主要为小编从理论理解到实践的过程记录。

2，公式推断

一些贝叶斯定理预习知识：我们知道当事件A和事件B独立时，P（AB）=P（A）（B），但如果事件不独立，则P（AB）=P（A）P（B|A）。为两件事件同时发生时的一般公式，即无论事件A和B是否独立。当然也可以写成P（AB）=P（B）P（A|B），表示若要两件事同事发生，则需要事件B发生后，事件A也要发生。

由上可知，P（A）P（B|A）= P（B）P（A|B）

推出P（B|A）=

其中P（B）为先验概率，P（B|A）为B的后验概率，P（A|B）为A的后验概率（在这里也为似然值），P（A）为A的先验概率（在这也为归一化常量）。

由上推导可知，其实朴素贝叶斯法就是在贝叶斯定理基础上，加上特征条件独立假设，对特定输入的X（样本，包含N个特征），求出后验概率最大值时的类标签Y（如是否为垃圾邮件），理解起来比逻辑回归要简单多，有木有，这也是本算法优点之一，当然运行起来由于得益于特征独立假设，运行速度也更快。

. 参数估计

3，参数估计

由上面推断出的公式，我们知道其实朴素贝叶斯方法的学习就是对概率P(Y=ck)和P(X(j)=x(j)|Y=ck)的估计。我们可以用极大似然估计法估计上述先验概率和条件概率。

其中I(x)为指示函数，若括号内成立，则计1，否则为0。李航的课本直接给出了用极大似然（MLE）估计求出的结果，并没给推导过程，

我们知道，贝叶斯较为常见的问题为0概率问题。为此，需要平滑处理，主要使用拉普拉斯平滑，如下所示：

K是类的个数，Sj是第j维特征的最大取值。实际上平滑因子λ=0即为最大似然估计，这时会出现提到的0概率问题；而λ=1则避免了0概率问题，这种方法被称为拉普拉斯平滑。

4，算法流程

5，朴素贝叶斯算法优缺点

优点：朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率

需调参较少，简单高效，尤其是在文本分类/垃圾文本过滤/情感判别等自然语言处理有广泛应用。

在样本量较少情况下，也能获得较好效果，计算复杂度较小，即使在多分类问题。

无论是类别类输入还是数值型输入（默认符合正态分布）都有相应模型可以运用。

缺点：0概率问题，需要平滑处理，通常为拉普拉斯平滑，但加一平滑不一定为效果最好，

朴素贝叶斯有分布独立的假设前提，生活中较少完全独立，在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

模型注意点：

1，大家也知道，很多特征是连续数值型的，一般选择使用朴素贝叶斯高斯模型。

2，为避免0概率事件，记得平滑，简单一点可以用『拉普拉斯平滑』。先处理处理特征，把相关特征去掉，

3，朴素贝叶斯分类器一般可调参数比较少，需集中精力进行数据的预处理等特征工程工作。

6，Scikit-learn三大朴素贝叶斯模型

Scikit-learn里面有3种不同类型的朴素贝叶斯（：

1，高斯分布型模型：用于classification问题，假定属性/特征是服从正态分布的，一般用在数值型特征。,

2，多项式型模型：用于离散值模型里。比如文本分类问题里面我们提到过，我们不光看词语是否在文本中出现，也得看出现的次数。如果总词数为n，出现词数为m的话，说起来有点像掷骰子n次出现m次这个词的场景。

3，伯努利模型：这种情况下，就如提到的bag ofwords处理方式一样，最后得到的特征只有0(没出现)和1(出现过)。

7. Scikit-learn算法实践

小编通过实现朴素贝叶斯三种模型以及主要分类算法，对比发现跟SVM，随机森林，融合算法相比，贝叶斯差距明显，但其时间消耗要远低于上述算法，以下为主要算法主要评估指标）。

8. Python代码

# -*-coding: utf-8 -*-

importtime

fromsklearn import metrics

fromsklearn.naive_bayes import GaussianNB

fromsklearn.naive_bayes import MultinomialNB

fromsklearn.naive_bayes import BernoulliNB

fromsklearn.neighbors import KNeighborsClassifier

fromsklearn.linear_model import LogisticRegression

fromsklearn.ensemble import RandomForestClassifier

fromsklearn import tree

fromsklearn.ensemble import GradientBoostingClassifier

fromsklearn.svm import SVC

importnumpy as np

importurllib

# urlwith dataset

url ="-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

#download the file

raw_data= urllib.request.urlopen(url)

#load the CSV file as a numpy matrix

dataset= np.loadtxt(raw_data, delimiter=",")

#separate the data from the target attributes

X =dataset[:,0:7]

#X=preprocessing.MinMaxScaler().fit_transform(x)

#print(X)

y =dataset[:,8]

print("\n调用scikit的朴素贝叶斯算法包GaussianNB ")

model= GaussianNB()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的朴素贝叶斯算法包MultinomialNB ")

model= MultinomialNB(alpha=1)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的朴素贝叶斯算法包BernoulliNB ")

model= BernoulliNB(alpha=1,binarize=0.0)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的KNeighborsClassifier ")

model= KNeighborsClassifier()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的LogisticRegression(penalty='l2') ")

model= LogisticRegression(penalty='l2')

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的RandomForestClassifier(n_estimators=8) ")

model= RandomForestClassifier(n_estimators=8)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的tree.DecisionTreeClassifier() ")

model= tree.DecisionTreeClassifier()

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的GradientBoostingClassifier(n_estimators=200) ")

model= GradientBoostingClassifier(n_estimators=200)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

print("\n调用scikit的SVC(kernel='rbf', probability=True) ")

model= SVC(kernel='rbf', probability=True)

start_time= time.time()

model.fit(X,y)

print('training took %fs!' % (time.time() - start_time))

print(model)

expected= y

predicted= model.predict(X)

print(metrics.classification_report(expected,predicted))

print(metrics.confusion_matrix(expected,predicted))

"""

# 预处理代码集锦

importpandas as pd

df=pd.DataFrame(dataset)

print(df.head(3))

print(df.describe())##描述性分析

print(df.corr())##各特征相关性分析

##计算每行每列数据的缺失值个数

defnum_missing(x):

return sum(x.isnull())

print("Missing values per column:")

print(df.apply(num_missing, axis=0)) #axis=0代表函数应用于每一列

print("\nMissing values per row:")

print(df.apply(num_missing, axis=1).head()) #axis=1代表函数应用于每一行"""

概率论mle什么意思

mle的意思是最大似然估计，英文为maximum likelihood estimation，简称MLE。最大似然估计一种重要而普遍的求估计量的方法。最大似然法明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。

最大似然估计是一种统计方法，它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。“似然”是对likelihood的一种较为贴近文言文的翻译，“似然”用现代的中文来说即“可能性”。故而，若称之为“最大可能性估计”则更加通俗易懂。

最大后验概率MAP

统计学中，MAP为最大后验概率（Maximum a posteriori）的缩写。估计方法根据经验数据获得对难以观察的量的点估计。它与最大似然估计中的Fisher方法有密切关系，但是它使用了一个增大的优化目标，这种方法将被估计量的先验分布融合到其中。所以最大后验估计可以看作是规则化的最大似然估计。

几何分布的参数估计：现在已知一组数据服从几何分布，如何从这组数据中估计出参数P啊？matlab?公式？

matlab中有函数mle(最大似然估计)可以估计常用分布的参数

下面是一段测试程序，用geornd生成服从几何分布的一组数据

p = 0.01;

x = geornd(p,[1 100]);

[PEstimate,PCI] = mle(x,'distribution','geometric')

PEstimate 是估计出来的参数值

PCI 是置信度为95%区间

你把你的数据导进x里就可以了得到估计的参数了

极大似然估计MLE

极大似然估计(Maximum Likelihood Estimation,MLE)，也称最大似然估计。统计学中，极大似然估计是重要的参数估计方法；机器学习领域，也经常看到直接使用极大似然估计以及使用极大似然思想的方法。

在这篇笔记里，主要涉及极大似然的思想和非参数极大似然估计NPMLE。

在参数估计[1]任务中，极大似然估计在给定样本且已知概率分布(密度) 条件下，估计分布参数的重要方法。

(在机器学习中，会用到未知概率分布(密度)的极大似然估计，见下文)

极大似然估计的核心思想，就是估计出使样本出现概率最大的参数作为分布(密度)参数；从另一个角度，极大似然估计认为已经发生的(这些样本出现)就是是概率最大的，从而求出分布(密度)参数。

极大似然估计在绝大多数概率论或统计课程中都有详细的介绍，我这里就不赘述了，具体参见课本和网上资料。

这里贴几个还不错的网上资料：

维基百科《极大似然估计》 [2]

《最大似然估计》 [3]

笔者在参考李航博士《统计学习方法》[4]学习最大熵模型，遇到条件概率P(Y|X)的对数似然函数(6.2.4节)时，真的是一头雾水。如下图

一直接触的极大似然估计都是已知模型，通过样本求参数。而这个似然函数，模型未知，参数未知，更不知道是怎么来的，懵圈了。。。

为了搞清楚这个问题，查阅了《统计学习方法》的参考文献《A Maximum Entropy Approach to Natural Language Processing》[5]，也没有搞清楚这个问题。

后来各种关键字在google上搜，终于搜到了比较靠谱的信息，大概如下：

[6]

[7]

[8]

这大概是一个经验似然(Empirical Likelihood)问题，但是有点艰深，笔者并不打算深入挖掘下去，只是从机器学习数学基础的角度搞清楚上述公式的由来。笔者看到了[4]的第一个公式，终于明白了李航博士书中公式的由来，如下。

非参数极大似然估计(Non-Parametric Maximum Likelihood Estimation,NPMLE)，在大多数初级的概率论课本里是没有的。

这里根据常规MLE的假设和建模过程，来简略推导NPMLE的似然函数。下图[3]为常规MLE的假设和似然函数建模过程。

参考常规MLE，假设非参数的分布有相同的采样，但没有参数。

[1]、百度百科《参数估计》

[2]、维基百科《极大似然估计》

[3]、《最大似然估计》

[4]、李航《统计学习方法》

[5]、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》

[6]、

[7]、

[8]、

分享题目：python+mle函数,python中函数
URL链接：http://cdkjz.cn/article/dsgcopg.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都建网站成都IDC机房托管橡塑保温板电信机房托管德阳服务器托管德阳东方电机技改服务有限公司达州网站设计西信中心成都微信公众号开发网站空间

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python+mle函数,python中函数

python scikit-learn 有什么算法

概率论mle什么意思

几何分布的参数估计：现在已知一组数据服从几何分布，如何从这组数据中估计出参数P啊？matlab?公式？

极大似然估计MLE

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python+mle函数,python中函数

python scikit-learn 有什么算法

概率论mle什么意思

几何分布的参数估计： 现在已知一组数据服从几何分布，如何从这组数据中估计出参数P啊？matlab?公式？

极大似然估计MLE

相关资讯

vue中如何使用transition内置组件

为什么要选择python

微信小程序商城开发之商城首页轮播图、商品分类导航以及新品特卖如何实现

WCF中几个基本知识点分别是什么

win10怎么解决svchost一直占用网速和内存的问题

Mysql利用percona-xtrabackup在线配置主从的方法

Sqlserver关于TDE透明数据加密的使用总结

EDR环境产生漏洞的原因

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

几何分布的参数估计：现在已知一组数据服从几何分布，如何从这组数据中估计出参数P啊？matlab?公式？

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接