网站建设 >

查看其它板块

python随机森林函数 python做随机森林

我用Python进行随机森林回归，训练好模型后用来预测，预测值却为一个定值，请问这是什么原因导致的？

随机森林是以决策树为基础的一种更高级的算法。随机森林可用于回归也可以用于分类。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。最后对这些预测进行集成，因此优于任何一个单分类的做出预测，是一种优秀的机器学习模型。

站在用户的角度思考问题，与客户深入沟通，找到桓台网站设计与桓台网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：成都做网站、成都网站设计、企业官网、英文网站、手机端网站、网站推广、空间域名、网页空间、企业邮箱。业务覆盖桓台地区。

之所以你没能学习到有效的模型，可能是你的数据中的因子与预测指标的关联强度不够，因此学习到的是常数模型，也有可能是数据的处理流程或者模型的使用方法不对。网页链接这个网址上的课程完整讲解了随机森林算法的使用，希望对你有帮助

python 机器学习随机森林怎么存起来用

你说的问题叫模型持久化，就是把学习好的模型保存起来，以后只要调用这个文件就可以了。

每个框架都应该有模型持久化函数，以sklearn为例：

from sklearn.externals import joblib

joblib.dump(clf, "train_model.m") ＃存储

clf = joblib.load("train_model.m") ＃调用

如何用python实现随机森林分类

大家如何使用scikit-learn包中的类方法来进行随机森林算法的预测。其中讲的比较好的是各个参数的具体用途。

这里我给出我的理解和部分翻译：

参数说明：

最主要的两个参数是n_estimators和max_features。

n_estimators：表示森林里树的个数。理论上是越大越好。但是伴随着就是计算时间的增长。但是并不是取得越大就会越好，预测效果最好的将会出现在合理的树个数。

max_features：随机选择特征集合的子集合，并用来分割节点。子集合的个数越少，方差就会减少的越快，但同时偏差就会增加的越快。根据较好的实践经验。如果是回归问题则：

max_features＝n_features，如果是分类问题则max_features＝sqrt(n_features)。

如果想获取较好的结果，必须将max_depth＝None,同时min_sample_split=1。

同时还要记得进行cross_validated（交叉验证），除此之外记得在random forest中，bootstrap=True。但在extra-trees中，bootstrap=False。

这里也给出一篇老外写的文章：调整你的随机森林模型参数　

这里我使用了scikit-learn自带的iris数据来进行随机森林的预测：

[python] view plain copy

from sklearn.tree import DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor

import numpy as np

from sklearn.datasets import load_iris

iris=load_iris()

#print iris#iris的4个属性是：萼片宽度　萼片长度　花瓣宽度　花瓣长度　标签是花的种类：setosa versicolour virginica

print iris['target'].shape

rf=RandomForestRegressor()#这里使用了默认的参数设置

rf.fit(iris.data[:150],iris.target[:150])#进行模型的训练

#随机挑选两个预测不相同的样本

instance=iris.data[[100,109]]

print instance

print 'instance 0 prediction；',rf.predict(instance[0])

print 'instance 1 prediction；',rf.predict(instance[1])

print iris.target[100],iris.target[109]

返回的结果如下：

(150,)

[[ 6.3 3.3 6. 2.5]

[ 7.2 3.6 6.1 2.5]]

instance 0 prediction； [ 2.]

instance 1 prediction； [ 2.]

2 2

在这里我有点困惑，就是在scikit-learn算法包中随机森林实际上就是一颗颗决策树组成的。但是之前我写的决策树博客中是可以将决策树给显示出来。但是随机森林却做了黑盒处理。我们不知道内部的决策树结构，甚至连父节点的选择特征都不知道是谁。所以我给出下面的代码（这代码不是我的原创），可以显示的显示出所有的特征的贡献。所以对于贡献不大的，甚至是负贡献的我们可以考虑删除这一列的特征值，避免做无用的分类。

[python] view plain copy

from sklearn.cross_validation import cross_val_score, ShuffleSplit

X = iris["data"]

Y = iris["target"]

names = iris["feature_names"]

rf = RandomForestRegressor()

scores = []

for i in range(X.shape[1]):

score = cross_val_score(rf, X[:, i:i+1], Y, scoring="r2",

cv=ShuffleSplit(len(X), 3, .3))

scores.append((round(np.mean(score), 3), names[i]))

print sorted(scores, reverse=True)

显示的结果如下：

[(0.934, 'petal width (cm)'), (0.929, 'petal length (cm)'), (0.597, 'sepal length (cm)'), (0.276, 'sepal width (cm)')]

这里我们会发现petal width、petal length这两个特征将起到绝对的贡献，之后是sepal length，影响最小的是sepal width。这段代码将会提示我们各个特征的贡献，可以让我们知道部分内部的结构。

求问随机森林算法的简单实现过程？

随机森林（Random forest）指的是利用多棵树对样本进行训练并预测的一种分类器。并且其输出的类别是由个别树输出的类别的众数而定。在机器学习中有一个地位很重要的包scikit-learn可实现随机森林算法。

原理：（随机森林的分类预测和回归预测sklearn.ensemble.RandomForestRegressor方法）

(1)给定训练集S，测试集T，特征维数F。确定参数：使用到的CART的数量t，每棵树的深度d，每个节点使用到的特征数量f，终止条件：节点上最少样本数s，节点上最少的信息增益m，对于第1-t棵树，i=1-t：

(2)从S中有放回的抽取大小和S一样的训练集S(i)，作为根节点的样本，从根节点开始训练

(3)如果当前节点上达到终止条件，则设置当前节点为叶子节点，如果是分类问题，该叶子节点的预测输出为当前节点样本集合中数量最多的那一类c(j)，概率p为c(j)占当前样本集的比例；如果是回归问题，预测输出为当前节点样本集各个样本值的平均值。然后继续训练其他节点。如果当前节点没有达到终止条件，则从F维特征中无放回的随机选取f维特征。利用这f维特征，寻找分类效果最好的一维特征k及其阈值th，当前节点上样本第k维特征小于th的样本被划分到左节点，其余的被划分到右节点。继续训练其他节点。

(4)重复(2)(3)直到所有节点都训练过了或者被标记为叶子节点。

(5)重复(2),(3),(4)直到所有CART都被训练过。

随机森林的简单实现过程如下：

一、开发环境、编译环境：

PyCharm Community Edition 2016.2.3

Python2.7.10

二、所用库及安装方法：

pandas[python自带]

sklearn：命令行pip install sklearn;如果没有安装pip,先使用easy_install pip安装pip；如果在MAC上没有权限，使用sudo pip install sklearn;

三、代码介绍

1. 使用pandas读取本地excel的训练集和测试集，将属性集赋给X_train和Y_train;将要预测的集合赋给X_test和Y_test;

2. 使用DictVectorizer对数据进行规范化、标准化

3. 生成RandomForestRegressor对象，并将训练集传入fit方法中进行训练

4. 调用predict函数进行预测，并将结果存入y_predict变量中；

5. 使用mean_squared_error、score方法输出MSE、NMSE值对拟合度、稳定度进行分析；输出feature_importance，对影响最终结果的属性进行分析；

6. 详细代码见附录

四、附录

# coding:utf-8

import pandas as pd

data_train = pd.read_excel('/Users/xiaoliu/Desktop/data_train.xlsx')

X_train = data_train[['CPI', 'GDP', 'PPI', 'AJR', 'BJFJ', 'FBDR', 'PCFD', 'PCFDED', 'BDR']]

y_train = data_train['FJ']

data_test = pd.read_excel('/Users/xiaoliu/Desktop/data_test.xlsx')

X_test = data_test[['CPI', 'GDP', 'PPI', 'AJR', 'BJFJ', 'FBDR', 'PCFD', 'PCFDED', 'BDR']]

y_test = data_test['FJ']

from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)

X_train = vec.fit_transform(X_train.to_dict(orient='records'))

X_test = vec.transform(X_test.to_dict(orient='records'))

from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor()

rf.fit(X_train,y_train)

y_predict = rf.predict(X_test)

print 'predict value:',y_predict

from sklearn.metrics import mean_squared_error

print 'MSE:', mean_squared_error(y_test, y_predict)

print 'NMES:',rf.score(X_test, y_test)

print rf.feature_importances_

本文名称：python随机森林函数 python做随机森林
标题链接：http://cdkjz.cn/article/dopephs.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

网站推广营销平山县网站建设成都定制网站成都服务器机柜租用普特斯腐植酸成都能净科技江安网站建设成都全网营销一元广告成都包装设计公司

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

python随机森林函数 python做随机森林

我用Python进行随机森林回归，训练好模型后用来预测，预测值却为一个定值，请问这是什么原因导致的？

python 机器学习随机森林怎么存起来用

如何用python实现随机森林分类

求问随机森林算法的简单实现过程？

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

python随机森林函数 python做随机森林

我用Python进行随机森林回归，训练好模型后用来预测，预测值却为一个定值，请问这是什么原因导致的？

python 机器学习随机森林怎么存起来用

如何用python实现随机森林分类

求问随机森林算法的简单实现过程？

相关资讯

设置php数据库字符 php设置数据库编码格式

腾讯云服务器防火墙规则 腾讯云web应用防火墙

linux命令性能监控 linux性能监控系统

酒店sap是什么系统的简单介绍

go语言零基础怎么入门 go语言入门指南

水星路由器初始密码 水星路由器初始密码6位数

阿里云戴尔服务器 阿里云服务器配置详解

帝国cms怎么修改导航 帝国cms移动端设置教程

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

腾讯云服务器防火墙规则腾讯云web应用防火墙

水星路由器初始密码水星路由器初始密码6位数

阿里云戴尔服务器阿里云服务器配置详解

帝国cms怎么修改导航帝国cms移动端设置教程

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接