这里使用的是lab课上老师提供的数据集
十年专注建站、设计、互联网产品按需制作服务,业务涵盖品牌网站制作、商城网站建设、微信平台小程序开发、软件系统开发、手机APP定制开发等。凭借多年丰富的经验,我们会仔细了解每个客户的需求而做出多方面的分析、设计、整合,为客户设计出具风格及创意性的商业解决方案,创新互联更提供一系列网站制作和网站推广的服务,以推动各中小企业全面信息数字化,并利用创新技术帮助各行业提升企业形象和运营效率。
但是不符合libsvm中要求的数据格式,所以需要将原始数据转换成libsvm中要求的。
复制Excel表格中的数据到一个新的txt文件中
我这里把原来的数据集分成了两个,一个用作train 一个用作test
很多的花草种植户们都想知道鸢尾的品种分类有哪些,其实主要分为水生、陆生以及中生3种,其中水生的有西伯利亚鸢尾、花菖蒲等等比较喜欢潮湿环境品种,陆生则有扁竹兰、蝴蝶花等等、中生的鸢尾有德国鸢尾、银苞鸢尾等等。
鸢尾的品种可分为3类
1、水生品种
鸢尾的品种分类中水生类是一大类,这类鸢尾主要以喜欢生长在水里或者比较潮湿的环境的鸢尾品种来区分。这类的鸢尾品种主要有燕子花、西伯利亚鸢尾、花菖蒲等等,这些都是属于水生类的鸢尾品种,常被用作景观湖边装饰种植。
2、陆生品种
陆生类的鸢尾一般都具有比较强的抗旱能力,它对水分的要求极大的降低,对环境的适应能力也比较强。这类的品种主要有蝴蝶花、扁竹兰、黄菖蒲等等鸢尾品种,常常把这些品种的鸢尾花放在马路两侧进行装饰。
3、中生品种
中生类的鸢尾品种都比较喜欢温暖、水分适中的地方。这类的鸢尾品种不耐寒也不耐旱,冬天会进入休眠期,夏天则会生长缓慢来保存营养和水分。在花园、花坛类的地方比较常见,主要的品种有德国鸢尾、银苞鸢尾等等。
鸢尾养植的注意事项
1、温度要求
在鸢尾的养殖过程中,气温对鸢尾生长的影响是非常大的。鸢尾最适合生长的温度在14~18℃。维持在15℃左右是最好的。最低温度则需要保持在5℃以上,否则会对鸢尾生长极其不利。
2、施肥要点
鸢尾在不同地区养殖,它施肥的方式都是有所不同的。特别是在选择肥料的时候,是不宜选择用磷肥或者是磷酸类盐肥进行施肥。在花期的时候,可以使用一些氮、钾肥来补充养分。
3、土地整理
在鸢尾养殖的第8周~12周,这个阶段需要及时的对盆内或者周围的土壤内的杂草以及其它的杂质进行清除。这是为了防止在鸢尾生的花期周围的营养成分被过度消耗,从而影响鸢尾花的健康生长。
结语: 通过以上文章的讲述,相信大家对于鸢尾的品种与分类有了很好的了解,希望这些内容能够对大家有所帮助。
鸢尾的品种有很多,比较常见的有德国鸢尾、黄鸢尾、荷兰鸢尾、黄色丹佛鸢尾、网脉鸢尾等等。其中,德国鸢尾的花有蓝色,白色,紫色等多种颜色,绚丽多彩,极具观赏价值。
鸢尾的品种
鸢尾花,极具观赏价值,在全球大约有300多个品种,而我国就有60多种,鸢尾根据其地下茎的不同可以分为两大类:
鸢尾的宿根类
当看到鸢尾的地下部分为根状时,或者是为根茎状时,这就是宿根鸢尾。宿根鸢尾是一种多年生植物,它的叶子是剑形的,花茎处于直立状态,它最常见的就是德国鸢尾,黄鸢尾等。德国鸢尾的花是蓝色,白色,紫色等,绚丽多彩。而黄鸢尾就是黄色的。
宿根类鸢尾也有一种是地上部会在大多数品种因冬季来临而枯萎时它却保持绿色,所以称作常绿鸢尾。
鸢尾的球根类
当看到鸢尾的地下部分是球茎状时,这就是球根鸢尾。球根鸢尾喜好温暖,所以在温室下可以促进栽培,它包括荷兰鸢尾,黄色丹佛鸢尾,以及网脉鸢尾等,其色为,蓝色,紫色,白色等。
球根类鸢尾通过种球繁殖,一种求种植一年开花之后败落,在产生新的球,长子球,通过养殖,又会开花。
这次案例还是使用鸢尾花数据分类的数据。
数据路径: /datas/iris.data
数据格式:
数据解释:
1、引入头文件
feature_selection 是做特征选择的包
feature_selection 中的方法 SelectKBest ,帮助我们选择K个最优的特征
feature_selection 中的方法 chi2-卡方检验 ,表示使用 chi2 的方法帮助我们在 SelectKBest 中选择最优的K个最优特征。
2、防中文乱码、去警告、读取数据
总样本数目:150;特征属性数目:4
x=data[list(range(4))]
取得样本前四列特殊数据 '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
y=pd.Categorical(data[4]).codes#把Y转换成分类型的0,1,2
将目标的三种分类转换成0,1,2
PS: 在之前的例子中: 04 分类算法 - Logistic回归 - 信贷审批案例 ,我们自己写过一个分类的算法对部分特征进行哑编码操作: parseRecord(record) ,其实pandas自己也集成了这个转换算法: pd.Categorical(data[4]).codes ,可以把y直接转换成0,1,2。
以上是数据预处理的步骤,和之前的例子类似。
3、数据分割(训练数据和测试数据)
训练数据集样本数目:120, 测试数据集样本数目:30
注意: 这个demo中的案例在这一步还没有做 KFold-K折交叉验证 。当前步骤的主要内容是对数据进行划分。K折就要生成K个互斥的子集。 KFold 的工作就是帮助我们划分子集的,划分完后我们将子集扔进建模即可。 02 分类算法 - Logistic案例 中提及过K折交叉验证的内容。
4、数据标准化和数据归一化的区别
思考: 行数据和列数据,哪个服从正态分布?显然,列数据是特征,和样本一样都服从正态分布。所以数据标准化和归一化的对象是列。
数据标准化:
StandardScaler (基于特征矩阵的列,将属性值转换至服从正态分布)
标准化是依照特征矩阵的列处理数据,其通过求z-score: z-score=(x-μ)/σ 的方法,将样本的特征值转换到同一量纲下。z-score是N(0,1)正态分布,即标准正态分布。
常用与基于正态分布的算法,比如回归。
PS:在 04 回归算法 - 最小二乘线性回归案例 中对 ss = StandardScaler() 数据标准化操作进行了深入分析。
数据归一化:
MinMaxScaler (区间缩放,基于最大最小值,将数据转换到0,1区间上的)
提升模型收敛速度,提升模型精度。
常见用于神经网络。
Normalizer (基于矩阵的行,将样本向量转换为单位向量)
其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准。
常见用于文本分类和聚类、logistic回归中也会使用,有效防止过拟合。
原始数据各个特征属性的调整最小值:
[-1.19444444 -0.83333333 -0.18965517 -0.04166667]
原始数据各个特征属性的缩放数据值:
[ 0.27777778 0.41666667 0.17241379 0.41666667]
5、特征选择:
特征选择:从已有的特征中选择出影响目标值最大的特征属性
特征选择是一个transform的过程
常用方法:
{ 分类:F统计量、卡方系数,互信息mutual_info_classif
{ 连续:皮尔逊相关系数 F统计量 互信息mutual_info_classif
这里介绍一种特征选择方法: K方检验 SelectKBest
补充知识:K方检验
ch2 = SelectKBest(chi2,k=3) 这步操作本质是一个Transformer的步骤。Transformer的概念参考 05 回归算法 - 多项式扩展、管道Pipeline 。
K方检验的本质是:判断两个特征之间的关联程度。
看下面两个样本:
1、男女性别和是否会化妆的关联性是很强的:
2、男女性别和是否出门带口罩的关联性不强:
但大部分属性对结果的关联性我们很难用常识去判断,所以我们可以首先假设样本的特征和目标无关。
假设性别和是否会化妆无关。 因此我们设男人中化妆的比例为55%,男人中不化妆的比例是45%
根据实际情况进行计算:( 列联表 )
(20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45
结果越大,说明性别和是否会化妆的关联程度越大,当数值较大时我们可以说拒绝原假设,即原假设错误,真实情况下性别和是否会化妆有很大的影响。 (越大越拒绝)
如果结果越小,说明假设正确,我们称之为不拒绝原假设。
注意: K方统计用于离散的特征,对连续的特征无效。
对类别判断影响最大的三个特征属性分布是:
[ True False True True]
[0 2 3]
这里False的属性就是K方检验分数最小的那个,如果只取3个特征,False对应的那个特征就会被丢弃。
6、模型的构建、训练、预测:
准确率:96.67%
Score: 0.966666666667
Classes: [0 1 2]
7、画图: