网站建设 >

查看其它板块

pca函数python pca函数跟pca代码区别

python3.5做分类时，混淆矩阵加在哪一步

preface：做着最近的任务，对数据处理，做些简单的提特征，用机器学习算法跑下程序得出结果，看看哪些特征的组合较好，这一系列流程必然要用到很多函数，故将自己常用函数记录上。应该说这些函数基本上都会用到，像是数据预处理，处理完了后特征提取、降维、训练预测、通过混淆矩阵看分类效果，得出报告。

成都创新互联网站建设公司一直秉承“诚信做人，踏实做事”的原则，不欺瞒客户，是我们最起码的底线！以服务为基础，以质量求生存，以技术求发展，成交一个客户多一个朋友！专注中小微企业官网定制，成都网站设计、网站建设，塑造企业网络形象打造互联网企业效应。

1.输入

从数据集开始，提取特征转化为有标签的数据集，转为向量。拆分成训练集和测试集，这里不多讲，在上一篇博客中谈到用StratifiedKFold()函数即可。在训练集中有data和target开始。

2.处理

[python] view plain copy

def my_preprocessing(train_data):

from sklearn import preprocessing

X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2范式，对特征列进行正则

return X_normalized

def my_feature_selection(data, target):

from sklearn.feature_selection import SelectKBest

from sklearn.feature_selection import chi2

data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)

return data_new

def my_PCA(data):#data without target, just train data, withou train target.

from sklearn import decomposition

pca_sklearn = decomposition.PCA()

pca_sklearn.fit(data)

main_var = pca_sklearn.explained_variance_

print sum(main_var)*0.9

import matplotlib.pyplot as plt

n = 15

plt.plot(main_var[:n])

plt.show()

def clf_train(data,target):

from sklearn import svm

#from sklearn.linear_model import LogisticRegression

clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)

clf.fit(data,target)

#clf_LR = LogisticRegression()

#clf_LR.fit(x_train, y_train)

#y_pred_LR = clf_LR.predict(x_test)

return clf

def my_confusion_matrix(y_true, y_pred):

from sklearn.metrics import confusion_matrix

labels = list(set(y_true))

conf_mat = confusion_matrix(y_true, y_pred, labels = labels)

print "confusion_matrix(left labels: y_true, up labels: y_pred):"

print "labels\t",

for i in range(len(labels)):

print labels[i],"\t",

for i in range(len(conf_mat)):

print i,"\t",

for j in range(len(conf_mat[i])):

print conf_mat[i][j],'\t',

def my_classification_report(y_true, y_pred):

from sklearn.metrics import classification_report

print "classification_report(left: labels):"

print classification_report(y_true, y_pred)

my_preprocess()函数：

主要使用sklearn的preprocessing函数中的normalize()函数，默认参数为l2范式，对特征列进行正则处理。即每一个样例，处理标签，每行的平方和为1.

my_feature_selection()函数：

使用sklearn的feature_selection函数中SelectKBest()函数和chi2()函数，若是用词袋提取了很多维的稀疏特征，有必要使用卡方选取前k个有效的特征。

my_PCA()函数：

主要用来观察前多少个特征是主要特征，并且画图。看看前多少个特征占据主要部分。

clf_train()函数：

可用多种机器学习算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要调参数的，有专门调试参数的函数如StratifiedKFold()（见前几篇博客）。以达到最优。

my_confusion_matrix()函数：

主要是针对预测出来的结果，和原来的结果对比，算出混淆矩阵，不必自己计算。其对每个类别的混淆矩阵都计算出来了，并且labels参数默认是排序了的。

my_classification_report()函数：

主要通过sklearn.metrics函数中的classification_report()函数，针对每个类别给出详细的准确率、召回率和F-值这三个参数和宏平均值，用来评价算法好坏。另外ROC曲线的话，需要是对二分类才可以。多类别似乎不行。

主要参考sklearn官网

如何用python实现pca降维

首先2个包：

import numpy as np

from sklearn.decomposition import PCA

然后一个m x n 的矩阵，n为维度，这里设为x。

n_components = 12 是自己可以设的。

pca = PCA(n_components=12)

pca.fit(x)

PCA(copy=True, iterated_power='auto', n_components=12, random_state=None,

svd_solver='auto', tol=0.0, whiten=False)

float_formatter = lambda x: "%.2f" % x

np.set_printoptions(formatter={'float_kind':float_formatter})

print 'explained variance ratio:'

print pca.explained_variance_ratio_

print 'cumulative sum:'

print pca.explained_variance_ratio_.cumsum()

如何用pca做人脸识别 python实现

基于特征脸(PCA)的人脸识别方法

特征脸方法是基于KL变换的人脸识别方法，KL变换是图像压缩的一种最优正交变换。高维的图像空间经过KL变换后得到一组新的正交基，保留其中重要的正交基，由这些基可以张成低维线性空间。如果假设人脸在这些低维线性空间的投影具有可分性，就可以将这些投影用作识别的特征矢量，这就是特征脸方法的基本思想。这些方法需要较多的训练样本，而且完全是基于图像灰度的统计特性的。目前有一些改进型的特征脸方法。

比如人脸灰度照片40x40=1600个像素点，用每个像素的灰度值组成的矩阵代表这个人的人脸。那么这个人人脸就要1600 个特征。拿一堆这样的样本过来做pca，抽取得到的只是在统计意义下能代表某个样本的几个特征。

人脸识别可以采用神经网络深度学习的思路，国内的ColorReco在这边有比较多的案例。

python pca怎么得到主成份

一般步骤来实现PCA算法

（1）零均值化

假如原始数据集为矩阵dataMat，dataMat中每一行代表一个样本，每一列代表同一个特征。零均值化就是求每一列的平均值，然后该列上的所有数都减去这个均值。也就是说，这里零均值化是对每一个特征而言的，零均值化都，每个特征的均值变成0。实现代码如下：

[python] view plain copy

def zeroMean(dataMat):

meanVal=np.mean(dataMat,axis=0) #按列求均值，即求各个特征的均值

newData=dataMat-meanVal

return newData,meanVal

函数中用numpy中的mean方法来求均值，axis=0表示按列求均值。

该函数返回两个变量，newData是零均值化后的数据，meanVal是每个特征的均值，是给后面重构数据用的。

（2）求协方差矩阵

[python] view plain copy

newData,meanVal=zeroMean(dataMat)

covMat=np.cov(newData,rowvar=0)

numpy中的cov函数用于求协方差矩阵，参数rowvar很重要！若rowvar=0，说明传入的数据一行代表一个样本，若非0，说明传入的数据一列代表一个样本。因为newData每一行代表一个样本，所以将rowvar设置为0。

covMat即所求的协方差矩阵。

（3）求特征值、特征矩阵

调用numpy中的线性代数模块linalg中的eig函数，可以直接由covMat求得特征值和特征向量：

[python] view plain copy

eigVals,eigVects=np.linalg.eig(np.mat(covMat))

eigVals存放特征值，行向量。

eigVects存放特征向量，每一列带别一个特征向量。

特征值和特征向量是一一对应的

（4）保留主要的成分[即保留值比较大的前n个特征]

第三步得到了特征值向量eigVals，假设里面有m个特征值，我们可以对其排序，排在前面的n个特征值所对应的特征向量就是我们要保留的，它们组成了新的特征空间的一组基n_eigVect。将零均值化后的数据乘以n_eigVect就可以得到降维后的数据。代码如下：

[python] view plain copy

eigValIndice=np.argsort(eigVals) #对特征值从小到大排序

n_eigValIndice=eigValIndice[-1:-(n+1):-1] #最大的n个特征值的下标

n_eigVect=eigVects[:,n_eigValIndice] #最大的n个特征值对应的特征向量

lowDDataMat=newData*n_eigVect #低维特征空间的数据

reconMat=(lowDDataMat*n_eigVect.T)+meanVal #重构数据

return lowDDataMat,reconMat

代码中有几点要说明一下，首先argsort对特征值是从小到大排序的，那么最大的n个特征值就排在后面，所以eigValIndice[-1:-(n+1):-1]就取出这个n个特征值对应的下标。【python里面，list[a:b:c]代表从下标a开始到b，步长为c。】

PCA(主成分分析)python实现

回顾了下PCA的步骤，并用python实现。深刻的发现当年学的特征值、特征向量好强大。

PCA是一种无监督的学习方式，是一种很常用的降维方法。在数据信息损失最小的情况下，将数据的特征数量由n，通过映射到另一个空间的方式，变为k(kn)。

这里用一个2维的数据来说明PCA，选择2维的数据是因为2维的比较容易画图。

这是数据：

画个图看看分布情况：

协方差的定义为：

假设n为数据的特征数，那么协方差矩阵M, 为一个n n的矩阵，其中Mij为第i和第j个特征的协方差，对角线是各个特征的方差。

在我们的数据中，n=2，所以协方差矩阵是2 2的，

通过numpy我们可以很方便的得到：

得到cov的结果为：

array([[ 0.61655556, 0.61544444],

[ 0.61544444, 0.71655556]])

由于我们之前已经做过normalization，因此对于我们来说，

这个矩阵就是 data*data的转置矩阵。

得到结果：

matrix([[ 5.549, 5.539],

[ 5.539, 6.449]])

我们发现，其实协方差矩阵和散度矩阵关系密切，散度矩阵就是协方差矩阵乘以（总数据量-1）。因此他们的特征根和特征向量是一样的。这里值得注意的一点就是，散度矩阵是 SVD奇异值分解的一步，因此PCA和SVD是有很大联系的，他们的关系这里就不详细谈了，以后有机会再写下。

用numpy计算特征根和特征向量很简单，

但是他们代表的意义非常有意思，让我们将特征向量加到我们原来的图里：

其中红线就是特征向量。有几点值得注意：

蓝色的三角形就是经过坐标变换后得到的新点，其实他就是红色原点投影到红线、蓝线形成的。

得到特征值和特征向量之后，我们可以根据特征值的大小，从大到小的选择K个特征值对应的特征向量。

这个用python的实现也很简单：

从eig_pairs选取前k个特征向量就行。这里，我们只有两个特征向量，选一个最大的。

主要将原来的数据乘以经过筛选的特征向量组成的特征矩阵之后，就可以得到新的数据了。

output：

数据果然变成了一维的数据。

最后我们通过画图来理解下数据经过PCA到底发生了什么。

绿色的五角星是PCA处理过后得到的一维数据，为了能跟以前的图对比，将他们的高度定位1.2，其实就是红色圆点投影到蓝色线之后形成的点。这就是PCA,通过选择特征根向量，形成新的坐标系，然后数据投影到这个新的坐标系，在尽可能少的丢失信息的基础上实现降维。

通过上述几步的处理，我们简单的实现了PCA第一个2维数据的处理，但是原理就是这样，我们可以很轻易的就依此实现多维的。

用sklearn的PCA与我们的pca做个比较：

得到结果：

用我们的pca试试

得到结果：

完全一致，完美~

值得一提的是，sklearn中PCA的实现，用了部分SVD的结果，果然他们因缘匪浅。

网页名称：pca函数python pca函数跟pca代码区别
文章路径：http://cdkjz.cn/article/hjhohh.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都app开发重庆服务器托管大吉雪茄雅安做网站成都网站制作广告招牌设计成都康明斯发电机组成都云主机四川成都做网站东电技服

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

pca函数python pca函数跟pca代码区别

python3.5做分类时，混淆矩阵加在哪一步

如何用python实现pca降维

如何用pca做人脸识别 python实现

python pca怎么得到主成份

PCA(主成分分析)python实现

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

pca函数python pca函数跟pca代码区别

python3.5做分类时，混淆矩阵加在哪一步

如何用python实现pca降维

如何用pca做人脸识别 python实现

python pca怎么得到主成份

PCA(主成分分析)python实现

相关资讯

怎么进入mysql的命令 进入mysql数据库的命令

linux专属命令 linux相关命令

奇迹西游html5 奇迹西游视频

linux黑洞命令 linux 内存黑洞检测

jquery设置选择按钮 jquery实现选项卡

微信怎么做企业认证 微信如何企业认证

android混淆签名 android aar混淆

html5运行程序 html5应用程序

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

怎么进入mysql的命令进入mysql数据库的命令

微信怎么做企业认证微信如何企业认证

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接