使用python实现kNN分类算法-创新互联-快上网网站建设公司

使用python实现kNN分类算法-创新互联

k-近邻算法是基本的机器学习算法，算法的原理非常简单：

成都创新互联 - 资阳托管服务器，四川服务器租用，成都服务器租用，四川网通托管,绵阳服务器托管，德阳服务器托管，遂宁服务器托管，绵阳服务器托管，四川云主机，成都云主机，西南云主机，资阳托管服务器，西南服务器托管，四川/成都大带宽，成都机柜租用，四川老牌ＩＤＣ服务商

输入样本数据后，计算输入样本和参考样本之间的距离，找出离输入样本距离最近的k个样本，找出这k个样本中出现频率最高的类标签作为输入样本的类标签，很直观也很简单，就是和参考样本集中的样本做对比。下面讲一讲用python实现kNN算法的方法，这里主要用了python中常用的numpy模块，采用的数据集是来自UCI的一个数据集，总共包含1055个样本，每个样本有41个real的属性和一个类标签，包含两类（RB和NRB）。我选取800条样本作为参考样本，剩下的作为测试样本。

下面是分类器的python代码：

'''
kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5)函数
参数：
inputAttr：输入的属性向量
trainSetPath：字符串，保存训练样本的路径
lenOfInstance：样本向量的维数
startAttr：属性向量在整个样本向量中的起始下标
stopAttr：属性向量在整个样本向量中的终止下标
posOfClass：类标签的在整个样本向量中的下标
numOfClSamples:选出来进行投票的样本个数
返回值：
类标签
'''
 
def kNNClassify(inputAttr, trainSetPath = '', lenOfInstance = 42, startAttr = 0, stopAttr = 40, posOfClass = 41, numOfRefSamples = 5):
  fr = open(trainSetPath)
  strOfLine = fr.readline()
  arrayOfLine = numpy.array([0.] * lenOfInstance)
  refSamples = numpy.array([[-1., 0.]] * numOfRefSamples)
  
  #找出属性中的大值和最小值，用于归一化
  maxAttr, minAttr = kNNFunction.dataNorm(trainSetPath = trainSetPath, lenOfInstance = lenOfInstance)
  maxAttr = maxAttr[(numpy.array(range(stopAttr - startAttr + 1)) 
            + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
  minAttr = minAttr[(numpy.array(range(stopAttr - startAttr + 1)) 
            + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
  attrRanges = maxAttr - minAttr
  
  inputAttr = inputAttr[(numpy.array(range(stopAttr - startAttr + 1)) 
              + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
  inputAttr = (inputAttr - minAttr) / attrRanges       #归一化
  
  #将字符串转换为向量并进行计算找出离输入样本距离最近的numOfRefSamples个参考样本
  while strOfLine != '' :
    strOfLine = strOfLine.strip()
    strOfLine = strOfLine.split(';')
    
    abandonOrNot = False
    for i in range(lenOfInstance) :
      if strOfLine[i] == 'RB' :
        arrayOfLine[i] = 1.0
      elif strOfLine[i] == 'NRB' :
        arrayOfLine[i] = 0.0
      elif strOfLine[i] != '?' :             #没有发现缺失值
        arrayOfLine[i] = float(strOfLine[i])     
        abandonOrNot = False
      else :                      #发现缺失值
        abandonOrNot = True
        break
    
    if abandonOrNot == True :
      strOfLine = fr.readline()
      continue
    else :
      attr = arrayOfLine[(numpy.array(range(stopAttr - startAttr + 1)) 
                + numpy.array([startAttr] * (stopAttr - startAttr + 1)))]
      attr = (attr - minAttr) / attrRanges      #归一化    
      classLabel = arrayOfLine[posOfClass]
      distance = (attr - inputAttr) ** 2
      distance = distance.sum(axis = 0)
      distance = distance ** 0.5
      disAndLabel = numpy.array([distance, classLabel])
      refSamples = kNNFunction.insertItem(refSamples, numOfRefSamples, disAndLabel)
      strOfLine = fr.readline()
      continue
    
  #统计每个类标签出现的次数
  classCount = {}
  for i in range(numOfRefSamples) :
    voteLabel = refSamples[i][1]
    classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
  sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse = True)
  
  return int(sortedClassCount[0][0])

当前标题：使用python实现kNN分类算法-创新互联
文章路径：http://cdkjz.cn/article/geide.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

使用python实现kNN分类算法-创新互联

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

使用python实现kNN分类算法-创新互联

相关资讯

关于linux启动mysql服务命令的信息

linux给命令赋值 linux命令赋值为变量

包含三明sap系统服务的词条

java代码实现取放苹果 编写java applet程序

phpstud怎么配置域名 phpstudy配置域名

c语言fun函数调用类型 c语言函数调用例子fun

C语言函数的定义基础知识 c语言函数定义的四个要素

linux中la命令 linux常用命令less

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

java代码实现取放苹果编写java applet程序

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接