机器学习——kNN算法之约会网站配对

kNN算法之约会网站配对

1. 实验内容
2. 代码
- 2.1 从文本文件中解析数据
- 2.2 归一化数值
- 2.3 测试算法
3. 运行结果

1. 实验内容

使用kNN算法改进约会网站的配对效果，使匹配对象更好地划分到确切的分类中。

2. 代码 2.1 从文本文件中解析数据

从文件中读取数据，将待处理数据的格式改变为分类器可以接受的格式。
该函数输入为文件名字符串，输出为训练样本矩阵和类标签向量。

#从文件中读取数据
#首先将待处理数据的格式改变为分类器可以接受的格式
#该函数输入为文件名字符串，输出为训练样本矩阵和类标签向量
def file2matrix(filename):
    fr = open(filename)
    #读取整个文件，返回值放到一个列表中，以列表的格式返回全部文本，文本的第几行对应列表的第几个元素
    arrayOfLines = fr.readlines()
    #len函数返回参数对象（例如字符或字符串、元组、列表和字典等）的项目个数（长度）。这里是返回列表长度
    numberOfLines = len(arrayOfLines)
    #将32*32的二进制图像矩阵转化为1*1024的向量,用法：zeros(shape, dtype=float, order=’C’),返回：返回来一个给定形状和类型的用0填充的数组；
    returnMat = zeros((numberOfLines, 3))
    #定义列表
    classLabelVetor = []
    index = 0
    for line in arrayOfLines:
        #strip([chars]) 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。
        line = line.strip()
        #将上一步的整行数据分割成一个元素列表
        listFromLine = line.split('t')
        #选取前3个，储存到特征矩阵
        returnMat[index, :] = listFromLine[0:3]
        #使用索引值-1表示列表中的最后一列元素，利用这种负索引，将列表中的最后一列储存到向量classLabelVector中
        classLabelVetor.append(int(listFromLine[-1]))
        index += 1
    fr.close()
    return returnMat, classLabelVetor

2.2 归一化数值

原因：计算样本之间的距离时，结果容易受到数字查值较大的属性的影响，然而所有特征都同等重要。
方法：将数值归一化，如将取值范围处理为0到1或者-1到1之间，下面的公式可以将任意取值范围的特征值转化为0到1区间内： newValue = (oldValue-min) / (max-min)

#归一化特征值
def autoNorm(dataSet):
    #存放每列的最小值，参数0使得函数可以从列中选取最小值，而不是选取当前行的最小值
    minVals = dataSet.min(0)
    #存放每列的最大值
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals, (m, 1))
    normDataSet = normDataSet / tile(ranges, (m, 1))
    return normDataSet, ranges, minVals

2.3 测试算法

前面通过file2matrix和autoNorm函数完成了从文件中读取数据并将其转换为归一化特征值，此步则是计算测试向量的数量，决定了normMat向量中哪些数据用于测试，哪些数据用于分类器的训练样本，然后将两部分数据输入到kNN分类器函数中计算错误率。

#计算测试向量的数量，决定了norMat向量中哪些数据用于测试，哪些数据用于分类器的训练样本，然后将这两部分数据输入到kNN分类器函数中。
def datingClassTest():
    hoRatio = 0.05
    datingDateMat, datingLabels = file2matrix('D:/study/机器学习/py code/kNN/datingTestSet2.txt')
    normMat, ranges, minVals = autoNorm(datingDateMat)
    m = normMat.shape[0]
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
        print("the classifier came back with:%d, the real answer is:%d" % (classifierResult, datingLabels[i]))
        if (classifierResult != datingLabels[i]):
            errorCount += 1.0
    print("the total error rate is: %f" % (errorCount / float(numTestVecs)))
    
datingClassTest()

3. 运行结果

分类器处理约会数据集的错误率时2.4%。

机器学习——kNN算法之约会网站配对

Python相关栏目本月热门文章