KNN算法全称为(k-Nearest Neighbors),是一种分类算法,是最简单的一个人机器学习的算法,简单来说就是取一个新元素距离最近的K个元素,然后判断哪个类别的元素最多,就把这个新元素的类别归为元素多的那个类别,举个例子就可以明白。
图1 图2
如图一所示有一个新元素正方形,当取K为3时,取离他最近的三个元素,有两个三角和1个圆圈,则就将这个新元素归为三角形的类别。结果为图2。
KNN算法的结果与K的取值有很大关系,还是以这个例子为例。
图3 图4
如图3所示,当K取值为5时,距离最近的5个元素中圆圈的个数最多,为三个,所以将新元素分类为圆圈,如图4所示。
由此可知,K的取值很重要,可以改变算法的结果,一般我们对K取值是从1-10。
2.KNN算法模型建立 2.1计算距离通过欧几里得算法计算各元素与新元素的距离,公式为
2.2升序排列将各元素按照与新元素的距离由小到大进行排列。
2.3选取元素定K值,选取排列后的元素中的前K个元素。
有关K取值的问题:
K太大:导致分类模糊
K太小:受个例影响,波动较大
2.4加权平均就是计算这个K个元素中谁的比例大,谁的比例大,新元素就属于那个类别。
3.Python代码案例实现数据集为100个癌症病人的数据,如图,只做讲解用,所以数据集量比较小。
表中的id为病人的序列号,第二列的M/B为病人评估情况,M为良性,B表示恶性。
整个python代码如下,其他的案例算法模型也大致如此,看懂这个案例模型后,其他的案例也可自行设计更改。
#先导入两个库
import csv
import random
# 读取数据,注意数据文件的位置
with open("Prostate_Cancer.csv", "r") as f:
render = csv.DictReader(f)
datas = [row for row in render]
# 分组,打乱数据
random.shuffle(datas)
n = len(datas) // 3
test_data = datas[0:n]
train_data = datas[n:]
# print (train_data[0])
# print (train_data[0]["id"])
# 计算对应的距离
def distance(x, y):
res = 0
for k in ("radius", "texture", "perimeter", "area", "smoothness", "compactness", "symmetry", "fractal_dimension"):
res += (float(x[k]) - float(y[k])) ** 2
return res ** 0.5
# K=6
def knn(data, K):
# 1. 计算距离
res = [
{"result": train["diagnosis_result"], "distance": distance(data, train)}
for train in train_data
]
# 2. 排序
sorted(res, key=lambda x: x["distance"])
# print(res)
# 3. 取前K个
res2 = res[0:K]
# 4. 加权平均
result = {"B": 0, "M": 0}
# 4.1 总距离
sum = 0
for r in res2:
sum += r["distance"]
# 4.2 计算权重
for r in res2:
result[r['result']] += 1 - r["distance"] / sum
# 4.3 得出结果
if result['B'] > result['M']:
return "B"
else:
return "M"
# print(distance(train_data[0],train_data[1]))
# 预测结果和真实结果对比,计算准确率
for k in range(1, 11):
correct = 0
for test in test_data:
result = test["diagnosis_result"]
result2 = knn(test, k)
if result == result2:
correct += 1
print("k=" + str(k) + "时,准确率{:.2f}%".format(100 * correct / len(test_data)))
运行结果如下所示



