4.K均值算法--应用
2021-02-12 04:17
标签:col model 应用 读取 marker 图片压缩 文件 color att 1、 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 代码: 结果: 结果: 压缩前后大小对比: 结果: 2. 观察学习与生活中可以用K均值解决的问题。 用K均值解决,二手奔驰车某车型价格与上牌年份和表显里程的关系,从而更加直观的去选择购买车辆。 结果: 获取到奔驰S级的数据: 可视化关系图: 4.K均值算法--应用 标签:col model 应用 读取 marker 图片压缩 文件 color att 原文地址:https://www.cnblogs.com/wh008/p/12732965.htmlfrom sklearn.datasets import load_sample_image
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import sys
import matplotlib.image as img
import numpy as np
# 读取一张图片
image = img.imread("./wh1.jpg")
print(‘原图片文件大小:‘, image.size)
print(‘原图片占内存大小:‘, sys.getsizeof(image))
print(‘原图片的数据结构:\n‘, image)
plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘]
plt.title("原图片")
plt.imshow(image)
plt.show()
# 用kmeans对图片像素颜色进行聚类
image = image[::3, ::3]
X = image.reshape(-1, 3)
print(image.shape, X.shape)
n_colors = 64
model = KMeans(n_colors)
labels = model.fit_predict(X)
colors = model.cluster_centers_
new_image = colors[labels].reshape(image.shape)
print(‘压缩图片文件大小:‘, new_image.size)
print(‘压缩图片占内存大小:‘, sys.getsizeof(new_image))
print(‘压缩图片的数据结构:\n‘, new_image)
img.imsave(‘D://机器学习/2.jpg‘, new_image)
plt.title("压缩图片")
plt.imshow(new_image.astype(np.uint8))
plt.show()
plt.title("二次压缩图片")
plt.imshow(new_image.astype(np.uint8)[::3, ::3])
plt.show()
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import pandas as pd
che = pd.read_csv(‘201706120008王华 已处理.csv‘, index_col=0)
data1 = che[che[‘车辆型号‘] == ‘奔驰S级‘]
test_data = data1[[‘上牌年份‘, ‘表显里程‘, ‘价格‘]]
data = np.array(test_data)
model = KMeans(n_clusters=3)
model.fit(data)
y = model.predict(data)
model.cluster_centers_
a = []
b = []
c = []
d = []
for i in range(len(data)):
if y[i] == 0:
a.append(data[i, :])
a1 = np.array(a)
elif y[i] == 1:
b.append(data[i, :])
b1 = np.array(b)
else:
c.append(data[i, :])
c1 = np.array(c)
plt.rcParams[‘font.sans-serif‘] = [‘SimHei‘]
plt.scatter(a1[:, 1], a1[:, 0], s=55, c=‘#ed1941‘, marker="*")
plt.scatter(b1[:, 1], b1[:, 0], s=50, c=‘#84bf96‘, marker="o")
plt.scatter(c1[:, 1], c1[:, 0], s=50, c=‘#e0861a‘, marker="v")
plt.legend([‘中价车‘, ‘高价车‘, ‘低价车‘])
plt.ylabel("上牌年份")
plt.xlabel("表显里程")
plt.title("二手奔驰S级价格与上牌年份和表显里程的关系")
plt.show()
下一篇:二叉排序树的实现