超市用户的k-means聚类处理
admin
2023-07-03 21:44:07
0

  导入超市用户的数据

  import pandas as pd

  from sklearn.preprocessing import StandardScaler #标准差标准化

  com = pd.read_csv('./company.csv',encoding='ansi')

  

超市用户的k-means聚类处理


  导入剔除异常值的函数

  def box_analysis(data):

  '''

  进行箱线图分析,剔除异常值

  :param data:

  :return:

  '''

  qu = data.quantile(0.75)

  ql = data.quantile(0.25)

  iqr = qu - ql

  #上限与下限 1.5可以微调

  up = qu+1.5*iqr

  low = ql-1.5*iqr

  #进行比较运算

  bool_id_1 = data<=up

  bool_id_2 = data>=low

  bool_num = bool_id_1 & bool_id_2

  return bool_num

  进行缺失值检测

  print(com.isnull().sum())

  检测结果无缺失值

  筛选有用特征,切片处理

  data = com.iloc[:,-2:]

  

超市用户的k-means聚类处理


  箱线图分析来进行异常值检测

  按照平均每次消费金额进行异常值去除

  bood_id_1 = box_analysis(data.iloc[:,0])

  data = data.loc[bood_id_1,:]

  按照平均消费周期进行异常值去除

  bood_id_2 = box_analysis(data.iloc[:,1])

  data = data.loc[bood_id_2,:]

  构建需要特征

  data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

  标准化数据,量级不大,暂时不处理量级

  stand = StandardScaler() #创建标准差示例

  #先计算每一列的均值、标准差再进行转化数据

  x = stand.fit_transform(data) #进行标准化

  把上面数据处理部分封装进函数

  def built_data():

  #缺失值检测

  # print(com.isnull().sum())

  #筛选有用特征,切片处理

  data = com.iloc[:,-2:]

  # print(data)

  #异常值检测,箱线图分析

  #按照平均每次消费金额进行异常值去除

  bood_id_1 = box_analysis(data.iloc[:,0])

  data = data.loc[bood_id_1,:]

  #按照平均消费周期进行异常值去除

  bood_id_2 = box_analysis(data.iloc[:,1])

  data = data.loc[bood_id_2,:]

  #构建需要特征

  data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

  # print(data)

  #标准化数据,量级不大,暂时不处理量级

  #标准化数据

  stand = StandardScaler() #创建标准差示例

  #先计算每一列的均值、标准差再进行转化数据

  x = stand.fit_transform(data) #进行标准化

  return data.values

  绘图部分函数如下

  def show_res_km(data,y_predict,center):

  '''无锡妇科检查医院 http://www.87554006.com/

  进行结果展示

  :param data:原始数据

  :param y_predict:预测标签

  :param center:最终的聚类中心

  :return:

  '''

  plt.figure()

  #获取原始数据的行数

  index_num = data.shape[0]

  #

  colors = ['r','g','b','y']

  for i in range(index_num):

  plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

  #散点图的绘制,一个一个绘制

  #聚类中心的位置

  #b的话是描点划线,bx的话是画点但是不描线

  plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

  plt.show()

  调用函数来进行聚类

  data = built_data()

  #导包实现

  k=3

  km = KMeans(n_clusters=k)

  #训练数据

  km.fit(data)

  #进行预测 ,y_predict预测标签

  y_predict = km.predict(data)

  #获取聚类中心

  center = km.cluster_centers_

  print('预测值:\n',y_predict)

  print('聚类中心:\n',center)

  show_res_km(data.values,y_predict,center)

  得出结果


相关内容

热门资讯

内蒙古包头:首批投运1000辆... 新华社5月31日消息,近日,我国自主研发的氢能两轮车在内蒙古自治区包头市面向公众投入运营,首批将在公...
缅甸边境发生爆炸,云南群众目击... 5月31日,缅甸掸邦北部南坎镇发生一起爆炸事故,已导致多人伤亡,多处民宅、房屋遭到严重损毁。经初步调...
大湾区打出智造新名片,高域首台... 近日,在广州黄埔区的智能制造产业园内,一架白色多旋翼飞行器缓缓驶出生产线,标志着高域(GOVY)这家...
VR眼镜与元宇宙:沉浸式体验会... VR眼镜与元宇宙:沉浸式体验会不会导致“魂不守舍”?虚拟现实对精神能量的消耗 杨明德/文 朋友们好,...
张凌赫粉丝挤爆玻璃门、活动临时... 5月31日,张凌赫原定在广西南宁万象城出席品牌活动,大批粉丝早早前往商场排队等候。现场人潮涌动,人群...
5月31日“蓝月亮”上线,还是... 据新华社:5月31日,农历四月十五,一轮满月将现身夜空。这轮满月有些特别,它是本月第二次满月,同时它...
中国的刀产量,究竟有多恐怖? 中年男人在短视频平台最爱看啥?小姐姐跳舞?那你可就想错了——锻刀大赛才是中年男人真正的“减速带”。在...
花费半生积蓄,农村自建房热背后 今年以来,在安徽安庆望江县做外墙漆生意的徐仙琴越来越忙碌了,她和员工们每天奔波在县城的各个村庄里,找...
黎以冲突再升级对中东地区影响几... 从当前的局势来看,黎以双方博弈已陷入谈判停滞、战火升级的恶性循环,地区冲突风险持续走高。根据以军发布...
易事达取得载带冷却定型装置专利... 国家知识产权局信息显示,浙江易事达电子材料有限公司取得一项名为“一种载带冷却定型装置”的专利,授权公...