研机器学习10-聚类-陈佳鑫

VIP免费
2025-01-13 1 0 3.41MB 100 页 5.9玖币
侵权投诉
机器学习
Machine Learning
北京航空航天大学计算机学院
School of Computer Science and Engineering, Beihang University
黄 迪 刘庆杰 陈佳鑫
2024年秋季学期
Fall 2024
部分内容来源于C. BishopA. NG等人的课程以及互联网资源
聚类
Clustering
什么是聚类?
聚类的定义
聚类的性能度量
聚类的应用
什么是聚类?
聚类的定义
一种无监督学习任务
按照某个特定标准 (如距离) ,将数据集中的无标注本划分为若干个
不相交的子集,每个子集称为一个“簇” (Cluster)
希望簇内样本的相似性可能大,簇间样本的差异性尽可能大。
数据集 
聚类
和簇
无标注样本
的样本

什么是聚类?
有标签数据集
汽车 汽车
汽车
自行车 自行车
自行车
训练
当数据集无标签时,如何划分类别?
分类(监督学习)
分类器
测试样本 c.......
.......
汽车 自行车 自行车汽车
类别标签 c
分类器
什么是聚类?
无标签数据集
聚类 (汽车)测试
样本
聚类(无监督学习)
(汽车)
(自行车)(自行车)
什么是聚类?
无标签数据集
聚类 (汽车)划分
错误
聚类(无监督学习)
(汽车)
(自行车)(自行车)
聚类通常比分类的准确性低
但是聚类更加灵活,具有处理标签数据的能力;可以用于无标签数据处
理中,辅助分析决策
聚类的形式化描述
假定样本集包含个无标记样本,
每个样本 一个 维的特征向量,
聚类算法将样本集划分成不相交的簇 
。其中 ,且 
表示样本的“簇标记”(Cluster
Label),即。于是,聚类的结果可用包含
个元素的簇标记向量表示。
聚类的性能度量
聚类“有效性指标”(Validity Index
同一簇样本相似度高,不同簇样本差异度大。即“簇内相似度”
Intra-cluster Similarity)高, “簇间相似度”(Inter-cluster
Similarity)低。
外部指标(External Index
将聚类结果与某个“参考模型”进行比较
内部指标 (Internal Index
直接考察聚类结果而不用任何参考模型
聚类的性能度量
聚类“有效性指标”(Validity Index
对数据集,假定通过聚类得到的簇划分为
,参考模型的簇划分为 
相应地,令分别表示与对应的簇标记向量。
定义 




摘要:

机器学习MachineLearning北京航空航天大学计算机学院SchoolofComputerScienceandEngineering,BeihangUniversity黄迪刘庆杰陈佳鑫2024年秋季学期Fall2024部分内容来源于C.Bishop和A.NG等人的课程以及互联网资源聚类Clustering什么是聚类?•聚类的定义•聚类的性能度量•聚类的应用什么是聚类?⚫聚类的定义➢一种无监督学习任务◼按照某个特定标准(如距离),将数据集中的无标注样本划分为若干个不相交的子集,每个子集称为一个“簇”(Cluster)。◼希望簇内样本的相似性尽可能大,簇间样本的差异性尽可能大。数据集$...

展开>> 收起<<
研机器学习10-聚类-陈佳鑫.pdf

共100页,预览20页

还剩页未读, 继续阅读

声明:本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。玖贝云文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知玖贝云文库,我们立即给予删除!
分类:计算机 价格:5.9玖币 属性:100 页 大小:3.41MB 格式:PDF 时间:2025-01-13

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 100
客服
关注