K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

题目

K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

如果没有搜索结果或未解决您的问题,请直接 联系老师 获取答案。
相似问题和答案

第1题:

K均值K-Means算法是密度聚类。()

此题为判断题(对,错)。


正确答案:错误

第2题:

简述k-means算法,层次聚类算法的优缺点。


正确答案:(1)k-means算法:
优点:算法描述容易,实现简单快速
不足:
簇的个数要预先给定
对初始值的依赖极大
不适合大量数据的处理
对噪声点和离群点很敏感
很难检测到“自然的”簇
(2)层次聚类算法:
BIRCH算法:
优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
C.URE算法:
优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
缺点:算法在处理大量数据时必须基于抽样,划分等技术。
R.OCK算法:
优点:分类恰当,可采用随机抽样处理数据。
缺点:最坏的情况下时间复杂度级数大。
基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。

第3题:

K-means聚类是发现给定数据集的K个簇的算法。()

此题为判断题(对,错)。


正确答案:正确

第4题:

K-means算法的叙述正确的是()

  • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
  • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
  • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目的新的聚类心,因此当数据量非常大时,算法的时间开销是非常大的

正确答案:A,B,D

第5题:

在数据挖掘中,常用的聚类算法包括:()、()、()、基于网格的方法和基于模型的方法。


正确答案:划分方法;层次方法;基于密度的方法

第6题:

关于聚类算法K-Means和DBSCAN的叙述中,不正确的是( )。

A.K-Means和DBSCAN的聚类结果与输入参数有很大的关系
B.K-Means基于距离的概念而DBSCAN基于密度的概念进行聚类分析
C.K-Means很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
D.当簇的密度变化较大时,DBSCAN不能很好的处理,而K-Means则可以

答案:D
解析:
本题考查数据挖掘的基础知识。K-Means和DBSCAN是两个经典的聚类算法,将相似的数据对象归类一组,不相似的数据对象分开。K-means算法基于对象之间的聚类进行聚类,需要输入聚类的个数。DBSCAN算法基于密度进行聚类,需要确定阈值,两者的聚类结果均与输入参数关系很大。DBSCAN可以处理不同大小和不同形状的簇,而K-means算法则不适合。若数据分布密度变化大,则这两种算法都不适用。

第7题:

关于K均值和DBSCAN的比较,以下说法不正确的是()。

  • A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象
  • B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
  • C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
  • D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

正确答案:A

第8题:

聚类算法要解决的问题有()。

A.自动识别聚类中心个数

B.类别分布比较合理

C.准确度高

D.快速聚类


正确答案:ABCD

第9题:

K-means算法叙述正确的是()

  • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
  • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
  • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目
  • D、从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的

正确答案:A,B,D

第10题:

什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。


正确答案:聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法:
(1)划分方法
给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K 使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。
(2)层次方法
这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。
代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。
(3)基于密度的方法
基于密度的方法与其它方法的一个根本*区别是:它不是基于各种各样的距离,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。
代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
(4)基于模型的方法
基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在假定就是:目标数据集是由一系列的概率分布所决定的。
基于模型的方法主要有两类:统计学方法和神经网络方法(SOM)。