无监督的学习是一种机器学习,其中未向模型提供标记的数据,而是期望单独在输入数据中找到模式和关系。它用于发现数据中的隐藏结构,可用于诸如聚类,尺寸降低和异常检测等任务。
。无监督学习的过程通常涉及三个主要步骤:
数据准备:此步骤涉及清洁,转换和组织输入数据,以便以模型可以使用的格式。
模型培训:在此步骤中,使用无监督的学习算法对输入数据进行了训练。该算法的目的是在数据中找到模式和关系,例如相似数据点的簇或数据的低维表示。
模型评估:在此步骤中,通过评估其学习数据中的基本模式和关系的程度来评估模型的性能。这可以通过可视化结果,计算诸如轮廓分数之类的指标或将模型应用于新数据以查看其概括程度。
来完成。用于无监督学习的特定算法取决于需要解决的问题类型。例如,群集算法(例如K-均值或分层聚类)用于将相似的数据点分组在一起,而降低性降低算法(例如PCA或T-SNE)用于减少数据中的特征数量。使用异常检测算法(例如一级SVM和自动编码器)用于识别不符合预期模式的数据点。
无监督学习有几种类型或分类:
聚类:这涉及将类似的数据点分组在一起,例如将客户分组为类似的购买习惯。 K-均值和分层聚类是聚类算法的示例。
维度降低:这涉及减少数据中的功能数量,同时保持重要信息。 PCA(主成分分析)和T-SNE(T-Distribed随机邻居嵌入)是降低算法的示例。
异常检测:这涉及识别不符合预期模式的数据点。一级SVM和自动编码器是异常检测算法的示例。
生成模型:这些模型了解数据的概率分布,并可以生成与输入数据相似的新数据样本。示例包括变异自动编码器和生成对抗网络(GAN)
注意:还有很多其他...
无监督学习的优势包括:
-
它可以在数据中发现隐藏的模式和结构,这些模式和结构可能不会立即明显。
-
它可用于降低数据的维度,从而更容易可视化和理解。
-
它可用于识别数据中的异常或异常值。
无监督学习的缺点包括:
-
可能很难评估无监督模型的性能,因为没有明确的成功度量。
-
它比监督学习可能更昂贵,因为该模型必须探索整个数据集以查找模式。
-
可能很难解释无监督模型的结果,因为人类发现的模式和关系可能无法立即理解。