标记数据和未标记数据有什么区别？

machine-learning

关闭。此问题不符合 Stack Overflow 准则。它目前不接受答案。这个问题似乎与帮助中心定义的范围内的编程无关。 5天前关闭。社区在 5 天前审核了是否重新打开此问题并将其关闭：原始关闭原因未解决改进此问题

在 Sebastian Thrum 的 this 视频中，他说监督学习适用于“标记”数据，而无监督学习适用于“未标记”数据。他这是什么意思？谷歌搜索“标记数据与未标记数据”会返回一堆关于该主题的学术论文。我只想知道基本的区别。

最好的例子在这里：stats.stackexchange.com/questions/60987/…

我投票结束这个问题，因为它是关于特定数据科学主题的定义，而不是关于编程。

我投票结束这个问题，因为这是关于机器学习理论的。此类问题是 Artificial Intelligence、Cross Validated 或 Computer Science 的主题

Riccardo

通常，未标记的数据由自然或人工制品的样本组成，您可以相对容易地从世界上获得这些样本。未标记数据的一些示例可能包括照片、录音、视频、新闻文章、推文、X 射线（如果您正在处理医疗应用程序）等。对于每条未标记数据都没有“解释”——它只包含数据，没有别的。

标记数据通常采用一组未标记数据，并使用某种有意义的“标签”、“标签”或“类别”来扩充每个未标记数据，这些“标签”或“类别”以某种方式提供信息或希望知道。例如，上述类型的未标记数据的标签可能是这张照片是马还是牛，在这段录音中说出了哪些词，在这段视频中正在执行什么类型的动作，这篇新闻文章的主题是什么就是，这条推文的整体情绪是什么，这张x光片中的点是否是肿瘤等等。

数据标签通常是通过要求人类对给定的未标记数据（例如，“这张照片包含马还是牛？”）做出判断而获得的，并且比原始未标记数据获得的成本要高得多。

在获得标记数据集后，可以将机器学习模型应用于数据，以便可以将新的未标记数据呈现给模型，并且可以猜测或预测该未标记数据的可能标签。

机器学习中有许多活跃的研究领域，旨在整合未标记和标记的数据，以构建更好、更准确的世界模型。半监督学习尝试将未标记和标记数据（或更一般地说，只有一些数据点具有标签的未标记数据集）组合成集成模型。深度神经网络和特征学习是试图单独构建未标记数据模型的研究领域，然后将标签中的信息应用于模型的有趣部分。

Nava Bogatee

监督学习使用的标记数据将有意义的标签或标签或类添加到观察（或行）。这些标签可以来自观察或向人们或专家询问数据。

分类和回归可以应用于监督学习的标记数据集。

https://i.stack.imgur.com/4WE6N.png

https://i.stack.imgur.com/xqnJr.png

聚类被认为是最流行的无监督机器学习技术之一，用于对数据点或某种相似的对象进行分组。

无监督学习的模型较少，可用于确保模型结果准确的评估方法也较少。因此，无监督学习创造了一个不太可控的环境，因为机器正在为我们创造成果。

图片由Coursera: Machine Learning with Python提供

John Greenall

机器学习中有许多不同的问题，所以我将选择分类作为一个例子。在分类中，标记数据通常由一袋多维特征向量（通常称为 X）和每个向量的标签 Y 组成，Y 通常只是对应于类别的整数，例如。（人脸=1，非人脸=-1）。未标记的数据缺少 Y 分量。在许多情况下，未标记的数据丰富且易于获得，但标记的数据通常需要人工/专家进行注释。

Souravi Sinha

带标签的数据是一组带有一个或多个标签的样本。标记通常采用一组未标记的数据，并使用有意义的信息标签来扩充每个未标记的数据。例如，标签可能表明一张照片是马还是牛，在录音中说出了哪些词，视频中正在执行什么类型的动作，新闻文章的主题是什么，整体情绪是什么推文是，X 射线中的点是否是肿瘤等。

Shashwat Pandey

我们可以说标签是定义明确的数据。例如。电子邮件、IP 地址等而未标记的数据是未正确定义的数据。例如。自然模式，鸟类的迁徙模式等。单独的未标记数据确实有意义，但单独的标记数据可以理解。

Muhammad Waqas Dilawar

为了更好地回答你的问题，我们先来定义一下什么是训练数据，“训练数据就是用来创建模型的准备好的数据”。

现在让我们定义什么是标记学习或监督学习：“您要预测的值实际上在训练数据中。”这意味着训练数据中的每条记录都包含所有必要的信息（特征和{1 } 以及）。

无标签或无监督学习：“您要预测的值不在训练数据中。”

旁注：两种方法都被使用，但公平地说，最常见的方法是监督学习。

Krishna Gannamaneni

在未标记的数据中，没有目标值（因变量）。我们使用无监督机器学习模型来生成目标/因变量，这基本上是将相似的数据组合在一起作为集群。

标记数据和未标记数据有什么区别？

关注公众号

想领先一步获取最新的外包任务吗？

相似问题

平台

支持

联系我们