机器学习简介
#python #datascience #machinelearning #introduction

机器学习是一种自动化分析模型构建的数据分析方法。它是人工智能的一个分支,基于这样的想法,即系统可以从数据中学习,识别模式并以最少的人为干预做出决策。机器学习有三种主要类型:监督学习,无监督的学习和强化学习。

  1. 监督学习:在监督学习中,该算法在标记的数据集上进行了培训,该数据集已知正确的输出。目的是学习一个将输入映射到输出的一般规则,以便在遇到新输入时,系统可以预测正确的输出。监督学习的示例包括回归和分类问题。

  2. 无监督的学习:在无监督的学习中,该算法没有给出任何标记的数据。相反,目标是在数据中找到模式或关系,例如将相似的数据点分组在一起。无监督学习的示例包括聚类和减少维度。

  3. 强化学习:在强化学习中,算法通过与环境进行互动并以奖励或惩罚的形式获得反馈来学习。目标是学习一项随着时间的推移累积奖励最大化的政策。强化学习的示例包括玩游戏,控制机器人和自动驾驶汽车。

这些类型的机器学习都有其自己的特定用例,用于解决不同类型的问题。

Traditional vs machine learning

什么是机器学习模型?

机器学习模型,例如一块粘土,可以被模制成许多不同的形式,并以许多不同的目的来实现。一个更技术的定义是,机器学习模型是可以修改的代码或框架的块,以根据所提供的数据解决不同但相关的问题。

模型是一个极为通用的程序(或代码的块),由用于训练它的数据进行特定。它用于解决不同的问题。

示例1

想象您拥有一个雪锥购物车,并且您有一些有关根据高温每天出售的平均雪锥数量的数据。您想更好地了解这种关系,以确保您手头上有足够的库存。

Snow covers sold

在上图中,您可以看到一个模型的一个示例,即线性回归模型(由实线表示)。您可以看到,根据提供的数据,该模型预测,随着一天的高温增加,平均雪锥的数量也会增加。甜!

示例2

让我们看一个使用相同的线性回归模型的不同示例,但有不同的数据和一个完全不同的问题要回答。
想象一下,您从事高等教育工作,您希望更好地了解入学成本与上大学的学生人数之间的关系。在此示例中,我们的模型预测,随着学费的增加,上大学的人数可能会减少。

Srudent enrolment

使用相同的线性回归模型(由实线指示),您可以看到上大学的人数确实会随着成本的增加而下降。

两个示例都表明,模型是由用于训练它的数据的特定程序。

训练和使用模型

模型培训算法如何用于培训模型?

在上一节中,我们讨论了两个关键信息:模型和数据。在本节中,我们向您展示了如何使用这两个信息来创建训练有素的模型。此过程称为模型培训。

模型培训算法通过互动过程起作用

让我们重新审视我们的粘土茶壶类比。我们已经得到了一块粘土,现在我们想制作茶壶。让我们看一下用于成型粘土的算法以及它如何相似的机器学习算法:

  • 考虑需要进行的更改。您要做的第一件事是检查原始粘土,并考虑可以做出哪些更改以使其看起来更像茶壶。同样,模型培训算法使用该模型处理数据,然后将结果与某些最终目标进行比较,例如我们的粘土茶壶。
  • 进行这些更改。现在,您塑造了粘土,使其看起来更像是茶壶。同样,模型训练算法轻轻地将模型的特定部分轻推朝着实现目标的方向轻轻推动。
  • 重复。通过一遍又一遍地迭代这些步骤,您越来越接近想要的东西,直到确定自己的距离足够近,然后可以停止。

red rock

机器学习过程的主要步骤

steps in machine learning

这是本课程中介绍的术语的快速回顾:

  • 聚类是一项无监督的学习任务,有助于确定数据中是否存在任何自然存在的分组。
  • 一个分类标签具有一组离散的可能值,例如“是猫”和“不是猫”。
  • 连续(回归)标签没有一个可能的值集,这意味着可能存在无限数量的可能性。
  • 离散是从统计数据中获取的一个术语,指的是结果,该结果仅占有限数量的值(例如一周中的天数)。
  • 标签是指已经包含解决方案的数据。
  • 使用未标记的数据意味着您在训练模型时不需要为模型提供任何类型的标签或解决方案。

资源:Amazon AWS