什么是机器学习及其工作原理

机器学习是人工智能的一个令人兴奋的分支,它就在我们身边。机器学习以崭新的方式发挥了数据的力量,例如 Facebook 会在你的 feed 中推荐文章。这项令人惊叹的技术通过开发能够自动获取数据并通过预测和检测执行任务的计算机程序,帮助计算机系统从经验中学习和改进。

当你向机器输入更多数据时,这将有助于算法对计算机进行教学,从而改进所提供的结果。当你要求 Alexa 在亚马逊 Echo 上播放你最喜欢的音乐电台时,她会转到你最常播放的电台。您还可以通过让 Alexa 跳过歌曲、调节音量等更多可能的命令来进一步改善和完善您的听歌体验。机器学习和人工智能的飞速发展使这一切成为可能。

让我们从回答这个问题开始–什么是机器学习?

究竟什么是机器学习?

首先,机器学习是人工智能(AI)的一个核心子领域。机器学习应用程序像人类一样从经验(或者准确地说,从数据)中学习,而无需直接编程。当接触到新数据时,这些应用程序会自行学习、成长、改变和发展。换句话说,机器学习涉及计算机在不被告知去哪里查找的情况下找到有洞察力的信息。相反,它们通过在迭代过程中利用从数据中学习的算法来实现这一目标。

机器学习的概念由来已久(例如,想想二战时期的英格玛机器)。不过,将复杂的数学计算自动应用于大数据的想法仅出现了几年,不过现在势头越来越猛。

从高层次上讲,机器学习是一种通过迭代独立适应新数据的能力。 应用程序从以前的计算和事务中学习,并使用 “模式识别 “来产生可靠和明智的结果。

机器学习如何工作?

毫无疑问,机器学习是人工智能中最令人兴奋的子集之一。它通过对机器的特定输入完成从数据中学习的任务。重要的是要了解机器学习的工作原理,以及未来如何使用它。

机器学习过程从向选定算法输入训练数据开始。训练数据是用于开发最终机器学习算法的已知或未知数据。输入的训练数据类型确实会对算法产生影响,这一概念稍后将进一步阐述。

新的输入数据被输入机器学习算法,以测试算法是否正确。然后,预测和结果会相互核对。

如果预测和结果不一致,算法会被重新训练多次,直到数据科学家得到想要的结果。这样,机器学习算法就能不断自我学习,产生最佳答案,并随着时间的推移逐渐提高准确性。

机器学习有哪些类型?

机器学习非常复杂,因此被分为两个主要领域:监督学习和无监督学习。每个领域都有特定的目的和行动,并利用各种形式的数据产生结果。大约 70% 的机器学习是监督学习,而无监督学习占 10% 到 20%。剩下的则是强化学习。

监督学习

在监督学习中,我们使用已知或标记的数据作为训练数据。由于数据是已知的,因此学习是在监督下进行的,也就是说,是在指导下成功执行的。输入数据通过机器学习算法,用于训练模型。根据已知数据训练好模型后,就可以将未知数据加入模型,得到新的响应。

在这种情况下,模型会尝试找出数据是苹果还是其他水果。一旦模型训练有素,它就会识别出数据是苹果,并给出所需的响应。

无监督学习

在无监督学习中,训练数据是未知的、无标记的,这意味着以前没有人查看过这些数据。没有已知数据,输入就无法为算法提供指导,这就是无监督术语的由来。这些数据被输入到机器学习算法中,用于训练模型。训练好的模型会尝试寻找一种模式,并给出所需的响应。在这种情况下,算法通常就像在尝试破解英格玛机器的密码,但没有人类思维的直接参与,而是由机器来完成。

在这种情况下,未知数据由苹果和梨组成,它们看起来彼此相似。经过训练的模型会尝试把它们放在一起,这样你就能在相似的组中得到相同的东西。

强化学习

与传统类型的数据分析一样,这里的算法也是通过试错过程发现数据,然后决定哪种操作会带来更高的回报。强化学习由三个主要部分组成:代理、环境和行动。代理是学习者或决策者,环境包括代理与之交互的一切,而行动则是代理所做的事情。

当代理选择的行动能在一定时间内使预期回报最大化时,强化学习就会发生。当代理在合理的策略框架内工作时,这一点最容易实现。

机器学习为何重要?

为了更好地回答 “什么是机器学习 “这一问题,并了解机器学习的用途,请考虑一下机器学习的一些应用。谷歌的自动驾驶汽车、网络欺诈检测以及 Facebook、Netflix 和亚马逊的在线推荐引擎。机器通过过滤有用的信息,并根据模式将它们拼凑在一起,从而获得准确的结果,使所有这些事情成为可能。

机器学习的快速发展导致了使用案例、需求以及机器学习在现代生活中的重要性随之上升。在过去几年中,大数据也已成为一个被广泛使用的流行词。 这在一定程度上是由于机器学习的复杂性不断提高,从而能够对大块大数据进行分析。机器学习还通过自动化通用方法/算法改变了数据提取和解释的方式,从而取代了传统的统计技术。

现在,您已经知道了什么是机器学习、机器学习的类型及其重要性,接下来让我们了解一下机器学习的用途。

机器学习的主要用途

机器学习的典型成果通常包括网络搜索结果、网页和移动设备上的实时广告、垃圾邮件过滤、网络入侵检测以及模式和图像识别。所有这些都是利用机器学习分析海量数据的副产品。

传统的数据分析以试验和错误为基础,由于大型异构数据集的兴起,这种方法变得越来越不切实际。机器学习为大规模数据分析提供了智能替代方案。通过开发快速高效的算法和数据驱动模型,机器学习可以为实时数据处理提供准确的结果和分析。

如何决定使用哪种机器学习算法?

有几十种不同的算法可供选择,但没有最佳选择,也没有适合每种情况的算法。在很多情况下,您必须反复试验。但您可以提出一些问题,帮助缩小选择范围。

  • 您需要处理的数据量有多大?
  • 您要处理的数据类型是什么?
  • 您希望从数据中获得哪些见解?
  • 如何使用这些洞察力?

机器学习的先决条件

对于那些有兴趣了解机器学习的人来说,要想在这一领域取得成功,必须满足一些要求。这些要求包括

  • 具备 Python、R、Java、JavaScript 等编程语言的基础知识。
  • 统计学和概率论的中级知识。
  • 线性代数基础知识。在线性回归模型中,通过所有数据点画出一条线,然后用这条线来计算新值。
  • 了解微积分。
  • 了解如何按照所需的格式清理和构建原始数据,以减少决策所需的时间。

这些先决条件将提高您成功从事机器学习职业的机会。