ML 学习站
跳到正文

什么是机器学习

机器学习的定义、与传统编程的区别、四类典型应用。

20 分钟1 / 61,050
加载中...

机器学习是人工智能的一个分支,旨在让计算机从数据中自动学习规律,而非依赖预设规则。其核心概念包括训练数据、模型拟合和预测任务。与传统编程不同,机器学习通过分析大量“输入-输出”样本,自行发现数据中的规律。读者将学会如何利用线性回归等模型进行预测回归(如房价预测),以及应用分类识别(如垃圾邮件过滤)、聚类分组(如用户分类)和生成创作(如文本生成)等技术。机器学习在数据、算力和算法三大支柱的推动下,近年来取得了显著进展。学完本章,读者能够识别适合机器学习的问题,并运用基本模型解决简单的预测和分类任务。

什么是机器学习

机器学习(Machine Learning,ML)是人工智能的一个分支,它让计算机从数据中学习规律,而不是靠人写死的规则。

与传统编程的区别

传统编程是这样的:

输入 + 程序(规则) → 输出

机器学习恰好反过来:

输入 + 输出 → 程序(模型)

我们给机器一堆"输入-输出"的样本(叫做训练数据),它自己"琢磨"出一个能根据输入预测输出的程序。

一个最朴素的例子

假设你想根据"房屋面积"预测"房价"。你手上有 50 套房子的数据:

# 训练数据
areas = [50, 60, 80, 100, 120, 150]      # 平方米
prices = [200, 240, 320, 400, 480, 600]  # 万元

传统做法:你琢磨"每平方米 4 万元",写死 price = area * 4

机器学习做法:把数据丢给一个线性回归模型,让它自己找到最合适的系数(可能是 3.98,也可能是 4.02)。

from sklearn.linear_model import LinearRegression
import numpy as np

X = np.array(areas).reshape(-1, 1)
y = np.array(prices)

model = LinearRegression()
model.fit(X, y)

# 现在可以预测任何面积的房子
print(model.predict([[90]]))  # 预测 90 平米的价格

机器学习能做什么

机器学习在 4 类任务上大放异彩:

  1. 预测回归:预测房价、股价、销量、气温这种连续值
  2. 分类识别:判断邮件是不是垃圾邮件、图像里有没有猫、肿瘤是良性还是恶性
  3. 聚类分组:把用户分成几类、把新闻按主题归堆(没有标准答案,机器自己找)
  4. 生成创作:写文章、画图谱曲、生成代码(以 ChatGPT、Midjourney 为代表)

为什么现在才火起来

机器学习的概念早在 1950 年代就提出了,但真正爆发是 2012 年之后。三个原因缺一不可:

  • 数据:互联网和移动设备产生海量数据
  • 算力:GPU 让训练大模型从几个月变成几小时
  • 算法:深度学习的突破(尤其是 2012 年的 AlexNet 在 ImageNet 比赛夺冠)

小结

  • 机器学习 = 让计算机从数据中自动学出规律,而不是写死规则
  • 核心范式:用训练数据 (X, y) 拟合出模型 f,再用 f(X_new) 预测
  • 主流任务:回归、分类、聚类、生成
  • 三大支柱:数据 + 算力 + 算法

练习思考

  1. 想一个你身边可以用"机器学习"解决的预测问题,写下来。
  2. 为什么"识别手写数字"是一个机器学习问题,而不是传统编程问题?
  3. 用一句话给你的朋友解释"机器学习"和"传统编程"的区别。

章末小测验

检验你对《什么是机器学习》的掌握程度。

1

机器学习与传统编程最本质的区别是什么?

2

下列哪一项不是机器学习的主流任务?

3

深度学习在 2012 年开始爆发,主要驱动因素不包括下列哪一项?

讨论区(0)

加载评论中...