机器学习是人工智能的一个分支,旨在让计算机从数据中自动学习规律,而非依赖预设规则。其核心概念包括训练数据、模型拟合和预测任务。与传统编程不同,机器学习通过分析大量“输入-输出”样本,自行发现数据中的规律。读者将学会如何利用线性回归等模型进行预测回归(如房价预测),以及应用分类识别(如垃圾邮件过滤)、聚类分组(如用户分类)和生成创作(如文本生成)等技术。机器学习在数据、算力和算法三大支柱的推动下,近年来取得了显著进展。学完本章,读者能够识别适合机器学习的问题,并运用基本模型解决简单的预测和分类任务。
什么是机器学习
机器学习(Machine Learning,ML)是人工智能的一个分支,它让计算机从数据中学习规律,而不是靠人写死的规则。
与传统编程的区别
传统编程是这样的:
输入 + 程序(规则) → 输出
机器学习恰好反过来:
输入 + 输出 → 程序(模型)
我们给机器一堆"输入-输出"的样本(叫做训练数据),它自己"琢磨"出一个能根据输入预测输出的程序。
一个最朴素的例子
假设你想根据"房屋面积"预测"房价"。你手上有 50 套房子的数据:
# 训练数据
areas = [50, 60, 80, 100, 120, 150] # 平方米
prices = [200, 240, 320, 400, 480, 600] # 万元
传统做法:你琢磨"每平方米 4 万元",写死 price = area * 4。
机器学习做法:把数据丢给一个线性回归模型,让它自己找到最合适的系数(可能是 3.98,也可能是 4.02)。
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array(areas).reshape(-1, 1)
y = np.array(prices)
model = LinearRegression()
model.fit(X, y)
# 现在可以预测任何面积的房子
print(model.predict([[90]])) # 预测 90 平米的价格
机器学习能做什么
机器学习在 4 类任务上大放异彩:
- 预测回归:预测房价、股价、销量、气温这种连续值
- 分类识别:判断邮件是不是垃圾邮件、图像里有没有猫、肿瘤是良性还是恶性
- 聚类分组:把用户分成几类、把新闻按主题归堆(没有标准答案,机器自己找)
- 生成创作:写文章、画图谱曲、生成代码(以 ChatGPT、Midjourney 为代表)
为什么现在才火起来
机器学习的概念早在 1950 年代就提出了,但真正爆发是 2012 年之后。三个原因缺一不可:
- 数据:互联网和移动设备产生海量数据
- 算力:GPU 让训练大模型从几个月变成几小时
- 算法:深度学习的突破(尤其是 2012 年的 AlexNet 在 ImageNet 比赛夺冠)
小结
- 机器学习 = 让计算机从数据中自动学出规律,而不是写死规则
- 核心范式:用训练数据
(X, y)拟合出模型f,再用f(X_new)预测 - 主流任务:回归、分类、聚类、生成
- 三大支柱:数据 + 算力 + 算法
练习思考
- 想一个你身边可以用"机器学习"解决的预测问题,写下来。
- 为什么"识别手写数字"是一个机器学习问题,而不是传统编程问题?
- 用一句话给你的朋友解释"机器学习"和"传统编程"的区别。
章末小测验
检验你对《什么是机器学习》的掌握程度。
1
机器学习与传统编程最本质的区别是什么?
2
下列哪一项不是机器学习的主流任务?
3
深度学习在 2012 年开始爆发,主要驱动因素不包括下列哪一项?
学完这章, 你可能想看
讨论区(0)
加载评论中...