机器学习是人工智能的一个分支，旨在让计算机从数据中自动学习规律，而非依赖预设规则。其核心概念包括训练数据、模型拟合和预测任务。与传统编程不同，机器学习通过分析大量“输入-输出”样本，自行发现数据中的规律。读者将学会如何利用线性回归等模型进行预测回归（如房价预测），以及应用分类识别（如垃圾邮件过滤）、聚类分组（如用户分类）和生成创作（如文本生成）等技术。机器学习在数据、算力和算法三大支柱的推动下，近年来取得了显著进展。学完本章，读者能够识别适合机器学习的问题，并运用基本模型解决简单的预测和分类任务。

什么是机器学习

机器学习(Machine Learning,ML)是人工智能的一个分支,它让计算机从数据中学习规律,而不是靠人写死的规则。

与传统编程的区别

传统编程是这样的:

输入 + 程序(规则) → 输出

机器学习恰好反过来:

输入 + 输出 → 程序(模型)

我们给机器一堆"输入-输出"的样本(叫做训练数据),它自己"琢磨"出一个能根据输入预测输出的程序。

一个最朴素的例子

假设你想根据"房屋面积"预测"房价"。你手上有 50 套房子的数据:

# 训练数据
areas = [50, 60, 80, 100, 120, 150]      # 平方米
prices = [200, 240, 320, 400, 480, 600]  # 万元

传统做法:你琢磨"每平方米 4 万元",写死 price = area * 4。

机器学习做法:把数据丢给一个线性回归模型,让它自己找到最合适的系数(可能是 3.98,也可能是 4.02)。

from sklearn.linear_model import LinearRegression
import numpy as np

X = np.array(areas).reshape(-1, 1)
y = np.array(prices)

model = LinearRegression()
model.fit(X, y)

# 现在可以预测任何面积的房子
print(model.predict([[90]]))  # 预测 90 平米的价格