ML 学习站
跳到正文

推荐系统入门

为什么需要推荐、典型应用、三种核心范式与工业链路。

30 分钟1 / 41,458
加载中...

推荐系统是现代互联网服务中不可或缺的一部分,它解决了信息过载问题,实现了从“人找信息”到“信息找人”的转变。核心概念包括协同过滤、基于内容和深度学习。协同过滤利用用户或物品的相似性进行推荐;基于内容的方法通过物品特征进行推荐;深度学习则通过神经网络捕捉用户和物品的隐式偏好。学完本章,读者将能够理解推荐系统的基本原理和应用场景,掌握三种核心推荐范式,并了解工业界推荐系统的完整链路和关键挑战,如冷启动、稀疏性、长尾效应、反馈循环和公平性。最终,读者能够评估和设计基本的推荐系统方案。

推荐系统入门

你刷抖音为什么停不下来?淘宝为什么总能猜到你想买什么?Spotify 凭什么给你推的歌你都爱听?背后都是推荐系统

这一章我们讲清三件事:为什么需要、典型场景、核心思路

为什么需要推荐系统

互联网从"人找信息"变成"信息找人"。

时代模式痛点
门户时代 (2000s)编辑精选信息过载, 用户找不到想要的
搜索时代 (2010s)关键词搜索不知道搜啥就找不到
推荐时代 (2020s+)算法主动推千人千面, 7x24 服务

核心矛盾: 信息供给 >> 用户消费能力 → 必须主动筛选 + 个性化排序

典型应用场景

  • 📺 内容消费: 抖音/快手/YouTube 视频流
  • 🛒 电商: 淘宝/京东商品推荐
  • 🎵 音乐: 网易云/Spotify 歌单
  • 📰 新闻: 今日头条信息流
  • 🍔 本地生活: 美团附近推荐
  • 💼 招聘: LinkedIn 职位推荐
  • 🏠 房产: 链家/贝壳找房

三种核心范式

1. 协同过滤 (Collaborative Filtering)

核心思想: "和你相似的人也喜欢这个"。

  • User-based: 找兴趣相似的用户, 把他们喜欢的东西推给你
  • Item-based: 找物品之间的相似度, 推荐跟你喜欢物品相似的
  • 优点: 不需要物品内容, 完全靠用户行为
  • 缺点: 冷启动 (新用户/新物品没数据)

2. 基于内容 (Content-based)

核心思想: "你喜欢 A, A 跟 B 内容相似, 所以推 B"。

  • 需要物品的特征 (文本标签 / 类别 / 词向量)
  • 优点: 解决物品冷启动
  • 缺点: 容易推相似内容 (信息茧房)

3. 深度学习 (Deep Learning)

核心思想: 把用户 + 物品 + 上下文都映射到同一向量空间, 用神经网络学隐式偏好。

  • Two-Tower: 用户塔 + 物品塔, 各自出 embedding
  • NCF: 用 MLP 替代矩阵分解
  • DeepFM: 因子机 + 深度, 捕捉高阶特征交互
  • 双塔召回 + 精排: 现代推荐系统的标准架构

工业界完整链路

用户行为日志 → 特征工程 → 召回 (粗筛 1000+) → 粗排 (过滤 200) → 精排 (CTR 预估 50) → 重排 (多样性 10) → 展示

每一层都是一次"快-准"权衡:

  • 召回: 快 (毫秒级), 准度低, 用双塔 / 协同过滤
  • 粗排: 中速, 简单模型
  • 精排: 慢 (几十毫秒), 复杂模型 (DeepFM / DIN)
  • 重排: 多样性 / 新鲜度 / 业务规则

关键挑战

  1. 冷启动: 新用户 / 新物品没行为
  2. 稀疏性: 亿级用户 × 千万物品, 99.99% 行为为空
  3. 长尾: 80% 物品曝光 < 100
  4. 反馈循环: 推了用户点了 → 又推相似 → 越推越窄
  5. 公平性: 热门越热, 冷门越冷

总结

推荐系统 = 数据 + 算法 + 工程 三位一体。下一章我们深入矩阵分解, 看协同过滤怎么用数学搞定。

章末小测验

检验你对《推荐系统入门》的掌握程度。

1

推荐系统要解决的核心矛盾是?

2

以下哪个不是推荐系统的典型应用场景?

3

工业界推荐完整链路的'快-准'权衡中, 召回阶段用什么模型?

讨论区(0)

加载评论中...