推荐算法实战-1-简介

本文是推荐算法实战系列第一篇文章。

1、推荐系统架构

召回召回主要是从一大堆的物料中，排除与用户不相关的，留下可能符合用户品味的。

主要考虑相关性和多样性。

召回模型由于候选集规模巨大，通常采用“离线计算，在线缓存（查询）”的模式。而且，不能出现用户信息和物料信息的交叉。限制了模型的表达能力和精度。

召回模型最常见的是双塔模型，在线时用相似向量查找（给定用户向量，查找topK的物品向量），因而需要用到向量数据库。

通常采用多路召回弥补精度的不足，以及多样性要求。

精排是优中选优，召回不是小号精排，拿精排的思路做召回很容易翻车。

粗排介于召回和精排之间。小型推荐系统可有可无。

精排推荐系统的重头戏。

重排精排时，相似内容会打上相近的分数。

重排不是过滤筛选，而是将相似内容打散，保证多样性。

重排通常是不可或缺的，只不过在小型系统中，用启发式规则就可以。

相同点都遵循“召回-精排”的功能架构，以及lambda数据架构。

很多算法、模型在三个领域是通用的，例如CTR预估算法。

都需要高度个性化。广告的个性化要求更高。

搜索vs推荐最大的差异，用户表达意图的方式不同。

搜索，用户意图通过query表达。query相关特征在搜索模型中居于VIP待遇。

推荐，重要的特征来源于用户与物料的交叉。搜索中是query与物料的交叉。

搜索对结果的准确性要求更高。

搜推vs广告广告兼顾用户、平台、广告主。

搜推只要求ctr、cvr的相对顺序，广告要求绝对值准确，因为会用来计费。

广告要对ctr、cvr校准。

广告的转化链路更长。

广告的物料候选集更小。

本文总访问量次