logo

美团搜索粗排优化的探索与实践

作者:十万个为什么2025.09.17 17:37浏览量:0

简介:本文深入探讨美团搜索粗排阶段的优化策略,从特征工程、模型架构、工程优化及评估体系四方面展开,分享美团在提升搜索效率与用户体验方面的实践经验。

美团搜索粗排优化的探索与实践

引言

在美团这样的大型生活服务平台中,搜索系统是用户获取服务的关键入口。搜索结果的质量直接影响用户体验和平台转化率。粗排(初步排序)作为搜索链路中的核心环节,承担着从海量候选集中快速筛选出高质量结果的重要任务。本文将详细阐述美团在搜索粗排优化方面的探索与实践,分享我们在特征工程、模型架构、工程优化及评估体系等方面的经验与思考。

粗排阶段的核心挑战

粗排阶段面临两大核心挑战:效率效果。一方面,粗排需要在毫秒级时间内处理数百万候选结果,对计算效率有极高要求;另一方面,粗排结果的质量直接影响后续精排的输入分布,进而影响整体搜索效果。如何在有限的计算资源下,尽可能提升粗排的排序质量,是美团搜索团队长期探索的课题。

特征工程优化

特征是模型的基础,优质的特征能够显著提升模型效果。在粗排阶段,我们重点从以下三个方面优化特征:

1. 用户行为特征

用户行为是反映用户意图的最直接信号。我们构建了多维度、细粒度的用户行为特征,包括:

  • 短期行为:如最近7天的搜索、点击、下单行为;
  • 长期偏好:如用户的历史偏好品类、价格区间、品牌倾向;
  • 实时行为:如当前会话的搜索词、点击序列。

通过行为序列建模(如LSTM、Transformer),我们能够捕捉用户行为的时序模式,提升特征表达能力。

2. 商品特征

商品特征是排序的基础。我们优化了商品特征的覆盖度和时效性,包括:

  • 基础属性:如品类、价格、销量、评分;
  • 动态属性:如库存状态、促销活动、配送时间;
  • 上下文特征:如地理位置、时间、天气。

特别地,我们引入了图神经网络(GNN)来建模商品之间的关联关系(如替代品、互补品),提升特征的丰富性。

3. 交叉特征

单一特征往往难以全面刻画用户-商品的匹配程度。我们通过特征交叉(如FM、DCN)来捕捉用户与商品之间的交互关系,例如:

  • 用户偏好品类 × 商品品类;
  • 用户历史价格区间 × 商品价格;
  • 用户地理位置 × 商品配送范围。

交叉特征的引入显著提升了模型的表达能力。

模型架构优化

在模型架构方面,我们探索了多种优化方向,以提升粗排模型的准确性和效率。

1. 双塔模型优化

双塔模型(User-Item模型)是粗排阶段的经典架构。我们通过以下方式优化双塔模型:

  • 特征分桶:对连续特征进行分桶处理,减少模型参数;
  • 哈希技巧:对高维稀疏特征进行哈希降维,降低计算复杂度;
  • 轻量级网络:使用更浅的神经网络(如2-3层MLP),平衡效果与效率。

2. 精排模型蒸馏

为了利用精排模型的强大能力,我们引入了模型蒸馏技术。具体做法是:

  • 使用精排模型的输出(如点击率、转化率)作为软标签,训练粗排模型;
  • 通过温度参数调整软标签的平滑程度,防止过拟合;
  • 结合硬标签(真实点击数据)进行联合训练,提升模型的鲁棒性。

实验表明,模型蒸馏能够显著提升粗排模型的效果,尤其是在数据稀疏的场景下。

3. 多目标学习

搜索场景通常涉及多个目标(如点击率、转化率、GMV)。我们通过多目标学习(MTL)来优化粗排模型:

  • 共享底层特征表示,学习用户和商品的通用表示;
  • 多个目标头独立预测,通过加权或门控机制融合多个目标;
  • 引入梯度裁剪和正则化,防止某个目标过强导致其他目标退化。

多目标学习能够提升模型的综合效果,尤其是在复杂业务场景下。

工程优化

粗排阶段对工程效率有极高要求。我们通过以下方式优化工程实现:

1. 特征预计算

将不依赖于查询的特征(如用户历史行为、商品静态属性)进行预计算,存储在内存中。查询时直接读取预计算结果,减少实时计算量。

2. 量化与压缩

对模型权重和特征进行量化(如FP16、INT8),减少内存占用和计算量。同时,对特征进行压缩(如稀疏编码、哈希),降低传输开销。

3. 并行计算

利用GPU或多线程进行并行计算,加速特征提取和模型推理。特别地,我们优化了CUDA内核,提升了GPU的利用率。

评估体系

评估是优化的基础。我们构建了多维度、多层次的评估体系:

1. 离线评估

  • AUC/GAUC:衡量模型对正负样本的区分能力;
  • NDCG:衡量排序结果的相关性;
  • 多样性:衡量排序结果的品类、价格等分布。

2. 在线评估

  • A/B测试:通过流量分割,对比不同策略的线上效果;
  • 关键指标:如点击率、转化率、GMV、用户留存率。

3. 反馈循环

建立用户反馈机制,收集用户对搜索结果的显式(如点赞、投诉)和隐式(如停留时间、跳出率)反馈,用于模型迭代。

实践案例

以某次粗排优化为例,我们通过以下步骤提升了搜索效果:

  1. 特征优化:引入用户实时行为序列和商品关联图特征;
  2. 模型优化:采用精排模型蒸馏和多目标学习;
  3. 工程优化:对特征和模型进行量化和并行计算;
  4. 评估验证:离线AUC提升3%,线上点击率提升2%,GMV提升1.5%。

总结与展望

美团搜索粗排优化是一个持续迭代的过程。未来,我们将继续探索以下方向:

  • 更高效的模型架构:如轻量级Transformer、稀疏激活模型;
  • 更丰富的特征表示:如多模态特征(图片、文本)、知识图谱;
  • 更智能的工程优化:如自动调优、硬件加速。

通过不断探索与实践,我们致力于为用户提供更高效、更精准的搜索体验。

相关文章推荐

发表评论