搜索引擎
搜索引擎是一种技术,旨在满足用户需求并利用特定算法和策略,从互联网中检索并提供指定信息给用户。
搜索引擎架构分为三大块:数据流、在线搜索和离线建库。
数据流负责接收线上前后端的埋点日志数据,包括KAFKA/HDFS等分布式存储,用于持久化埋点数据,报表平台监控指标,如点击率、翻页率等,特征服务提供一致性接口,以供召回和排序使用。涉及批处理、流处理、样本批处理、模型训练和serving等。
在线搜索包括query解析、召回和排序。query解析涉及切词、意图识别等,召回模块根据目标query从网页候选集中筛选相关候选集,排序则将候选集合排序,分为粗排、精排和重排,关注相关性、点击率和个性化特征。
离线建库负责数据聚合、内容管理和建库数据流,包括内容版本管理、内容审核、预处理和存储介质,如倒排索引、正排存储等。
评价指标分为离线技术和在线业务指标,离线技术指标包括准确率、召回率、F1值等,而在线业务指标则主要关注主要和辅助指标,以确保服务质量和用户体验。
以上架构和评价指标为搜索引擎的核心组成部分,旨在高效、精准地提供信息检索服务。