排序学习方法总结.docx
《排序学习方法总结.docx》由会员分享,可在线阅读,更多相关《排序学习方法总结.docx(9页珍藏版)》请在一课资料网上搜索。
1、排序学习方法引子Learning to Rank在淘宝中的应用怎样把用户想要的、好的商品排到网页的前面;怎样调节不同卖家的流量:给质量好的并且价格不便宜的商品更多流量,来引导市场更加规范是淘宝运营要考虑的问题。需要解决的问题其实是很复杂的,比如对商品如何排序、按什么标准排序、排序结果如何判断这一系列问题。淘宝将商品分为五个等级:bad/fair/good/excellent/prefect。但判断商品的好坏要用到很多特征,比如:商品人气分、卖家分、图像质量、客户反馈分等等,随着时间的变化,新的特征在不断的加入,每个特征是站在不同的角度来描述商品的好坏,这些分数也根据不同的规则形成,而如何对这些
2、分数通过线性加权的方式获得最终的排序也非常的重要。排序学习方法可以用来解决这个问题。淘宝通过Learning to Rank的方法,通过机器学习模型来自动调整模型参数,但不产生新特征,之后新加入的特征会通过模型来确定它的最优参数。1. 排序学习方法简述(1) 什么是排序学习方法?排序学习方法用来做什么的?排序学习是当前文本检索领域的研究热点,它使用机器学习的方法训练出对数据排序特征的一个排序函数。排序学习方法将机器学习方法引入到信息检索的文档相关性排序问题中,充分考虑各种排序方法对最终排序结果的影响,通过训练学习排序模型,将各种排序方法视为特征,对文档的相关性做综合的评估。排序学习是一个信息检
3、索与机器学习相结合的研究领域。它的目标是应用机器学习算法学习排序函数,利用排序函数计算文档和查询的相关性分数,并以此为依据对文档集合进行排序。排序学习研究的核心问题是如何构造一个函数或模型反映文档对于查询的相关度。/排序学习研究的核心问题是如何利用训练数据设计合适的排序算法,在此基础上构造更为“精确”的排序模型。(所谓的精确通常需要一个定量的度量,在排序学习领域,主要是通过对测试集上排序结果的评价来实现,常用的标准有MAP和NDCG等)。本实验的排序学习算法采用线性模型,将各特征赋予权重,以此预测社会网络中结构洞节点新的排序结果。(2) 排序学习方法分类按照所使用的机器学习工具不同,可以分为:
4、a) 基于SVM的排序算法b) 基于神经网络的排序算法c) 基于Boosting的排序算法d) 基于其他机器学习工具(如遗传算法等)的排序算法按照学习到的排序模型是否为线性分为:a) 线性排序算法b) 非线性排序算法根据训练数据的不同划分为:a) 基于单个样本的Pointwise算法b) 基于样本对的Pairwise算法c) 基于样本队列的Listwise算法2. 排序学习方法对比(1) 基于单个样本的Pointwise算法其基本思想是将训练集中的每个查询-文档对作为一个训练数据,采用某种合适的分类或回归的方法来学习一个排序模型。因为每个文档都被看做一个单独的训练数据,故被称为Pointwis
5、e法。训练数据少,算法简单明了。比较有代表性的算法有:RankProp/Prank/OAP-BPM/EXC/IMC基于神经网络的排序算法:RankProp基于感知机的在线排序算法:Prank(Perception Rank)/OAP-BPM基于SVM的排序算法Pointwise算法的不足之处:这种排序学习方法与普通的分类或者回归方法没有本质的不同个,它没有融入排序特性,也没有发挥排序学习方法的最大功效,所以研究者提出了排序学习的另外两类方法。(2) 基于样本对的Pairwise算法每个输入数据为一对具有偏序关系(preference relation)的文档,通过对这些数据对的有监督学习来学习
6、一个排序模型,其学习目标是使得结果列表中的错误的偏序对越少越好。目前公认最为经典的三个Pairwise算法是:基于SVM的Ranking SVM算法基于神经网络的RankNet算法基于Boosting的RankBoost算法基于Pairwise的排序算法的不足之处:a) 排序是对某个查询在所有候选文档的排序结果,而不是每对文档之间的偏序关系b) Pairwise法假设所有的文档对是独立同分布的,这点与实际并不完全相符c) 从训练数据本身的构成来说,不同的查询拥有的文档对数目不同,这样不加均一化地在一起学习,其结果不可避免的向拥有文档对较多的查询偏移(3) 基于样本队列的Listwise算法该方
7、法将每个查询的“结果列表”(list)看成一个训练数据,该算法设计关键在于定义一个基于Listwise的损失函数(Loss function)以及选用合适的工具进行学习。大体可以分为两大类:a) 基于概率模型的列表级排序算法以Listnet算法为代表,其基本思想是将排序问题看成一个排列概率问题,使用神经网络为学习工具,并使用梯度下降法为优化方法进行求解。相比起Pairwise法的RankingSVM、RankNet、RankBoost算法,Listnet算法所获得的排序模型不仅是查询级的,而且更关注排名靠前的文档,因此也更满足实际信息检索用户的实际需求。同样基于概率模型的Listwise算法还
8、有RankCosine、ListMLE,它们与Listnet的不同之处在于它们定义的目标函数不同。RankCosine的优化目标函数是基于余弦相似度的,它用两个向量分别代表真实结果列表和预测结果列表,并用两个向量之间的余弦角度来度量他们之间的距离;ListMLE说定义的目标函数则是基于极大似然估计的。ListMLE算法是一种基于Luce模型的排序算法,虽然ListMLE算法后于ListNet算法出现,但从性能上看并不优于ListNet。b) 基于直接优化评估标准的排序算法针对Pairwise算法“优化目标和评价目标的不一致性”,即算法的学习目标为“最小化错误对“而学习后的评价标准却为MAP、N
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 排序 学习方法 总结
