第28卷第5期 2011年5月 计算机应用研究 Application Research of Computers Vo1.28 No.5 Mav 2011 基 于用户兴 趣特征提取的推荐算法研究 刘枚莲,刘同存,李小龙 (桂林电子科技大学,广西桂林541004) 摘要:传统的推荐算法一定程度上降低了网络消费者的搜索成本,但难以实时提供消费者满意的推荐服务, 也忽略了用户偏好动态转移性。为了提高电子商务系统的推荐质量,从用户偏好的行为特征入手,建立了网络 用户的兴趣特征提取模型,并设计了相应的稚荐算法。通过对用户兴趣特征提取模型的检验和用户兴趣度矩阵 的建立,依据与目标用户偏好相似的邻居用户对商品的兴趣程度预测用户对未浏览商品的兴趣度,并选择兴趣 度值较高的Ⅳ个商品推荐给用户。实验结果表明,在用户偏好动态转移的情况下,所设计的推荐算法的推荐精 度和推荐效率明显提高,提高了网络用户的满意度。 关键词:兴趣特征;兴趣度;兴趣度矩阵;推荐算法 中图分类号:TP181;TP301.6 文献标志码:A 文章编号:1001—3695(2011)05—1664—04 doi:10.3969/j.issn.1001—3695.201 1.05.019 Recommendation algorithm on feature extraction based on user interests LIU Mei—lian,LIU Tong—cun,LI Xiao—long (Guilin University ofElectronic Technology,Guilin Guangxi 541004,China) Abstract:To some extent,the traditional recommendation algorithm reduced consumer’S online search cost,but it couldn’t provide satisfactory recommended service for Web consumers timely,and the dynamic metastatic of user preferences had been ignored.In order to improve the recommendation quality of e-commerce systems.based on the behaviora1 characteristics of the user preferences.this paper established a model on feature extraction of user interests according to the dynamic characteristics of network consumer preferences,and designed a corresponding recommendation algorithm.Users’interest model of feature ex— traction was true and built user interests matrix.By the interestingness of neighbors whose preferences were similar to the target users to predict the users’interestingness on those who had no navigation experience in some products,and then recommended the top N products with higher interestingness to Web users.The experimental results show that this method can improve the recommendation effieieney and improve accuracy obviously.and the online consumer’s satisfaction. Key words:interest feature;interestingness;interest matrix;recommendation algorithm 为了解决Internet的信息过载问题,降低f肖费者的搜索成 本,推荐系统作为一种典型的信息过滤技术已广泛应用到电子 商务系统中,如Amazon、CDNOW、Drugstore和MovieFinder等。 推荐算法是整个推荐系统的核心,它的性能直接影响推荐效 果,因此推荐算法的研究成为学术界和企业界共同关注的焦点 问题” 。 推荐服务的目的。本文提出的推荐算法在一定程度上弥补了 传统推荐算法在用户消费偏好动态转移情况下推荐精度低的 不足,能够根据用户当前的消费偏好为其提供满意的推荐服 务,推荐精度显著提高。 1 相关算法研究现状 推荐算法作为推荐系统的核心,直到20世纪9O年代才被 作为一个概念提出来。随着电子商务的不断发展,研究者 提出了各种不同的推荐算法,如协同过滤推荐算法【2j、基于内 容的推荐算法 、基于关联规则的推荐算法 等。协同过滤 在传统购物环境下,鉴于消费者的消费偏好具有一定的动 态转移性,优秀的售货员通常根据消费者的购买历史及当前的 购买兴趣为其推荐商品。网络环境下,以推荐功能为核心的购 物助手一定程度上降低了网络消费者的搜索成本,但所采用的 推荐算法仅以用户对商品的历史评分为推荐依据,忽略了消费 者消费偏好动态转移的特性。随着电子商务系统规模的扩大 及消费需求的日益复杂化,传统的推荐算法越来越难以提供让 消费者满意的推荐服务。对此,本文从分析反映消费者偏好的 行为特征入手,建立提取用户兴趣特征的数学模型,设计了基 于用户兴趣特征提取的推荐算法。该算法的核心思想在于,依 据消费者的购物偏好建立用户兴趣特征提取模型,进而构建用 户对商品的兴趣度矩阵,利用邻居用户对商品的兴趣度预测目 推荐算法最早是由Goldberg等人于1992年提出的,并应用于 Tapesty系统,r但当时该系统没有充分考虑用户需求 。在考 虑到用户参与的情况下,GroupLens首次提出了基于用户评分 的自动协同过滤推荐系统 ,并广泛应用到CDNOW、Amazon 等电子商务网站中。其中Amazon的图书推荐系统应用最为 成功,但是该系统是以消费者的历史购买记录和其他消费者的 购买历史为推荐依据,并没有考虑到消费者消费偏好动态转移 标用户对未浏览商品的兴趣度,从而实现为网络用户提供满意 收稿日期:2010—10—14;修回日期:2010・1卜25 特性。协同过滤推荐算法是研究和应用最为广泛的一种算 基金项目:国家自然科学基金资助项目(70862001) 作者简介:刘枚莲(1972一),女,湖南娄底人,教授,硕导,博士,主要研究方向为'Eft"商务、物流工程;刘同存(1984.),男,山东临沂人,硕士研究 生,主要研究方向为电子商务(sdliutongcun@163.COIl3);李小龙(1981一),男,湖南常德人,副教授,硕导,博士,主要研究方向为传感器网络. 第5期 刘枚莲,等:基于用户兴趣特征提取的推荐算法研充 ・1665・ 法 。针对传统协同过滤推荐算法存在的缺陷,为丁提高推 荐的精度和效率,研究者对该算法作了大量改进。Sarwar等 人 最早提出利用相关性和夹角余弦来计算相似性,住一定 概率用届来表示, =1一 且0≤届≤1, 称之为忘却因子。 定义2若将用户对其感兴趣的商品i第k次浏览的时间 记为t ,则将用户k次浏览的时问之和7’称之为用户对商品i 的总浏览时间。 程度上提高了寻找邻居用户的精度和效率。考虑到用户评分 数据极端稀疏问题,Deng等人 提出了基于项目评分预测的 协同过滤算法。这些算法一定程度上提高了推荐的精度和效 率,但用户对项目的评分缺乏统一的标准,对同一项目评分相 同或相近的用户,评价标准并不一定相同或相近。另外,该算 法并没有考虑到用户兴趣随着时间而转移的特性,因此寻找的 最近邻居不够准确,推荐精度不高,并且新项目得不到及时 推荐。 基于内容的推荐算法起源于信息检索和信息过滤,它是依 据用户已经选择的项目内容计算用户之问的相似性,进而进行 相应的推荐。随着机器学习等技术的发展,当前基于内容的推 荐算法更多的是通过比较项目与用户描述文件来为用户提供 推荐服务…。描述文件作为推荐系统的核心之一,成为当前 研究人员关注的焦点。为了解决描述文件的冗余问题,F61ix 等人 。提出了利用自适应过滤技术来更新用户描述文件,Ro— bertson等人 :在此基础上进一步提出了最佳匹配度阈值设定 的推荐算法;为了减少更新用户描述文件代价,Chang等人 提出了利用建立的关键词进行更新的方法。但是这些算法只 能发现与用户历史兴趣相似的项目,不能为用户发现新的感兴 趣的资源。 基于关联规则的推荐算法是根据生成的关联规则模型和 用户当前的购买行为为用户提供推荐服务 。Agrawal等 最早提出Aprior的关联规则推荐算法;为了提高Aprior的运行 效率,Han等 进一步提出了FP—Growth算法。但是规则的发 现极为耗时,因此成为该算法最大的瓶颈,并且随着规则的增 加,对系统的管理也变得越来越复杂。 2基于用户兴趣特征提取的推荐算法 鉴于以上推荐算法忽略了用户的兴趣特征,本文从探讨用 户兴趣特征人手,建立用户兴趣特征提取的数学模型,进而建 立用户对商品的兴趣度矩阵。在此基础上,利用Pearson相似 系数寻找目标用户的邻居用户集合,利用邻居用户对商品的兴 趣度预测目标用户对未浏览商品的兴趣度,最后选择Ⅳ个兴 趣度值较高的商品推荐给用户。 2.1 用户兴趣特征分析 通过调查发现,用户的浏览行为反映了用户的兴趣,两者 之间的关系具有如下特点:a)不同年龄、性别、职业的用户偏 好反映在用户对商品的浏览行为上;b)用户偏好具有动态转 移性,将其反映在用户兴趣度上,即若用户偏好发生转移,则原 来的兴趣度值减少;C)用户对感兴趣的商品会高频度地点击 和浏览,假设用户对某种/某类商品的浏览时间越长、频率越 高,顾客对该种/类商品越感兴趣,反映用户偏好的兴趣度值也 会随之增加。 2.2用户兴趣特征提取模型 本节将根据反映用户消费偏好的行为特征给出用户兴趣 特征的提取模型,首先给出一些定义。 定义1若用户在t 时刻浏览过商品i,t 时刻用户再次 浏览该商品的概率用 (0≤ ≤1)表示,用户对该商品的遗忘 定义3用户对商品i的k次浏览过程中,若有n次浏览 时间在指定的时间范围内,即t…≤t ≤t…,t 和t 为用户 对商品的最小浏览时间和最大浏览时间的阈值,则将这n次的 浏览时间之和 称之为用户对商品i的有效浏览时间。 定义4用户对某种商品i的浏览次数记为k,则称k为用 户对商品i的总浏览频率,用厂表示。 定义5设用户对商品i的当前浏览时间为t ,上一次浏 览该商品的时间为t ,若0≤t, 一t <£ 则认为用户对该商品上 次的浏览有效,称为有效的浏览频率,用ej表示。 针对对用户兴趣特征的理解,本文认为用户对某种特定商 品的兴趣度应遵循以下原则: 原则1 在其他因素不变的情况下,若用户对商品i√的 总浏览时间一致,如果用户对商品i的总浏览频率_厂大于对商 品 的总浏览频率 ,则用户对商品i的兴趣度高于对 的兴趣 度。用数学关系式表示成: d >d,对于 > (1) 原则2在其他因素不变的情况下,在同一时间段内,若 用户对商品 的有效浏览时间z 大于对商品 的有效浏览时间 t ,则认为用户对商品i的兴趣度高于对商品 的兴趣度。用数 学关系式表示成: d > 对于t >tj (2) 原则3 在其他因素不变的情况下,若用户对商品i√具 有相同的总浏览频率,如果用户对商品i的总浏览时间 大 于对商品 的总浏览时间 ,则认为用户对商品i的兴趣度高 于对商品 的兴趣度。用数学关系表示成: dl>dj对于 > (3) 原则4如果用户对感兴趣的商品超过一段时间k未再 访问,则认为用户对该商品的兴趣度值变化不大 设系统当前 时间为t,用户最后一次浏览该商品的时间为£。用数学关系 表示成: df‘f—d ,对于 — >k (4) 为了满足以上四条原则,引出如下参数:系统参数近期比 重因子 、系统参数兴趣时问系数P 、系统参数k、系统时间差 t 、用户当前有效浏览时间 其中 )=(1一卢)f+p (5) 根据以上参数,本文提出的计算用户对某商品i的兴趣度 方法为 r(1一O/)_厂T/pt+d ‘ ) z。≤ d㈩={【d㈨+ " “, t。>k (6) 定理1式(6)中d 的计算方法满足原则1~4。 证明对于商品i√,若用户总浏览时间T= ,有效浏览 71 71 时间 ,则用户对商品的平均浏览时问 ,平均有效 f f 浏览时问 = 。显然,在有效浏览频率e,不变的情况下,如 pt pt 果 > ,则d >d 原则1成立。 根据式(5)可知,有效浏览时间 、随着遗忘因子卢的增 加而逐渐减小。若其他因素不变,对同一商品i,在遗忘因子作 计算机应用研究 用下有 > ,,显然有d )>d ,);对于不同商品i√,在同一 时刻t,如果有 > ,则显然有d(1’1)>d(J,1)。由此可知,原则2 成立。 .第28卷 sim  ̄/∑ ,豢( Di ,c一 )Di √∑c ( ,c— ) D 表示用户i 其中: 表示用户i和 共同感兴趣的商品集合,,若用户对商品 √的总浏览频率 = 、有效浏览频率 = e 、有效浏览时Nf, = ,,则如果总浏览时间T >Tj,则显然有 d >d.,原则3成立。 对商品c的兴趣度,口 表示用户 对所有商品兴趣度的平 均值。 对于目标用户“,在整个用户空间中寻找与其兴趣相似的 用户集合U:{u ,U2,…, },使得u U,并且sim(u,u )> sie(r , 2)>…>sim( , )。 对于原则4,如果系统时间差t >k,由式(6)可知用户对 商品i的兴趣度值有微弱的变化,即在其他因素不变的情况 下,d 一di-。由此,原则4成立。 根据用户集合推测目标用户对未浏览商品的兴趣度值方 综上所述,命题得证。 2.3构建用户兴趣度矩阵 随着电子商务系统规模的发展,用户和商品数量不断膨 胀,在一段时间内用户感兴趣的商品数量是有限的,两个用户 同时感兴趣的商品更是稀少,在此基础上构建的用户~商品兴 趣度矩阵数据极端稀疏。由于在数据极端稀疏条件下寻找到 的邻居用户不准确,进而导致推荐精度低。对此,本文利用 Pearson相似系数初步评估用户对未浏览过的商品兴趣度,以 此增加用户共同感兴趣的商品数量。 设用户n在商品空间集 ,中未浏览过的商品集合用 表示,浏览过的商品集合用,u表示,则 : ,一,u,对任意商 品P∈ ,预测用户对商品P的兴趣度方法如下: a)在商品集,u中寻找对商品 和 浏览过的所有用户的 兴趣度值,利用传统的相似度度量方法计算商品i和 之间的 相似性。 b)选择相似性较高的 个商品构成商品相似度集合M = {,。,,2,…, },其中P岳 ,并使sim(p,,。)>sim(p,,2),…> sim(p,lk)。 c)本文利用文献[10J提出的方法预测用户对未浏览过的 商品的兴趣度: ∑kEMk sim(j, )X D L ) 通过上述方法处理后,结合式(6)得到用户u对任意商品 i的兴趣度为 rd if User“browse item i D ={[ Pi 1. 1 User Lt no/Dr. owse l ̄. el2lt . (8) 在此基础上构建/'t×k的用户t/,对商品 的兴趣度矩阵,n 行代表/7,个用户,k列代表选择的k个商品,Did表示用户 对 商品k的兴趣度值,用户兴趣度矩阵如下: 臣 D z31●:,2 D2 l3:_, 2.4产生推荐集 为了产生精确推荐结果,利用目标用户的邻居用户对商品 的兴趣度值预测目标用户对未浏览商品的兴趣度值,并选择兴 趣度值较高的top-N个商品推荐给目标用户。 根据建立的用户对商品的兴趣度矩阵,利用Pearson相关 度计量方法寻找与目标用户兴趣相似的邻居集合,在此基础上 预测目标用户对未浏览过的商品的兴趣度。相似度度量方 法 如下: 法 如下: Pdui= + (10) ,其中:,J 和 表示目标用户u和邻居用户k对商品的平均兴趣 度,sier( ,k)表示目标用户u与邻居用户k的兴趣相似度,D¨ 表示邻居用户k对商品i的兴趣度。 3实验仿真 通过实验验证本文提出的推荐算法的有效性,以此说明在 用户兴趣发生转移的情况下,本文提出的推荐算法依然具有较 高的推荐精度和效率。 3.1 数据集 本文采用book—crossing数据集进行实验,该数据集由Cai- Nicolas Ziegler在2004年8—9月用4周的时间从book—crossing 社区采集得到,共包含278 858个用户,271 379本图书信息, 1 149 780条用户对图书的评分记录。为了便于实验,本文从 中随机选取13 817条评分数据作为实验的数据集,其中包含 727个用户和5 788本图书信息。将选取的数据集导入自主研 发的图书智能推荐系统中,对数据进行优化处理,并进一步划 分为训练集和测试集两部分,引入变量 ,表示训练集占整个 数据集的百分比。例如, =0.8表示数据集中80%作为训练 集,20%作为测试集。在本文的实验中,取 =0.8。另外,由 于本文的推荐依据是评估得到的用户对商品的兴趣度值,假设 数据集中用户对图书的评分为用户对该商品的初始兴趣度,在 此基础上根据用户的浏览及购物行为评估用户对商品的当前 兴趣度。 3.2度量标准 目前,推荐算法的推荐质量评价标准中,最常用的是平均 绝对差(MAE),它是通过计算预测的用户对商品的兴趣度与 用户对该商品的真实兴趣度之间的偏差来度量算法预测的准 确性,MAE值越小,则预测得越精确,推荐精度也越高。设通 过算法预测用户对k个商品的兴趣度值分别为{d , ,…, d },用户真实的兴趣度值为}rI, ,…, },则平均绝对偏 差 描述为 MAE: = L__一 c11 () 3.3实验结果及分析 本文以传统的协同过滤推荐算法CBCF为参照,分别从用 户对商品的有效浏览频率(Ef)、遗忘因子(Fsf)、总浏览时间 (TBT)、有效浏览时问(EBT)的变化验证本文提出的推荐算法 的有效性。为了验证在不同邻居用户个数下,用户兴趣的转移 对推荐精度的影响,将邻居用户个数k从2增加到20 间隔为 第5期 刘枚莲,等:基于用户兴趣特征提取的推荐算法研究 ・1667・ 2。实验结果如图1—4所示。 ’ 1.15。Ij|l C:B乏C F 1 05 ◆ ; 1.0< 掌 1.00ll=0950 ÷ 荨 =0l95 。 。0 85 ’ i \. i 1 0.8000 .8i j .2 4 6 8 1O l2 14 16 1 8 jo 80 5 ’ ’ 图1有效浏览频率Ef的变化对 图2遗忘因子Fgf的变化对 推荐精度的影响 推荐精度的影响 1¨0 05 鼍 : B…T=:~IO。 。 j◆EBT=30: 1 。.850 80一一 _一. 1; 。i 图4用户有效浏览时间EBT的 变化对推荐精度的影响 在选取的邻居用户个数不变的情况下,图1显示,如果其 他因素不变,用户对商品的有效浏览频率越高,说明用户对该 商品越感兴趣,兴趣度值越高,在此基础上预测的用户未浏览 商品的偏好程度趋近于符合用户满意的需要,MAE越小。图2 显示,用户对过去浏览过的商品再次浏览的概率越大,即遗忘 程度越小,则说明用户对该商品具有较高的兴趣度,推荐精度 明显高于用户对商品遗忘程度高的情况。图3显示,用户对商 品的总浏览时间越长,如果其他因素不变,则用户对该商品的 兴趣程度越大,算法为用户提供的推荐精度越高,MAE越小。 图4显示,如果其他因素不变,用户对单个商品的有效浏览时 间增加,则用户对该商品的兴趣度也在增加,算法为用户提供 的推荐服务趋于符合用户满意的程度。 在用户兴趣不变的情况下,随着选取的邻居用户个数的增 加,系统为用户提供的推荐服务质量也在提高,即MAE逐渐减 小,但是达到一定程度时,推荐精度将趋于平稳。 4结束语 传统推荐算法忽略了用户兴趣特征对推荐精度和效果的 影响,针对消费者的消费偏好具有一定的动态转移特性,本文 从用户兴趣行为特征人手,重点考虑影响网络消费者消费偏好 的几个行为特征,如浏览时间、浏览频率、遗忘程度等,建立用 户兴趣特征提取的数学模型;在此基础上构建用户对商品的兴 趣度矩阵;最后通过与目标用户偏好相似的邻居用户对商品的 兴趣度预测目标用户对未浏览商品的兴趣度,达到为用户提供 满意推荐服务的目的。基于用户兴趣特征提取的推荐算法有 效避免了传统推荐算法忽略用户兴趣和偏好变化的差异性以 及用户对商品评分的盲目性所导致的推荐精度低的缺陷,能够 根据用户浏览行为的变化动态评估用户当前的消费偏好,进而 提供使消费者满意的推荐服务,推荐精度明显提高 随着网络信息量的飞速增长、网络用户群体的不断增加, 网络消费者的需求也呈现复杂化和多样化的特征。本文所设 计的推荐算法主要是基于用户的隐性行为来考虑,即从网络用 户的浏览特点了解网络用户的兴趣特点,从而进行推荐算法的 研究。但是如何结合其他有效信息,更加有效、精确地挖掘网 络用户的潜在偏好,设计相应的推荐算法或者协商优化算法, 以提高电子商务系统的运行效果,这些问题还有待于进一步研 究 参考文献: [1]YEONG C,YOON C,SOUNG K.Mining changes in customer buying behaviour for collaborative recommendations[J].Expert Systems with Applications,2004,28(2):359—369. [2]PANAGIOTIS S,ALEXANDROS N,APSTOLOS N,et a1.Collabora— tive recommender system:combing effectiveness and efficiency[J]. Exped Systems with Applications,2007,34(4):2995-3013. [3]WENG Sung—shun,uN Bin-shan,CHEN Wen—tien.Using contextual information and multidimensional approach for recommendation[J]. Expert Systems with Applications,2009,36(2):l268—1279. [4]LEUNG C W,CHAN S C,CHUNG F,et a1.An empirical study of a eross.1evel association rule mining approach to cold—start reeommenda- tions[J].Knowledge—based Systems,2008,21(7):515—529. [5]LI Yu,LIU Lu,LI Xue—feng A hybrid collaborative filtering method for multiple-interests and multiple—content recommendation in e。eom。 meree[J].Expert Systems with Applications,2005,28(1):67・ 77. [6]HUANG Cheng—lung,HUANG Wei—liang.Handing sequential pattern decay:developing a two—stage collaborative recommender system[J]. Eletronic Commerce Research and Applications,2008,8(3): 117—129. [7]LUIS M,JUAN M,JUAN F.A collaborative recommender system base on probabilistic inference from fuzzy observations[J].Fuzzy Set and Systems,2008,159(12):1554-1576. [8]HUANG Zan,ZENG D,CHEN H C.A comparison of collaborative— ifltering recommendation algorithms for e-commerce[J].IEEE Intelli— gent Systems,2007,22(5):68—78. [9]SARWAR B,KARYPIS G,KONSTAN J,et a1.Item—based collabo— rative filtering recommendation algorithms[c]//Pine of the 10th In— temational Conference on World Wide Web.New York:ACM Press, 2001:1-5. [10]邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法 [J].软件学报,2003,14(9):1621—1628. [1 1]LIU Duen-ren,SHIH Y Y.Hybrid approaches to product recommenda— tion base on customer lifetime value and purchase preferences[J]. Journal of Systems and Software,2005,77(2):181—191. [12]FELIX 0,ELENA G,EDUARDO H.The task of guiding in adaptive recommender systems[J].Expert Systems with Applications, 2009,36(2):1972—1977. [13]ROBERTSON S,WALKER S.Threshold setting in adaptive filtering [J].Journal of Documentation,2000,56(3):312—331. [14]CHANG Ye—in,SHEN Jun—hong,CHEN T I.A data mining—based method for the incremental update of supporting personalized informa— tion filtering[J].Journal of Information Science and Engineer- ing,2008,24(1):129・142. [15]MATEV2 K,TOMA2 P,MATEV2 P,et a1.Optimisation of combined collab-orative recommender systems『J].AEU of Electronics and Communications,2007,61(7):433—443. [16]AGRAWAL R,IMUEKUBSJU T,SWAMI A.Mining association rules between sets of items in large databases[C]//Proe of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,1993:207—216. [17]HAN Jia-wei,PEI Jian,YIN Yi—wen,et a1.Mining frequent patterns without candidate generation:a frequent・pattern tree approach[J]. Data Mining and Knowledge Discovery,2004,8(1):53—87. [1 8]MANOS P,DIMOTRIS P.Qualitative analysis of user—based and item— based prediction algorithms for recommendation agents[J].Enginee’ ring Applications of Artificial Intelligence,2005,18(7):781_789.