世娱网
您的当前位置:首页数据挖掘在电子商务推荐系统中的应用研究

数据挖掘在电子商务推荐系统中的应用研究

来源:世娱网
数据挖掘在电子商务推荐系统中的应用研究

作者:贾贵娴

来源:《新经济》 2016年第16期

贾贵娴

摘 要:人们网上购物的行为越来越普遍,由此产生的数据也越来越多,因此如何应用数据挖掘技术使推荐的信息满足用户的需求尤显重要。本文简要介绍了目前主要的电子商务推荐系统类型和在电子商务推荐系统中的主要应用的数据挖掘技术,并结合目前电子商务推荐系统应用中的问题,提出了情感标签匹配、偶然性推荐、建立虚拟社区等理论上的解决方法。

关键词:数据挖掘 电子商务 推荐系统

引言

随着互联网的发展,人们的网络行为逐渐增加,由此产生的网络数据剧增。同时人们的购物观念也在慢慢发生变化,购物习惯随之改变,网络购物成为人们一种重要的购物方式,因此电子商务平台的重要性逐渐凸显。如何利用人们在购物平台的众多数据让商家和顾客有更好的买卖体验成为重要的问题。

电子商务推荐系统是利用人们的网络购物行为数据,依据数据挖掘技术挖掘出其中有价值的信息进行反馈,进而利用这些信息给顾客推荐符合其兴趣爱好和需要的商品。由此可见,数据挖掘和推荐系统在电子商务中越来越重要。

一、数据挖掘技术简介

数据挖掘通常被又称为知识发现,一般指从大量的数据中,通过一系列的技术处理,发现有特殊关系的信息的过程。主要有数据准备、数据挖掘、结果的评价和表达三部分。数据挖掘大部分的时间花费在数据准备上面,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接等。随着收集数据技术的多样性,要处理的数据类型也越来越多,相应的处理技术也随之出现,如web数据挖掘、数据流挖掘、网络动态数据挖掘等。这些都是在基础的数据挖掘技术至上衍生出来的。自然也就不会脱离基础的数据挖掘技术。

1、抽样

抽样是数据挖掘从大数据集中选择相关数据子集的主要技术。在推荐系统中主要应用于从用户中抽取可用的反馈,以用户评分形式来划分训练集和测试集。

2、最近邻

是基于样本的分类,给出一个要分类的点, KNN分类器能够从训练记录中发现K个最近的点。然后按照它最近邻的类标签来确定所属类标签。如果一个样本落入到由一个类标签主导的领域,则这个样本可能属于这个类。

3、决策树

决策树是以树结构形式对目标属性进行分类,将要被分类的数据是由属性及目标值组成。在决策树的生长和修剪过程中完成模型的构建。生长是指根据训练数据构建模型,修剪是指利用验证集对数据模型进行完善、精简和评估。决策树构建代价小,并且对分类未知的对象分类速度较快,特别适合于大数据。

4、贝叶斯分类器

贝叶斯分类器是解决分类问题的一个概率框架,基于概率定义和贝叶斯理论。对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。在没有其他信息的情况下,我们会选择条件概率最大的,此即朴素贝叶斯理论。

5、人工神经网络

人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的并具有自学习和自适应的能力。最主要的优点是做非线性的分类任务,是一种黑盒方法。

6、支持向量机

它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析

7、聚类

聚类是一种无监督学习,在没有先验知识的情况下,对数据进行分类,是为了发现数据中有意义的组。对于传统的低维数据,一般是基于距离进行聚类的,最小化群内距离同时最大化群间距离。但在大数据中,有许多高维数据,有大量的无关属性、数据分布稀疏、数据间距离几乎相等,所以高维数据聚类是一项挑战。主要的聚类方法有K-means聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类。

8、关联规则

关联规则关注于规则的发现,目的就是在一个数据集中找出项与项之间的关系,能够根据事务中其他物品来预测出某个物品,也被称为购物篮分析。

以上几种是核心的数据挖掘算法。随着静态数据挖掘技术的成熟和人们消费行为的变化,越来越多的人在此基础上研究web数据挖掘、数据流挖掘、网络动态数据挖掘等对人们网上行为数据或实时动态数据的在线挖掘。

二、电子商务推荐系统及其问题

消费者在实体店购物会有导购员推荐,相应的在电子商务平台,系统也会为用户推荐。电子商务推荐系统是电子商务平台一个重要的部分,推荐系统模拟导购员向用户提供商品信息,帮助用户找到所需的商品,这样可以有效地吸引用户,增加销售量。现在的电子商务推荐系统出现了“您最近浏览过的”“猜您喜欢的”“购买过该商品的用户还购买了”“您收藏的”等推荐。

在数据挖掘技术的基础上,根据推荐思想的不同,提出了几种不同的推荐系统。目前互联网电子商务网站的推荐服务中一般有基于协同过滤的推荐、基于内容的推荐和基于关联规则的推荐三类推荐算法,随着研究的深入,也出现一些新的推荐算法。

1、基于协同过滤的推荐算法

该算法利用用户过去浏览商品的历史信息,采用相似统计的方法计算用户间的相似性,将相似性较高的用户作为邻居,根据兴趣爱好相似的邻居用户对其他产品的评价来预测目标用户对特定产品的喜好程度。该算法又可细分为两类,一是基于记忆的协同过滤,根据用户对商品的打分情况,根据打分相似的邻居或商品,推荐相似度高的N个商品,即产生最终的top-N。二是基于模型的协同过滤,该方法对已有历史数据进行应用统计和机器学习得到一个模型,再利用此模型进行预测。

基于协同过滤的推荐算法会面临冷启动问题,即如何对新用户或新商品进行推荐,系统中没有新用户或新商品的信息从而找不到相应的邻居,自然也就无法对其进行推荐。此外还有打分稀疏性问题,很多用户不会对已购商品打分,因此造成无法收集打分信息。

2、基于内容的推荐算法

系统依据用户已选择的商品的特征信息建立更新用户特征,利用用户特征与商品特征计算用户与商品间的相似性,进而得到用户所感兴趣的商品,并推荐给用户。

基于内容的推荐算法可以处理冷启动问题,即根据用户或商品的配置文件进行推荐,因而也不需受打分稀疏性困扰。但是,对于多媒体数据的特征的提取受到获取技术的约束。此外,推荐的多样性难以保证。

3、基于关联规则的推荐算法

基本思想是首先找出所有频繁集,这些频繁集出现的频繁度要满足预定义的最小值支持度。然后由频繁集来产生满足最小支持度和最小置信度的强关联规则。在商品销售记录中寻找相关性,以此来制定销售策略,最常用的是“支持-置信度”分析。

基于关联规则的推荐算法不需要专业知识,也易于发现新的兴趣点。但是对于关联规则的抽取较为耗时,同时可能由于商品名相同而影响推荐的效果。

4、混合推荐算法

基于协同过滤的推荐、基于内容的推荐、基于关联规则的推荐等在实际应用中都会有各自的缺陷,为了弥补推荐中的不足,可以将各推荐方法结合在一起使用。可以单独使用推荐系统,将推荐结果进行组合推荐,也可以以其中一个为主要的推荐算法,融合其他推荐算法,以弥补推荐中的不足。

5、其他推荐算法

随着人们对推荐系统的关注,越来越多的推荐算法被人们提出。基于知识的推荐,在推荐中加入专业知识;基于人口统计的推荐,在推荐时考虑用户信息,如地理位置,年龄等;基于网络结构的推荐,考虑用户与商品的选择关系;基于社会网络分析方法的推荐等。

本节主要介绍了电子商务推荐系统的基于协同过滤、基于内容、基于关联规则和混合推荐算法,以及随着人们认识和技术的发展提出的其他的一些推荐算法。同时随着技术的发展,为

了能满足用户的各种需求,提高商家的销售量,人们越来越关注于推荐结果。推荐的准确度、推荐列表的流行性和新颖性成为主要评测推荐系统的指标。如何提高这些推荐指标性能成为关键。

三、数据挖掘在电子商务推荐系统中的应用

数据挖掘通过一系列的方法、模型、算法从大量数据中挖掘出有关联的数据。通过进一步的整理分析,即可由系统推荐给用户。所以说推荐的过程就是数据挖掘的过程。数据挖掘的具体步骤随着应用领域的不同而不同,即便是在同一领域中,同一分析技术也会因使用方法、知识运用的不同而不同。每一种推荐系统都有其优势和劣势,数据挖掘技术亦是如此。所以在实践中,很多都是应用几种技术和方法,让其发挥长处,同时也弥补缺点。

在目前的推荐系统中基本都能满足以下这几种推荐:根据用户的搜索关键字进行推荐;找到与用户有相同喜好的邻居进行推荐;根据用户喜欢的商品推荐与其类似的商品;推荐流行性的商品。但是这些推荐只能满足用户已表现出来的喜好,而不能挖掘用户潜在的兴趣爱好,即新颖度低。向目标用户推荐其有潜在兴趣但不知道的项,相对于准确性推荐,新颖性推荐能够更好地拓展用户兴趣,并使得相对小众不流行却能创造巨大价值的项更多地被推荐。以下是针对目前电子商务推荐系统挖掘用户潜在兴趣爱好问题提出的情感标签匹配、偶然性推荐、建立虚拟社区等理论上方法:

1、情感标签匹配

在算法推荐的过程中可以合理使用协同过滤找邻居群推荐和基于内容的推荐中的用户和商品配置文件。在此基础上,可以根据购买历史的商品特征建立用户的情感标签,同时也建立商品的情感标签。根据用户和商品的情感标签,使用KNN算法找到相同或根据关联规则发现关联度较高的标签的不同类商品。例如一款最新版手机,可以根据它的价位、功能、外观等对其建立情感标签,如果被标签“外观控”、“追求高品质”等,则在此标签的基础上结合该用户的基本信息和购买历史判断其职业、性别、消费水平等,挖掘有相同或关联度较高标签并符合消费水平和身份需要的商品进行推荐。

这就需要系统事先建立情感标签库,在给用户和商品标签时从中选择即可,这样保证了标签的一致性,便于匹配。一旦商品和用户被标签,就需要系统根据分类算法自动将其分类,这样便于推荐时的操作。此外还要实时更新用户和商品的情感标签。另外基于语义的标签界限是模糊的,可以将相交的标签或根据贝叶斯分类器计算出经常一起出现的标签排在一起,一并推荐。

2、偶然性推荐

用户在平台的行为大多是基于一定的目的,即根据已知兴趣偏好进行搜索浏览,但用户可能会在浏览时偶然发现新颖的商品。用户在浏览某一感兴趣商品时,发现页面推荐中存在没有接触过的商品,可能会点击浏览,在层层链接下,最终会在某一商品处停止链接行为。在链接的过程其实就是用户潜在兴趣发现的过程,最终浏览商品可能是用户在链接行为中最感兴趣的商品。此时,则可根据最终浏览的新颖商品,进行距离测量或KNN最近邻挖掘进行推荐;或根据用户的浏览路径,对每一路径下所有可能的链接进行逐层分析,根据用户每一层点击的商品进行推荐。

3、建立虚拟社区

仅仅根据用户个人行为记录是很难发现其新的兴趣爱好,用户的个人特征除了体现在其个人信息,还体现在其社会行为上。因此可以根据这一特征在电子商务平台建立Web虚拟社区为其提供一个沟通交友的平台,以便用户发现感兴趣的商品。

首先,在虚拟社区中,可以根据用户基本信息、购买历史等,初步分析用户年龄、职业、消费水平、购买领域等。系统可根据分析结果,向用户综合推荐符合其基本特征、消费水平的与已购买领域不同类的商品。

其次,在该社区,用户可以关注感兴趣的商品、话题、其他用户,如果用户频繁浏览或浏览某一内容时间较长,则说明用户可能对该商品感兴趣,但购物车中没有该购买记录,则可能因为某些因素,如价格较高且找不到心仪价格的类似商品,则可根据挖掘用户的消费水平信息,计算出用户对于该类商品可能接受的价格,向其推荐符合其消费水平的与该商品同一类的其他商品或类似的替代品。

再次,用户还可以根据已购买的商品,进入以该商品为中心的圈子,在该圈子中,都是同样购买过或关注该商品的用户。所有的用户可以创建话题、评论等,也可以互加好友。系统则可以计算用户间交流的频繁度和关键词,如果频繁度高且出现“好”、“棒”等正向关键词,则可说明两用户的兴趣偏好之间存在某种程度的相似性,但两者兴趣偏好不可能完全相同,可能由于两者生活环境等不同造成的接触面不同,因而存在差异。但是就像喜欢音乐的部分对乐器也感兴趣一样,用户B喜爱的商品也可能是用户A感兴趣的。所以,可根据正向相似性高的用户B购买或感兴趣而用户A没有购买过或关注的其他商品向用户A推荐。

此外,系统还可随机向用户推荐新的商品、话题,根据用户的反馈再进一步分析其兴趣偏好。若用户删除此推荐,则不再进行该类商品的推荐。若用户表示喜欢或默认,则可进一步计算商品间的距离,推荐此类其他流行度较低的商品或与其关联度较高的、流行度较低其他类商品。好的推荐列表应包含不太流行、不易找出、有价值的新颖物品,可用平均流行度来衡量,流行度越低,代表推荐项目越新颖。

结束语

虽然电子商务推荐系统已有广泛应用,但还是存在冷启动、稀疏性、推荐准确性、多样新等推荐系统都存在的普遍问题,另外针对电子商务的网络经济特点,推荐系统可以发挥自身优势最大化满足用户和商家的需求。提高推荐系统的性能实际上就是对数据挖掘技术的改进,因此如何利用各数据挖掘技术的特点,对其进行有效的组合和改进成为目前电子商务推荐系统的重点。

参考文献:

[ ]胡中飞.基于数据挖掘的网上商城个性化推荐模型研究[D].重庆:重庆工商大学研究生院,2015.5

[2]邹飞.电子商务推荐系统的关联聚类协同过滤算法研究[D].大连:大连海事大学,2015.6

作者简介:

贾贵娴 (1996.11-),女,河北大学管理学院 071002 本科生。

(作者单位:河北大学管理学院 河北保定市 071000)

因篇幅问题不能全部显示,请点此查看更多更全内容