基于LDA模型的电商用户评价分析

时间:2023-07-12 09:35:04 来源:网友投稿

杜 利

(北京邮电大学 经济管理学院,北京 100876)

随着互联网和电子商务的建设发展,人们日常生活的消费购物服务方式发生了巨大的变化。中国互联网络信息中心(CNNIC)发布的《第47次中国互联网发展统计报告》[1]指出,截至2020年12月,中国移动互联网用户已经超过9.89亿人,网上虚拟购物用户也达到7.82亿人,比2020年3月增加7 215万人。2020年,全国网络零售额总量达到11.76万亿元,比2019年增长10.9%。随着网络购物规模和频率的不断增加,越来越多消费者也习惯在商品购买结束后发表评论,包括个人观点、情感信息、使用体验、价格、商品物流等内容感知[2]。相比于传统的市场需求调研,在线产品评论一般不受工作时间、地域、职业差异等影响,用户对产品特性和产品服务的改进要求,均能得到直观展现,能够较为客观、全面、及时地反映当前市场需求变化。

图1 网络购物用户规模及使用率

对消费者来说,这是一种反馈意见的方式,同时,也是一种信息获取方式,通过了解商品质量和售后服务来影响购买决策。对于商家来说,与用户之间的互动不仅可以帮助用户选择,增加用户粘性,还可以收集和分析在线用户评论内容,改进自己的产品,加强内部管理,提高竞争力[3]。

本文利用Python采集Apple京东自营旗舰店的iPhone12商品在线文本评论数据,将文本挖掘处理碎片化、非结构化的电商网站评论数据,转化为结构化数据。参考知网发布的情感分析词汇集,统计评论数据的正负情感指数,进行情感分析,通过词云图直观查看正负评论的关键词。最后,通过潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,了解用户的需求、意见、购买原因、产品的优缺点等,提取评论的关键信息,提出提高用户满意度的建议。

1.1 数据采集

以来自京东的Apple旗舰店数据,选择最近流行的手机产品,找到网页源码地址,使用python的Json对页面内容进行分析,并在2022年6月26日前循环爬取该产品的所有用户评论,共4 530条。根据用户名、评论内容、购买时间、点赞数、回复数、评分时间、手机型号,将获得的商品数据写入CSV格式文件中。

1.2 数据预处理

由于原始评论数据上的重复评论和自动评论都会影响数据分析和结果,导致数据分析与实际情况间的偏差,因此对数据的预处理至关重要。结合系统原始评论数据,删除所有自动评论和重复评论,共删除1 077条评论,剩余评论3 453条。继续对目标文本内容进行预处理,对目标文本进行分段、分句、分词、词性标记,并删除文本中的停用词。

1.2.1 数据清洗

数据清洗是通过软件对数据重复信息进行信息审查与判断处理和数据校验分析的综合过程,目的在于删除重复数据或错误信息,保证数据一致性。

表1 部分数据清洗结果

1.2.2 文本分词和词性标注

经过对上述评论的文本内容进行处理后,需要对该评论的文本内容进行中文分词,确定情感分析结果。中文做分词远比英文做分词更加复杂,英语句子结构中单词是可以用空格来进行分隔处理的,而汉语没有空格[4]。为了解决这个问题,需要处理好评论中需要使用到的各种文字标记,然后去做中文分词。分词编码和词性标注处理后产生的最终结果如表2所示。

表2 分词及词性标注部分结果

1.2.3 去除停用词

评论大多也是口语化的,会有很多如"啊""呃"或"在"之类的词。这类叫停用词,不能体现主题。停用词可能没用,但它出现的频率可能很高。如果不能够予以处理,会导致在一定程度上影响实验结果[5]。

1.3 词云图

经过上述的文本数据预处理后,再对处理生成的评论数据进行词云分析,如图2所示。可以看出,消费者提到最多的四个词是“好看”“速度”“喜欢”“拍照”。可见大部分消费者主观上仍然是十分认同这次消费的,苹果作为智能手机的龙头厂商,实力雄厚,名副其实。商家可以通过词云了解用户的需求,也可以让用户对产品有一个整体了解,帮助用户在购买前快速提炼评论内容。

图2 词云图

2.1 评论数据情感倾向分析

情感分析是自然语言处理的相关分支领域,其主要任务是分析某个单词、段落内容或一篇文章中所包含的情感色彩。过去在有人要购买某商品时,往往就会事先向亲朋好友询问有关该件商品的使用感受,然后才选择是否购买。每个评论往往都是包含着消费者对商品的基本情感取向,购买者们往往会根据这些评论进行理性选择。任何一种评论风格都会影响购买者个人的购买意愿,因此进行情感分析显得尤为重要。

2.1.1 匹配情感词

情感倾向也叫情感极性。在用户对商品进行留言评论过程中,可以直接了解该用户对该款商品看法的态度是支持、反对还是中立,通常称为积极情绪、消极情绪和中立情绪。由于本案例主要分析产品本身的一些优缺点,所以只需要去确定每个用户对于评论内容的主观情感倾向,不需要具体分析每条用户评论内容的情感程度。

分析评论的情感倾向,首先是情感词匹配,主要是词典匹配。本案例中使用的正面情感词汇是来自我国于2007年10月22日在知网发布的《用于情感分析的词汇(Beta版)》。将“中文正面评论”和“中文正面情感”这两个词汇组合起来,给每个组合词设置初始权重为1,就是本案例的正面评论情感词汇。将“中文负面评价”和“中文负面情绪”这两个词汇组合起来,给每个词增加初始的权重-1,作为本案例的一个负面评论情绪词汇。

一般基于词汇的情感分析方法往往与情感词汇中的词有很强的相关性。如果情感词汇中的词语足够全面,并且词语符合案例场景中所表达的情感,那么情感分析效果会更好。对于这个案例场景,需要对知网提供的词汇进行优化。比如“高赞”“超值”“差评”“五分”等词汇,只有在网购评论中出现时,可以根据词汇的情感倾向,添加到相应的情感词汇中。在积极情绪词汇中加入“满意”“赞美”“很快”“ok”“很值”“很有力量”“支持”等词汇。在负面情绪词汇中加入“差评”“贵”“高”等词汇。

在正面和负面评论的情感词汇中读取,正面词的初始权重为1,负面词的初始权重为-1。使用Merge函数,根据单词将情感词汇与分词结果进行匹配。

2.1.2 修正情感倾向

情感方向修正法主要是指根据情感词中是否存在着同一否定词,去判断其情感值正确与否,由于汉语词汇结构中,存在着奇数否定词,表示否定的意思,即当这一否定词连续出现奇数次,表示这是一个否定的意思;或当否定词出现偶数次时,表示为肯定的意思。

本文中使用到的否定助词表中共有19个否定词,分别记为:不、没、无、非、莫、弗、毋、未、否、别、無、休、不是、不能、不可、没有、不用、不要、从没、不太。

读入否定代词表,对情感值的方向进行修正。计算出每条评论信息的情感得分,将评论内容分为正面评论和负面评论,并据此计算出情感分析的结果的统计准确率。运行代码,可得正面情感评论词云如图3所示,负面情感评论词云如图4所示。

图3 正面情感词云

图4 负面情感词云

为了找出产品评论文本之间蕴含的语义关系,分析其产品属性特征的差异优劣,有必要系统地对这些评论的文本语义进行进一步的综合提炼,挖掘评论文本中包含的主题词。

2.2 文本评论的LDA主题分析

2.2.1 LDA模型介绍

LDA模型是一种主题模型。它通过分析每篇文档中使用的每个文本主题类型,抽取出代表它们概率特征类型的文本主题,可以进行文本主题的聚类分析或文本主题分类[6]。它实际上是一种典型的词袋模型,即每一篇文档内容均是由某一组词所构成的,词组之间完全没有任何时间先后顺序的关系。建立LDA主题模型,首先需要建立词典及语料库,方可进行主题分析。

2.2.2 寻找最优主题数

基于相似度的自适应最优LDA模型选择方法,确定主题数并进行主题分析。实验证明该方法可以做到不需要人工调试主题数目的情况下,用相对少的迭代,找到最优的主题结构[7]。

使用LDA主题模型,找出不同类型的主题数下相同的主题词集;并且从每个主题模型上随机取出了若干个主题词(比如前100个),合并成一个集合;生成任何两个主题间的词频向量;计算两个向量数的余弦相似度,值越大表示越相似;计算主题数的平均余弦相似度,寻找最优主题数。运行代码可得主题间的平均余弦相似度图,如图5所示。

图5 主题间平均余弦相似度

由图5可知,对于正面评论数据,当主题数为1或2时,主题间的平均余弦相似度达到最低。因此,对正面评论数据做LDA;
对于负面评论数据,当选择的主题数为3时,主题间平均余弦相似度达到最低。因此,对负面评论数据做LDA,可以选择主题数为3。

2.2.3 评价主题分析结果

根据主题数寻优结果,使用基于Python框架的Gensim模块对正、负面评论分析数据并分别构建LDA主题模型,设置主题数为3经过LDA主题分析后,每个主题下生成10个最有可能出现的词语以及相应的概率,可得LDA主题分析结果如表3、表4所示。

表3 手机正面评价潜在主题

表4 手机负面评价潜在主题

表3反映了手机正面评价文本中的潜在主题。主题1中的高频特色词主要关注速度、流畅性和操作性,主要体现手机的平稳运行。主题2中的高频特征词,即重点主要是喜欢、满意等,主要体现了手机的良好质量和令人满意的产品;
主题3中的高频功能,即屏幕、好看、颜色等,主要体现了手机的美观外观,其基本功能如拍照、发声等都很好。

表4反映出手机负面评价文本中包含的潜在主题,主题1文本中包含的高频特征词的主要关注点在贵、价格等,意味着有部分消费者对手机价格过高而产生不反满;主题2中高频特征词则主要与外观、屏幕这几方面,映产品质量也确实存在部分问题;主题3中的高频特征词主要与客服、信号有关,即主要反映的是手机售后产品质量存在某些问题。

基于以上对主题和高频特征词的分析,这款手机的优点是:外观好,产品性能优秀。相对而言,用户对手机的抱怨主要体现在手机价格高,部分手机质量管控不到位。

本文向读者展示了使用Python处理电商文本数据。通过使用Python爬取案例数据,对文本数据进行预处理、分词、去停词等操作,在知网情感词表上进行优化,并基于词表进行情感词汇分析。最后,利用LDA对案例好评率和案例差评率进行主题分析。通过对手机用户情感倾向的分析,探索产品的优劣势。

对此,提出以下对策建议:由于电子产品是在线上销售,消费者在购买手机前无法检查手机产品质量,因此商家们需切实加强售后质量控制、及时将手机消费者的需求反馈给制造商,使制造商可以及时调整以迅速适应终端市场,并能够在终端产品设计中应用人机交互功能,实现终端销售的增长目标;客户服务态度是促进销售成果转化率的关键,加强客服人员的专业培训辅导和日常考核是提高客户满意度和促成销售的重要方式;供应商应主动加强与其他物流企业的业务合作,实时监控物流中产品库存状态,确保货物安全快速地送达客户。

猜你喜欢分词词汇文本分词在英语教学中的妙用校园英语·月末(2021年13期)2021-03-15本刊可直接用缩写的常用词汇中华胰腺病杂志(2021年1期)2021-02-26一些常用词汇可直接用缩写山东医药(2020年34期)2020-12-09在808DA上文本显示的改善制造技术与机床(2019年10期)2019-10-26本刊可直接用缩写的常用词汇中华胰腺病杂志(2019年4期)2019-08-29结巴分词在词云中的应用智富时代(2019年6期)2019-07-24结巴分词在词云中的应用智富时代(2019年6期)2019-07-24基于doc2vec和TF-IDF的相似文本识别电子制作(2018年18期)2018-11-14文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻小学教学参考(2015年20期)2016-01-15如何快速走进文本语文知识(2014年1期)2014-02-28

推荐访问:模型 评价 分析

最新推荐
猜你喜欢