作者:江玲、郭莹莹、方菲、原晨梦(中南民族大学,20级商务大数据分析与应用实验班)
摘要
小红书中的美妆博主是平台上的重要内容创作者之一,他们通常会分享化妆品的使用心得、美容技巧等内容。一些美妆博主也出现了被罚款或下架,也有一些博主被指涉嫌虚假宣传和造假行为,导致其信誉受损。此外,小红书还在加强对美妆产品广告信息的审核力度,要求博主进行标注,如未标注则可能被认定为虚假宣传行为,这给博主们带来了更多的约束和挑战。
同时,越来越多的素人想成为美妆博主,苦于市场竞争激烈,不具备吸引人的独特风格和内容创作能力,不能花费大量时间和精力,因此无法吸引足够的粉丝和影响力。
就目前的形式而言,对于小红书美妆博主来说,面临的挑战比较大,竞争者较多,如何成为一个优质的美妆博主非常值得去思考。本文为解决这个问题,对博主的属性、相关评论进行爬取,使用RFM的k-means聚类、采用正负面词,网络语与主题分析,LDA模型等方法得出分析结果,给美妆博主提出相关建议。
通过研究小红书美妆博主,可以得到优质博主在社交媒体上获取粉丝的策略和方法,为其他领域的博主、营销人员等提供借鉴。同时,针对小红书美妆博主的问题和挑战提出合理有效的建议,有助于消费者在社交媒体上寻找信息和展示的方式,也有助于我们更好地把握社交媒体时代的机遇,促进品牌和博主之间的互动和合作,提高营销效益和用户满意度。
一 研究背景及意义
1.背景
小红书平台推崇的是用户生成内容为主要内容,该平台的美妆博主不仅仅会发布自己的日常妆容和产品心得,还会不断地和粉丝互动、分享使用技巧和体验。同时,小红书具有社交电商的属性,允许用户直接在平台上购买心仪的美妆产品,这也吸引了更多的美妆爱好者加入其中,从而形成了庞大的美妆博主群体。随着大量的美妆博主驻扎小红书平台,博主的内容质量难以保证,用户更难以选择更加优质的博主,更加容易陷入消费陷阱,所以甄别出优质博主是非常有必要的。作为博主本身发展,平台竞争激烈,更要认真对待内容质量,使自身成为优质博主以获得长期稳定的发展。
2.现实意义
随着社交媒体的普及,博主已成为品牌推广和产品宣传的重要渠道之一。通过研究小红书美妆博主,我们可以掌握他们在社交媒体上获取粉丝的策略和方法,包括内容创作、社交互动等。这些策略和方法可以为其他领域的博主、营销人员等提供借鉴。同时,针对小红书美妆博主的问题和挑战提出合理有效的建议,也可以帮助品牌更好地与博主合作,共同推广产品和服务,最终实现双方互惠互利的目标。
3.理论意义
研究小红书美妆博主并给出发展建议,对于理解社交媒体和数字营销具有重要的理论意义。首先,研究美妆博主的发展路径和策略可以提供有关数字创意产业的启示,包括如何在社交媒体上建立品牌形象、增加用户粘性、提高营销效果等方面。其次,对小红书美妆博主的发展提出建议,旨在促进数字营销和社交媒体领域的创新和发展,为企业和从业者提供有价值的参考和指导。
基于此,我们采用RFM的k-means聚类进行博主画像,并可视化展示聚类结果,对美妆博主进行分类,从博主发帖量频率、登录间隔等方面提出相关建议;采用正负面词,网络语与主题分析,LDA模型等方法对博主的简介,评论,赛道等进行了分析,从博主赛道细分,简介与发帖内容等方面提出建议。
(二)博主分类
1.数据采集与处理
(1)数据选择与采集
小红书社区里内容包含美妆、个护、运动、旅游、家居、酒店、餐馆的信息分享,触及消费经验和生活方式的众多方面。面对数据选择,小红书存在较多的美妆类博主,符合年轻人偏好,契合本次选题,所以选用小红书APP。我们确定博主群体画像构建,对每一类博主进行打标签,每一个标签都从不同的角度描述博主的个体特征,标签越多,用户画像就越清晰。本次对博主的分析从博主的自然属性、内容属性两方面选择博主的标签,如图1所示。

图1 博主画像标签体系
博主的自然属性能够反映出博主的个人基本信息和自己领域,如是美妆博主还是护肤博主等。博主的发帖量和获赞与收藏量为内容属性,由于小红书网页版只能获取获赞与收藏的总量,经过讨论和研究,可以作为一个整体来研究。
对于数据采集的方式,我们采用网络爬虫,利用八爪鱼采集器进行爬取博主基本信息。
(2)数据预处理
使用爬虫得到的数据不能直接进行数据分析,因为数据中存在重复,不完整等问题,无法直接直接进行数据挖掘,得到的结论也不会准确。因此,对数据的清洗整理是必不可少的。用Excel做了时间处理,把日期转化成单位为天的数据。
本次数据清洗,首后进行缺失值处理,删除了整行为空以及‘标签’和‘简介’两列同时为空的数据,其次是重复值处理,去除了数据中用户名重复的数据,最后引入emoji库,过滤emoji表情和非中文字符。

图2 过滤非中文符号的对比图
2. 数据分析与挖掘
(1)RFM 和K-means聚类
RFM 模型由 Arthur Hughes 提出,是营销领域区分用户价值的经典模型。该模型从大量用户数据中区分出有价值的用户,是评价用户价值的重要工具和手段,常被用于研究 用户忠诚度和活跃度。在RFM模型中,R表示客户最近一次消费距离现在的时间,F 表示客户在最近一段时间内消费的次数,M 表示客户在最近一段时间内消费的金额。
根据此模型,将其借鉴到博主行为数据中,形成如图3所示的映射关系。

图3 RFM模型的映射关系
根据爬取数据清洗过的数据,利用最近一次发帖的天数、发帖量、第一次发帖的天数三列数据利用zscore方法进行标准化,z-score是基于正态分布概念的,也称为高斯分布或正态曲线。正态分布是一种常用的概率分布,在统计学中广泛应用,因为许多自然现象,如身高和体重,往往遵循这种分布。通过将观测值转换为z-score,可以比较具有不同单位或比例尺度的不同数据集中的值。标准化后的结果图4所示。

图4 标准化后的结果
标准化后对应的RFM的值的含义如下:如果最近一次的发帖天数(R)的Z-score为负数,则表示该客户最近一次发帖日期距今较长,可能已经流失或处于休眠状态。
如果发帖量(F)的Z-score为负数,则表示该博主发帖较少,可能需要更多的刺激才能继续更新。
如果第一次发帖的天数(M)的Z-score为负数,则表示该博主注册时长较短,可能需要更多的时间刺激发展。
标准化后,我们通过k-means方法进行聚类分析,K-means算法是一种典型的基于划分的聚类算法,该算法具有运算速度快,执行过程简单的优点,在很多大数据处理领域得到了广泛的应用,利用相似性度量方法来衡量数据集中所有数据之间的关系,将关系比较密切的数据划分到一个集合中。并选择最优的簇数。可以使用肘部法则或轮廓系数来确定最佳簇数。通过肘部法则的结果如图5,采集到的数据可以分为4类。

图5 肘部分析结果
确定簇数为4,通过K-means算法对数据进行分类且加入标签,得出最终的聚类结果。并通过三维散点图直观展示数据。可以将数据点在三个维度上的分布直观地展示出来。通过对数据进行聚类并用不同颜色或符号标记,可以清晰地看到不同聚类之间的边界和相对位置关系,帮助人们更好地理解数据结构和特征。

图6 三维散点图
通过模型训练对于新的数据可以进行预测属于那一类的范畴。
3.博主画像可视化展示
根据k-means聚类分析和博主的属性,可以分为四类博主:潜力活跃博主、潜力新生博主、潜力潜水博主、流失新生博主。具体内容如表1.
表1 博主分类结果

(1)流失新生博主
即最后一次发帖距今时间高于均值,第一次发帖距今时间和发贴数量低于均值的博主。这类博主相对来说注册时间较晚,发贴数量较少并且不经常使用小红书。

图7 流失新生博主名称词云图
(2)潜力新生博主
即最后一次发帖距今时间低于均值,第一次发帖距今时间和发贴数量低于均值的博主。这类博主相对来说注册时间较晚,发贴数量较少但是经常访问小红书。

图8 潜力新生博主名称词云图
(3)潜力活跃博主
即最后一次发帖距今时间低于均值,第一次发帖距今时间和发贴数量高于均值的博主。这类博主相对来说注册时间较早,经常使用小红书并且发贴数量较多,已经是小红书的稳定用户。

图9 潜力活跃博主名称词云图
(4)潜力潜水博主
即最后一次发帖距今时间低于均值,第一次发帖距今时间高于均值,发帖量低于均值的博主。这类博主相对来说注册时间较早,经常使用小红书但是发贴数量较少。

图10 潜力潜水博主名称词云图

图11 平行坐标图
平行坐标图展示类和IP地址之间的关系和分布。通过对数据进行聚类并用不同颜色或线条粗细等方式标记,可以清晰地看到不同类之间的边界和相对位置关系。
4.博主分布
首先,通过excel将博主分布地区的ip地址进行处理,用数据透视表对不同地区博主的数量进行统计,接着通过echarts呈现出不同的彩妆博主的分布地区及其聚集地,从而可以看出相应博主主要聚集在沿海地带以及一线城市,相应地区经济发展较好,且有各种网红聚集。(地图就不展示了)
(三)LDA主题模型及回归分析
1.数据采集与预处理
(1)数据爬取
通过八爪鱼爬取了小红书上的评论数量1551条,以及2000条以“彩妆”、“护肤”为关键词进行爬取的帖子标题、内容、点赞数、评论数等信息。爬取示例如下:

(2)数据处理
1)正负面词云图、帖子词云图
借助于软件“集搜客”对爬取的评论进行情感分析,通过管理情感词典,添加进需要的正负面词语,得到相应的情感分析效果。下图是正面、负面和中性评论所占的比例,从图中可以看出中性词语占的比例最大,占了一半还要多,从而可以看出大多数用户在小红书上的发言还是比较理性的,不做与情感太多有太大关联的评论;接着是正面词语也占了三分之一还要多,可以看出大部分用户还是比较喜欢用小红书的,在发言中也是保持积极的态度;表达负面情绪的词语仅有102个,表示还是有部分用户对于小红书中涉及的产品或者博主等表示消极态度,对于小红书不太认可。

接着,我们将表示正面和负面的词语到出,对于表示正面的词语做了一个词云图,其中,最突出的为最新、最好和自信,表明用户非常关注博主对于新品的介绍和推出,因此相应博主应该注意到自己如果想要发展更好,就要不断创新、更新以及提供新的产品介绍;“最好”表明用户不仅关注上新性,同样非常重视产品的质量,具有好品质的产品才能吸引更多的用户,只有博主推荐的产品是好的,才能成为一个更加优质的博主;“自信”不仅表明了用户对自身的认可,同样提醒博主自信美才是真的美,而不是总是宣传要靠化妆品才能变美,画了妆才能出门,从而也可以导向博主要更加注重对于皮肤的护理和保养,呈现出最美的状态,而不是一味的将化妆品往脸上堆砌。其中还有“自然”、“滋润”、“正品”等表现出来用户对于化妆品的要求,“油皮”、“瑕疵”等表明了用户皮肤的状态,就有更加注重用户的需求才能成为一个更加优质的博主。

下面是对于负向词语的词频统计,从下图可以看出用户大多数的负面情绪体现在不好或者没用,可以看出是对于产品的评价,因此作为博主更应该重视选品,只有自己推荐的产品可靠好用,才能受到更多 用户的青睐。

1.简介网络图以及主题分析

首先将清洗后的简介导入集搜客,然后将“拥有”、“编导”等无实际意义的词去除,进行共词匹配得到共词矩阵,然后将共词矩阵导入到Gephi,设置参数后得到如图所示的共现词义网络图。
该图展示了近560位某书美妆博主的简介中出现频率较高的关联词汇之间的关联性。通过分析这些词汇之间的联系,我们可以更全面地了解到这些博主在内容创作方面的一些特点和偏好。
具体来说,该网络图显示出的“化妆”、“测评”、“干货”、“日常”、“真实”、“私信”等词汇在整个网络中处于核心位置,表明它们是美妆类博主比较重要、热门和频繁使用的关键词。例如,“化妆”和“测评”可以帮助用户了解到博主对化妆品和美容产品的研究和评价;而“日常”则可能指向该博主的生活方式或者个人风格等方面的内容。这些关键词之间相互连接,说明它们不仅是独立存在的概念,也可以通过某些联系相互补充和呼应。
另外,该网络图还显示了“油皮”、“敏感”等词汇与其他关键词之间的联系。这表明这些词汇在该领域内也是比较重要的话题,博主们可能会给出有针对性的建议或分享使用心得。这些关键词还可能指向具体的产品类型或针对特定肤质的建议,这可以帮助用户更快速地找到感兴趣的内容。
毫无疑问,详细且明确的简介可以为用户带来更多的便利,避免无意义的浏览与时间消耗。
换句话来说,新生博主要想发展,清晰明确的定位必不可少。

语义网络之后,本文还对简介进行了LDA主题分析,总结出了美妆类别、种草方式、个人素养、品牌合作、五官特征、肤质、价格、皮肤管理、好物分享、平台同名(多平台发展)共十个主题,“市场来源于需求”,这也说明对于用户来说,这些主题也是用户购买彩妆护肤类比较关注的因素。对每个主题的定义如下所示:
博主的发展离不开对市场需求的分析

2.LDA主题分析(困惑度)
(1)困惑度
爬取数据,清洗数据,构建LDA模型,构建词典,语料向量化表示,绘制困惑度曲线,选择最佳主题数。选择:困惑度越低越好,避免模型过拟合,主题个数也不能过多,结合LDA可视化确定最终主题个数。

(2)LDA模型可视化
通过LDA模型可视化分析,结合困惑度曲线,同时避免过拟合,本文将主题个数选定为5个:
主题一:彩妆分类
根据选取关键词,归纳主题。
通过对内容信息进行特征提取可以得到如下结论,部分博主的视频内容主要是彩妆,包括各式各样的彩妆,比如眼影、腮红、口红、粉底液、底妆、彩妆、睫毛、粉底等,所以对于博主来说同样术业有专攻,如果自己对于彩妆比较熟悉,就可以往彩妆方面发展,会更加稳健,对于自己涉猎较少的方面则慢慢学习,掌握相应信息之后再不断发展。

主题二:产品功能
根据选取关键词,归纳主题。
屏障、成分、功效、功能、效果、补水、水分、油皮、去角质、角质、闭口、痘痘、毛孔、油脂、护理、淡化、黑头、胶原蛋白、水杨酸、紫外线、缺水、换季、抗氧化。
大多数用户选择产品第一考虑因素就是产品的功能,比如换季皮肤干燥,一般就会选择保湿功能较好的产品,角质层较厚就会选择有去角质的功能的产品,因此,对于产品功能了解更深的就会有更多的发展空间

主题三:个人美妆素养
根据选取关键词,归纳主题。
精简、手法、科学、变美、美容、干货、技巧、方法、流程、步骤、习惯、视频、误区、笔记、省钱。
一个人是否可以成为一个好的博主关键是他是否有成为博主的能力,作为一个美妆博主不能自己基本的美妆知识、美妆产品等有哪些都不知道,那怎么可能更好地向用户介绍,因此,要成为一个优质美妆博主,首先是要具备相应的知识和能力。

主题四:护肤分类
根据选取关键词,归纳主题。
精华、面霜、面膜、眼霜
现今用户相较于化妆来说更加注重于护肤,具有好的肤质才能使妆感更好,因此,更偏向于护肤品的博主有很好的发展前景。

主题五:价格
根据选取关键词,归纳主题。
平价、铁皮、学生、新手、年度、大牌、单品、爱用、盘点、购物、爱用物、开箱、国货、种草。
使用小红书的用户学生占大部分,大家对于价格也更加关注,同时又想得到品质、功效较好的产品,因此,能够选取很多大牌平替,价格亲人且产品较好的博主的发展潜质就会更好,但同时对于博主的要求也更高,需要博主了解的更多,同时对于多种产品的质量都有了解。

3.特征值数值化
数值转换规则:各一级维度特征词对应一个变量,将产品功能变量命名为x,美妆素养变量命名为y,价格变量命名为z。各变量的值代表用户对这个因素的关注度,变量值是由各二级特征词在评论中出现的情况根据相应规则进行赋值后求和得到,各组二级特征词的词语赋值规则相同,且若在同一评论出现多次也只进行一次数值处理。若某变量因素为0,则默认赋值2。最后计算x,y,z的几何平均数,得到总分(代表一条帖子的关注度)。
给特征值赋值,取值1-5,具体赋值如下图所示:
4.帖子内容数值转换
通过python直接生成output.csv文件。文件中即有转换的数值结果,通过上述规则,对总分进行计算。
5.多元回归分析

通过输出的系数可以了解到每个自变量(即'product_ability'、'beauty_knowledge'、'price')对响应变量的影响程度。
这个线性回归模型表明,美妆素养和价格与用户关注度之间有较强的正相关关系,而产品功效与用户关注度之间的关系则相对较弱。

模型的拟合度良好。
通过上述回归预测,发现回归模型能够很好地解释数据。接下来通过spss对数据进行线性分析。
6.SPSS分析

德宾-沃森值在2附近,认为样本之间相互独立,独立性较好。

VIF值小于5,认为变量之间不存在多重共线性。且显著值均小于0.05,故此模型符合变量之间的相关关系,相关性显著。
对于通过上述模型,发现:
大多数用户对于美妆类帖子有着较为理性且积极的态度。且最关注的是产品功效因素,包括去角质、痘痘、毛孔、、胶原蛋白、抗氧化等;其次是发帖博主所具备的美妆素养,主要包括:精简、误区、笔记、手法、科学、流程、步骤、干货、技巧、方法等;最后是价格因素,包括学生、新手、年度、铁皮等。
由此可以看出,在小红书这个社交电商平台上,用户对美妆产品的关注主要集中于产品功效、美妆素养和价格等方面。其中,用户最关注产品的效果和品质,因为他们相信好的产品可以带来良好的使用体验和明显的效果改善。此外,美妆素养对于用户也很重要,因为在小红书等社交媒体平台上,软广告和硬广告都很常见,用户已经习惯了看到各种类型的广告和推销内容。与此同时,用户也越来越重视自己的美妆技巧和知识,因此他们也关心博主分享的实用技巧,而不是简单的产品宣传。这说明在当前市场环境中,只依靠产品本身的优势来吸引用户的注意力已经不足够,需要通过有价值的内容来吸引用户并建立品牌信任度。
关于为什么用户对于价格这个因素关注度最低,我们分析可能是以下因素:
在价格方面,尽管它是一个重要的购物因素被用户所关注,但在小红书这个平台上,由于平价产品占据了主导地位,因此价格的变化和波动相对不是那么显著。因此,在回归分析中,价格这个变量可能因为相关性不是那么明显而被归纳到了次要的位置。
综合来看,小红书用户更注重产品本身的效果和品质、美妆素养以及实惠的购物体验。
(四)总结建议
1.定期更新:保持规律性地发布内容,根据读者反馈不断改进自己的博客。
根据博主画像我们分为四类博主:潜力活跃博主、潜力新生博主、潜力潜水博主、流失新生博主。潜力活跃博主和潜力新生博主两个博主更容易成为美妆博主,所以定期更新内容会起到吸引粉丝。
2.输出高质量的内容。
高质量的内容会吸引粉丝浏览帖子,长而久之,会吸引大批对内容感兴趣的用户成为粉丝。因此,真实且高质量的内容是博主长期稳定发展的必要条件。
3.靠沿海城市的博主更容易发展成为优质的美妆博主。
通过地图和平行坐标图分析,可以在图上直观的看出很多优质博主分布在广东、浙江等沿海地区,交通便利、经济发达,所在城市的人民更会关注此类内容。
4.建立自己的品牌形象。
强化自己的风格和定位,能够在自己简介和帖子中展示出自己的品牌形象。良好的品牌形象可以帮助与用户建立高信任度。这说明在当前市场环境中,只依靠产品本身的优势来吸引用户的注意力已经不足够,需要通过有价值的内容来吸引用户并建立品牌信任度。
5.选择不同的赛道。
根据共词矩阵分析结果可知,美妆博主分在不同的赛道,例如有的博主分享各类彩妆、有的只对一类产品进行推荐,选择赛道时定要结合自己的长处,不盲目跟风,选择合适的道路输出优质内容。
参考文献
[1]袁绮蕊.基于K-Means的在线健康社区用户画像模型构建[J].科技情报研究,2021,3(4):95-106.
[2]卓灵,孙昕.一种基于改进RFM模型的数字集群用户分类方法[J].计算机应用研究,2020,37(9):2822-2826.
[3]陈东清,叶翀,黄章树.基于熵权法改进RFM模型的电商客户价值细分研究[J].西安电子科技大学学报:社会科学版,2020,30(2):39-45.
[4]ChatGPT的贡献:过滤Emoji表情、RFM Z-score标准化、K-means聚类结果的可视化展示、数值转换

注:本项目为2022-23-2学期《商务智能》结课报告。
引用格式:江玲、郭莹莹、方菲、原晨梦. 大数据驱动基于RFM模型的美妆博主发展的对策研究,公众号《用数说》,2023.04
更多请阅读
- 大数据挖掘与智能技术
- 商务智能课程教学实践及创新
- 拼图项目式教学设计及其在商务智能课程中的实践
- 能动性学习教学方法探索与实践--《商务智能》授课记录与总结(2020)
- 大数据时代的数据驱动与理论驱动结合的研究生《商务智能》结课作业的相关资料
- 遵循OBE工程教育理念的教学实践与思考-以《最新数据库管理系统》课程为例
- 《商务智能》课程学生作业
- 《商务智能》教师教学日记
- 《商务智能》教师教学总结
- 中南民大21-22-2学期《商务智能》教学总结
荐书(本课程的教材)

《大数据分析与挖掘实用案例教程》正式出版
《商务智能》获批湖北省一流课程
《大数据分析与挖掘》课程上线
(https://www.xueyinonline.com/detail/225725832)