作者:张晓婷、吴晓倩、郑婕(中南民族大学,20级商务大数据分析与应用实验班)
一.项目介绍:
1. 项目背景:
大约在2020年底,内卷一词突然在网络爆火,这其实意味着当年经济下行相当厉害,反映到社会上就是让人感觉社会资源的存量竞争已经异常激烈,当然,要说内卷其实早在996这个概念爆火的时候就已经出现,只是2020年经过疫情冲击之后内卷突然一下子加速,让人猝不及防。
2021年年中,躺平一词突然爆火,这说明在极度内卷的竞争环境下,年轻人已经开始灰心懈怠,开始急流勇退,在无法开源的情况下,转而去降低自己的欲望,这意味着中国正在向低欲望社会逐步演进。一般情况下,一个国家的年轻一代总是最斗志昂扬的、最有拼劲的,如果他们都集体躺平,这个社会经济可能已经盛极而衰。
几个月后,摆烂一词又爆火。所谓摆烂,简而言之就是“死猪不怕开水烫”,破罐子破摔,爱咋咋地。如果说躺平可能还有一种调侃的意思,那摆烂就是直接放弃了,认命了,这已经从量变到了质变。潜台词是在现实的巨大压力面前,年轻人深感自己无能为力,与其痛苦争取,不如自甘堕落,放弃拼搏和梦想来得更加坦然。
到如今孔乙己文学的盛行“学历不但是敲门砖,也是我下不来的高台,更是孔乙己脱不下的长衫”这几天一句“失意书生”的独白登上了热搜,引来了大量年轻人的共情,他们说:“少年不懂孔乙己,读懂已是书中人。" 孔乙已脱不下的长衫”这个夜,源自鲁迅写于1918年的同名小说里的一句话——"孔乙已是站着喝酒而穿长衫的唯一的人”。长衫是封建社会知识分子进入士绅阶层的常服,久而久之,便被当作读书人的标志性符号。在这篇小说里,孔乙已满口之乎者也,却未能如愿考取功名,潦倒以终。因是穷书生,他无钱坐在那里喝酒,站着喝酒而着长衫,是他心底的坚持和倔强,以此强调自己读书人的身份。
时隔100多年,当代一些青年人与孔乙已有了相仿的心境,年轻一代深感读书无用,壮志难酬,甚至连最普通的岗位都争夺得相当激烈,自己可能满腔热血,经纶满腹,却无用武之地,只能屈服于生存的压力,做着蝇营狗苟的工作,这是年轻人的悲剧,也是社会的悲哀。在某社交平台#脱不下长衫的孔己己#话题下,有人诉说着"985硕士如何把一手好牌打得稀烂",有人留言说,"如果我没有上过大学,那我一定心安理得的去打螺丝。可是没有如果。"在这个竞争激烈的时代,工作节奏快、生活压力大,奔跑冲刺成为常态,"根本停不下来"。概言之,孔乙已脱不下的"长衫”反映了很多人在就业和工作过程中出现的"期望匹配不上现实”的困境。当骨感的现实支撑不起丰满的理想,一些人就会陷入精神内耗。这个"长衫”成为一些年轻人焦虑无奈的象征。
一个不容回避的问题是,一部分年轻人自比"孔乙己",这种共情效应背后,不只是具体的个人的问题。社会需要设身处地去倾听年轻人内心中真正的那股清泉要流去何方,在这个“孔乙己时代”是真的有所谓的“书架子”,还是只是想让有才能、有思想的自己尽可能去发光发热,他们跟从自己的内心去做了吗?我们的社会是不是该多多理解、善待他们,给年轻人多减减负、加加油,协助其走出暂时的困境?还是说作为年轻一代的我们该管理好自己的心态,不自怨自艾,有心中的那份"清澈”和坚韧,跨过一道道坎,或许就会迎来一次蜕变。我们不得不发出疑问,孔乙己背后究竟有那些事儿?
2. 项目意义
根据近期火热的“央视网谈孔乙己”话题,联系到现在大环境下就业状况,最近几年,我国高校毕业生规模持续攀升,2022年高校毕业生人数达到了1076万,创出历史新高。同时,由于经济下行压力加大,就业情况受到冲击,找一份专业匹配且待遇尚可的工作,肉眼可见变得越来越难。即使找到工作,也要为收入下降等不确定性焦虑。发现大家在这其中最在意问题就是:不愿放下身段,也不是好吃懒做不愿意工作,是我的辛苦劳作得不到我合理的劳动所得。
本次研究通过对相关热门微博话题、热门评论爬取以及关键词提取,将爬取的数据进行了数据分析与探讨,并且将所得的大量数据进行情感分析,目的在于获取大家对该话题的态度以及反映当下存在的就业环境的问题。对于这些问题提出一些相关的建议,希望在以后的就业环境、职场环境能在一代又一代人的发展中更得更好更人性化。
二.研究方法与理论思路
#央视网谈孔乙己文学#谈到正视“孔乙己文学”背后的焦虑,从中圈出几个关键词,“陷入生活的困境”,“放不下读书人的架子”,“不愿意靠劳动”,根据这些词可以看出官方想宣扬一波“职业不分高低贵贱,体力劳动不丢人”。但是我们发现这个话题加上“孔乙己”这个概念,叙事的口吻和立场立马在网上引起一波轰轰烈烈的讨论。众所周知,近几年经济不景气,就业率持续低迷。每年却有超过千万大学生毕业,“毕业即失业”成为常态。于是有了热门的比喻,自己是“孔乙己”,大学毕业证是“长衫”,在日益内卷的环境下,找不到对口的工作,又不愿意浪费这些年的寒窗苦读。
因此引起了更多人思考,也反映了当下就业环境的问题以及大学生就业观存在的偏差,人们到底如何评价“孔乙己文学”?大学生真的能够“脱去长衫”吗?“脱去长衫”生活会变得更好吗?人们理解的“长衫”实质到底是什么?人们应该如何面对当下的就业大环境?“孔乙己文学”突然爆火的真相是什么?我们应该有怎样的反思与建议。
根据以上阐述的问题,我们搜集了大量的数据,通过对微博#央视网谈孔乙己文学#话题中所有热门话题内容的爬取,再将一些热门话题下的评论进行爬取,得到我们所需要的数据。将获取的数据进行数据清洗,jieba分词,用哈工大停用词表去除停用词,最后将清洗完毕的数据进行数据分析,首先进行了词频统计,再将分词的情况对数据可视化生成词云图。其次,再将数据进行情感分析,将情感分析结果可视化输出。最后建立LDA模型和社会网格图进行相关分析,以帮助我们获取探究结论。
具体涉及到理论方法如下:
(一) 文本情感分析
文本情感分析是在自然语言处理技术(NLP)中最常见的应用,是以解析文字情感内涵为目的的分类方法,对具有情感色彩的主观性文字加以分析、处理、综合与推理,以辨别出文字使用者主观的情感、心态与看法。
目前研究中通常用的两类情感分析方法是机器学习法和情感词典法。采用情感字典的研究方式一般从待分类文本中寻找特殊词语,包括情感词语、态度词汇、否定词等,进而再从情感字典中寻找每个特殊词语的情感价值,最后再按照所累加的情感价值进行情感分类。我们通过调查以微博中关于用户对孔乙己相关话题和评论进行文本情感评价数据,运用SnowNLP 技术与情感词典的分析方法深入地研究进行了对用户细粒度文本的情感评价解析和分类,并通过与LDA 模式研究相结合,详细地分析研究了用户情感评价过程中存在的各种正负主题现象并深入探究了其深层次内在的成因,以科学的计算和可视化的手段来将研究结论系统地进行了呈现。
(二) LDA 主题挖掘
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题 和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“文章以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征,因此我们可以使用LDA来生成我们值得研究的主题,这里我们依旧选取评论数据来展示。
通过LDA 主题模型提取用户微博话题和评论主题,构建了基于用户感知维度的研究识别框架模型,对孔乙己的相关话题进行情感主题挖掘,以及主题关联分析,最终识别出相关的三大类主题,来分析“孔乙己文学”爆火背后的社会现象。因此,本文将主要在 LDA 主题模型和情感词典视角下对“孔乙己文学”主题挖掘和研究。
(三) 共现语义网络
共现语义网络能够展示不同关键词语同时出现的频次,能反映不同词组之间的相关程度和联系,不同词组间共同出现的频率高,说明该词语所蕴含的情感和所覆盖的范围是极其相像的。通过总体评论的共现分析,挖掘关键字之间更深层次的关联系,进一步刨析“孔乙己文学”背后的社会现象。
三.基于情感分析和LDA模型的话题评论挖掘模型实现
(一) 研究总体框架

(二) 数据采集和数据清洗
1.数据的采集
本次研究主要爬取了微博相关#孔乙己文学#话题贴下的话题内容以及热门话题下的评论作为数据进行数据处理与分析,利用python爬虫对微博数据进行爬取,我们爬取了微博话题内容和话题下评论数据共近五千条,具体部分数据情况如下图所示。

2 . 数据预处理
我们将爬取的数据分成了三部分,分别是话题下的评论,各种话题以及单拧出来的带有年轻人的话题(爬取某个只有年轻人相关的孔乙己的话题下),将他们都保存在文本文件中,利用jieba库对其进行分词,用停用词表去除停用词,我们使用的是哈工大停用词表,处理过后发现还有一些重复度很高的词,例如话题的名称,在停用词表中增加一些自定义停用词再进行清洗。

(三) 数据和情感分析
1.数据分析
(1)词频统计
数据处理后对三组数据进行词频统计,筛选出出现次数最多的十个词。

(2)词云图
根据分词情况对数据进行可视化,我们使用python中的Wordcloud对三组数据绘制词云图。

根据词云可知,大部分用户的评论信息都包含“社会”、“工作”等关键词,说明在孔乙己文学背后牵扯较多的话题是社会和工作问题。同一个关键词“工作”表明,在当今社会可能困扰一大批年轻人都是和工作有关,可以看到困住大学生的更多的不是长衫而是如今过度严峻的就业形势,各行业过度饱和导致了就业问题。在词云图中还出现了“选择”、“学历”、“父母”、“希望”等,这说明孔乙己爆火的背后和这些也有一定的联系。
1)就业压力:期望匹配不上现实,甚至连最普通的岗位都争夺得相当激烈,自己可能满腔热血,经纶满腹,却无用武之地
2)父母的期盼:长衫是沉没的成本,是十年二十年的寒窗苦读,个人和家庭付出的时间、金钱、精力,得出来的教育水平。如果选择了脱下长衫就很难再穿起来,因为工作和学习都是逆水行舟,不进则退
3)自己内心的不甘:困住自己的是现实吗?不是,是欲望。
(3)情感分析
我们使用snownlp库进行情感分析,使用命令pip install snownlp即可安装,该库是SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。

在代码执行之后,会生成一个excel文件,里面会显示每条数据的情感得分以及它显示的态度,如图,这里我们选取的对评论的情感分析来展示。

除此之外,还生成一个饼图,对excel的结果可视化,方便我们更直观的看到情感分析的结果,积极评论的判断标准为:情感分大于0.5是积极,反之消极,可以看到积极的态度远大消极态度,这里我们也能看出当代年轻人并不是脱不下长衫,而是因为如今的就业形势导致了他们的就业困难,并非困于学历。

由此我们可以看出大部分人,对“孔乙己文学”的爆火还是持有积极的态度,只有极少部分的人站在中立的角度。特别的我们将年轻人的那一部分拿出来。

两级就比较明显,几乎没有人站在中立的角度。这说明年轻的一代是有自己的想法的,而且想法还比较强烈。但是我们还是可以看出大部分的年轻人还是持有积极的态度,即便现在大环境对他们不是很友好。
(3)LDA模型
LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题 和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“文章以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征,因此我们可以使用LDA来生成我们值得研究的主题,这里我们选取评论数据和其余话题的数据来展示。

对评论进行LDA主题分析,利用pyLDAvis进行可视化展示。准备数据,构建存储分词的列表,num_topics设置主题的个数为4,lda = models.ldamodel.LdaModel()调用模型,使用pyLDAvis.gensim包进行模型保存与加载。
评论数据:
(1)LDA主题一:
根据选取关键词,归纳主题
如:大学生就业问题
关键词:工作,大学生,社会,希望

经研究发现,最多关注度是工作和社会,我们不难发现,现在大学生就业问题确实是一个严峻的社会问题,社会一直鼓励学生读研读博来提高自己的能力,但是毕业后社会又没有足够含金量高、技术性高的岗位入职。本科、硕士、博士近几年都在扩招,但是近几年就业岗位都在减少,导致了就业问题更加严峻。我们不禁会想到一个问题就是教育和就业是否对等的问题,当今社会确实存在一些现实问题即教育与工作不对等是指教育系统培养的人才与现实工作市场需求之间存在不匹配或不适应的情况。深入研究发现这种不对等可能表现为以下几个方面:
1)学历要求过高:一些职业在入门门槛上设置了较高的学历要求,导致许多有才华但没有相关学历的人无法进入该领域。
2)技能不符合就业市场需求:一些行业需要的技能和知识并没有在教育体系中得到足够覆盖,导致毕业生缺乏应用性技能和市场竞争力。
求职困难:一些行业工作岗位数量有限,而应聘者却过多,使得大量毕业生找不到对口工作。
3)快速变化的工作市场:由于经济、科技等方面的快速发展,职业市场需求迅速变化,教育培养的人才跟不上市场的变化也会导致教育与工作不对等。
当代孔乙己脱不下长衫受到社会的一定的影响,面对这种情况,我们的社会要更加包容我们年轻的一代,多一些理解,协助他们走出困境。
(2)LDA主题模型2
根据选取关键词,归纳主题
如:放下架子
关键词:工作,大学生,学历,架子

有部分网友评论,自己脱不下长衫的原因之一是涉及到自己的尊严问题,大部分的人还是很看重自己的学历,深究他们的评论我们不难你发现,他们内心确实有不甘,有部分的人甚至为了读书牺牲了太多玩的时间和放弃了很多想要做的事情。
针对这种情况,我们该做的或许是多一份理解。关于这个主题我们归纳出脱不下孔乙己长衫的原因可能有:
1)教育背景影响:在中国社会,学历被视为重要的社会地位象征和就业竞争力的体现。因此,许多大学生在求职、升职等方面都会对自己的学历抱有很高的期望和重视。
2)自我认同感:大学生们经过了长期的努力和付出,完成了高等教育阶段的学习,这也成为他们自我价值和认同的一部分。因此,对于自己的学历,大学生们可能会产生情感上的认同和依恋,难以轻易放下。
3)社会压力与焦虑:在中国社会中,学历被普遍看作是成功的必要条件。大学生们在社会中承受来自家人、同龄人、媒体等各种渠道的社会压力,往往会感到焦虑和不安,从而更加关注自己的学历水平。
(3)LDA主题模型3
根据选取关键词,归纳主题
如:工资问题
关键词:工作,大学生,工资,劳动法

孔乙己爆火相关的一条评论就是涉及到工资问题,“一个服务员的工资4-5k而一个会计3k”就工资主题做出LDA分析,发现工资问题也是一个老生常谈的话题,当代工资待遇现象是多样化和复杂化的。一方面,一些行业和职位的薪酬水平较高,如信息技术、金融、医疗保健等领域;而另一些行业和职位的薪酬水平较低,如服务业、教育、非营利组织等领域。此外,由于不同地区、不同企业和不同岗位之间存在差异,工资待遇水平也存在较大的差异。同时,随着经济全球化和劳动力市场竞争的加剧,一些公司通过降低成本来提高利润,从而减少员工的福利和薪酬待遇,这种现象在我们国家尤为普遍。大学生们在考虑脱不脱长衫的时候,考虑的一个因素就是工资问题,工资待遇是一个重要的问题,因为它关系到自己的生活质量和未来的发展,孔乙己们也越来越关注市场行情和行业趋势,了解不同职业岗位的薪酬水平,并将其作为选择职业的一个重要考虑因素。这也和他们不敢轻易脱下长衫密切相关,长衫可能是他们中一部分人的唯一的筹码,脱下容易再穿上很难。
所以社会也在尽可能提高各行各业的薪资待遇。
(4)共现网路图
共现语义网络能够展示不同关键词语同时出现的频次,能反映不同词组之间的相关程度和联系,不同词组间共同出现的频率高,说明该词语所蕴含的情感和所覆盖的范围是极其相像的。我们通过统计词频之后,构建出贡献矩阵,然后仔根据共线矩阵构建关系网路。

在对矩阵做一些清洗之后,得到我们想要的关系网。

从关系网中我们可以看出,工作,时代,社会,学历它们之间的关系比较紧密。
这也和LDA模型的出的结论相符合,这说明孔乙己之所以爆火就是反应社会的这些问题,这些问题也是牵涉到年轻人脱不下长衫的原因,显然正如我们研究得出的结果一样,这些关键词之间不是孤立存在的,在一个大的环境下有一定的联系。
1)工作与学历:在现代社会,工作市场竞争激烈,拥有更高的学历可以提升个人的就业竞争力。许多职业对求职者的学历水平有明确要求,因此,工作与学历是紧密相连的。
2)时代与社会:不同的时代和社会背景下,人们对于工作和学历的认识和需求也有所不同。例如,在过去的中国社会中,读书人被视为上层阶级,学历成为了一个人社会地位和财富的象征;而在当今社会,更多重视实践经验与综合素质,而非仅仅看中学历水平。
3)学历与社会:学历代表着个人教育程度和知识水平,同时也反映出社会的整体文化水平和发展程度。在高度发达的社会,更多的人追求更高的学历水平,并通过个人的努力和学习来提升自身的价值和地位。
综上所述,工作、时代、社会和学历之间相互联系,彼此影响和制约,共同构成了现代“孔乙己”社会中不可或缺的一部分。“孔乙己”们应该理性看待,树立正确价值观。
4.项目总结和建议
根据对所有获取的数据分析发现大家最关心的问题还是如今的就业问题,长衫到底是什么呢?大家认为长衫是沉没的成本,是义务教育九年,高中,大学,硕士加起来十九年的寒窗苦读,个人和家庭付出的时间、金钱、精力,得出来的教育水平。所以脱不下的长衫实际上就是接近二十年的辛苦努力,是一个家庭培养出来的一个孩子。那么脱下长衫会生活的更好吗?脱下长衫可能是机会成本,也许可以选择脱下长衫从敲代码转去工地,但是如果选择了脱下长衫就很难再穿起来,因为工作和学习都是逆水行舟,不进则退。
在对数据情感分析中,可以看到更多的人对于“孔乙己文学”以及“脱不下的长衫”是持有积极态度,只是当下严峻的就业形势引发人们的感叹,其中我们发现存在一个严重的问题是很多人认为,读书+上大学=好工作,实际上本应该是,读书+上大学=帮助你尽可能找到一个相对好一点的工作、去见识更多的人和事、锻炼思维能力。
当然从侧面也反映出社会就业存在的一些问题,社会一直鼓励学生读研读博来提高自己的能力,但是毕业后社会又没有足够含金量高、技术性高的岗位入职。本科、硕士、博士近几年都在扩招,但是近几年就业岗位都在减少,导致了就业问题更加严峻。大多数人抱怨市场上留给大学生的工作,一下从“不那么好”的行业,直接变成了,要去各种没有学历门槛,可能也没有技能门槛的工作了。面对当前的就业环境,虽然是我们要保持一个好的心态以及正确的就业观,但是我并不认为大学生对“孔乙己文学”是在抱怨,因为难以脱下长衫,本就是面对这种就业状况的正常心理。高不成,低不就,更多是指,在有一定学历门槛的行业里,一些人看不上基础类岗位,高级岗位又不能胜任。而脱不下的长衫,只是说对于读了高学历毕业出来,依然还要去做高中毕业就能做的工作而不甘。
不过对于如今的就业环境,我认为大学生应该尽快找到自己去面对的办法,让自己的长衫发挥一点该有的作用,虽然如今大环境下社会上没有办法提供给年轻人以足够的与学历相匹配的体面工作是事实。但是在个人改变社会大环境下十分有限的条件下,我们更应该去做好自己的职业规划,改变自己的观念以适应当下的社会。我们的确不愿意脱掉长衫,那么我们就穿好它并且充分利用好它。
关于“孔乙己文学” 背后的焦虑,社会有话要说:当今世界,初入社会的年轻人,在求职和生活中面临较大的压力,很不容易。而“孔乙己文学”背后的焦虑,是生活状态一种正常的情绪性反映。如今早已不是“咸亨酒店”的天下,全社会不会对年轻人的困境袖手旁观。建立公平的就业环境,在用人上不唯学历,保障包括年轻人在内的劳动者的休息权等很多有针对性的问题正在一步步的解决,当代青年正处于人生中最丰富、最具活力、最有冲劲的阶段,是社会发展的中坚力量。在情绪图谱中,“焦虑—羞耻—绝望”是一个闭环。全社会应该协同发力,协助他们走出暂时的困境,走上“焦虑—勇气—希望”的正循环道路。
关于“孔乙己文学” 背后的焦虑,有志青年有话要说:“长衫困不住我们的”。在当今社会就业的大环境下,各种压力确实很大。一方面,于我们自己而言,作为00后的我们,出生的时代确实和我们的父辈们的时代不一样了,读书人数不胜数。作为学习了很多年的学生,我们深知为了现在这份学历自己付出了多大的努力,尤其对于那些从大山里的孩子来说,这份学历更是来之不易。就像那位网友所说,如果我没上过学,我心安理得去拧螺丝,正是因为我们读过书,看过了更开阔的世界,所以才不甘心轻易将所谓“孔乙己的长衫”脱掉。另一方面, 我们不光只为了我们自己,我们身上穿上的长衫或许是父母拧了一辈子螺丝才换来的人,所以与其说我不愿脱下长衫,不如说是不敢。为了让我们穿上这件长衫,父母付出了多少心血,我们身上承载的不仅是自己的梦想,更是一个家庭的期望。我们中的大部分人虽然都有这样的想法,关于“孔乙己”的自嘲,也只不过是没拿到offer时和“孔乙己”产生了片刻的共鸣罢了,我们今天不必纠结于该不该脱下“孔乙己”的长衫,我想应该是我们初入社会,经历的事情太少,我们现在的每一步都在为将来积累经验。我们相信鲁迅创作出孔乙已的形象是在以另一种方式鼓励青年人。遇见深林,可以辟成平地的,遇见叮野,可以栽种树木的,遇见沙漠,可以开掘井泉的。我们相信,"青年人在一番"自嘲”"自况"之后,真正会躺平的寥寥无几,大多还会为更好的未来奋斗。我们相信,青年人朝前奔跑,勇敢追梦,终能找到用武之地。
简言之,社会和当代青年都应当正视“孔乙己文学”背后的焦虑、压力等,拒绝精神内耗,值得我们高兴的是,正如我们研究所得出的结果一样,社会上的大部分年轻人依旧对未来充满无限希望。

注:本项目为2022-23-2学期《商务智能》结课报告。
引用格式:张晓婷、吴晓倩、郑婕,“孔乙己文学”爆火背后的那些事儿,公众号《用数说》,2023.04
更多请阅读
- 大数据挖掘与智能技术
- 商务智能课程教学实践及创新
- 拼图项目式教学设计及其在商务智能课程中的实践
- 能动性学习教学方法探索与实践--《商务智能》授课记录与总结(2020)
- 大数据时代的数据驱动与理论驱动结合的研究生《商务智能》结课作业的相关资料
- 遵循OBE工程教育理念的教学实践与思考-以《最新数据库管理系统》课程为例
- 《商务智能》课程学生作业
- 《商务智能》教师教学日记
- 《商务智能》教师教学总结
- 中南民大21-22-2学期《商务智能》教学总结
荐书(本课程的教材)

《大数据分析与挖掘实用案例教程》正式出版
《商务智能》获批湖北省一流课程
《大数据分析与挖掘》课程上线
(https://www.xueyinonline.com/detail/225725832)