不恰当的媒体报道
不实言论的广泛传播
网络暴力带来的伤害…
你是否也陷入过网络舆情的漩涡?
互联网新媒体的普及
改变了舆论原有的传播方式
使得互联网已经成为了
具有复杂信息传播格局的舆论斗争主战场
研究背景——网络舆情
网络舆情具有
传播速度快、影响范围广、社会影响力大等特点
不好的网络舆论
往往会传播负面和虚假信息
容易响公司、企事业单位的公众形象
引发公众的情绪对立、激化社会矛盾
因此
利用网络舆情数据
对网络舆情进行准确分析和预测
显得尤为重要
然而
舆情转发规模预测机制不够合理
对舆情倾向性的判断准确度不高
对于舆情分析的数据不够直观和多元化…
仍有众多风险问题
时刻发生在网络舆情的战场上
针对这些问题
实验室的项目团队“打完这场就去开高达”
又提出了怎样的解决方案呢?
让我们看看他们给出的答案吧
作品名:《基于微博转发量预测与情感分析的舆情安全监测系统》
项目团队:打完这场就去开高达
指导老师:石兴民、刘雪娇
成员:陈奕涵、薛煜晓、兰莹莹、刘子阳
获奖成果:第十五届全国大学生信息安全竞赛作品赛优胜奖
技术介绍——
没有一个抉择是出于偶然
作品从舆论情感和转发规模两方面入手,以微博数据为基础构建了自动化的大屏舆情安全监测分析系统。为了更好地实现项目,保证预测结果的准确性是重中之重,而要得到理想的预测结果,算法模型与基础数据的重要性不言而喻。对此,团队成员在算法选择与实现上付出了不少努力。
解决思路简述
主要技术:
1.基于随机森林的微博转发量预测模型
随机森林是以决策树为基础学习器的集成学习算法,其层次结构包括数据输入层、采样层、分类训练层、输出层四部分。可对数据进行预处理,并进行自主重采样,创建网络搜索对象,重新分裂以做到对微博转发量更准确的预测与评估。同时根据特征相关性热力图,从微博中提取出特征标志加入到随机森林算法中进行模型训练,从而达到提升预测准确度的目的。
随机森林算法模型
2.基于Bert模型的舆情情感分析
Bert模型是一个预训练的语言表征模型,其结构包括数据输入层、位置编码处理层、学习训练层、残差连接层、输出层。
其算法流程分为位置编码处理和Self-Attention处理两部分。Bert模型通过MLM捕捉舆情词语特征和NSP捕捉舆情句子级别特征预训练,能更准确地对舆情情感做出分析。
Bert模型
3.情感极性分析和多分类模型训练
通过对周情感变化的分析,基于情感值分类积极和消极,得到周情感变化曲线以及情感极性占比。同时对微博用户情感进行详细分类,并统计出各类情感人数占比,可以更清晰准确的得出用户的情感分类图,了解到用户的情感状况。
微博数据抓取与数据集预处理
测试数据
1. 将csv格式的数据进行读取并且存储到云数据库当中,实现站库分离,降低服务器的运行压力,减少了数据安全风险。
2.使用当前流行的JAVA框架——SpringBoot,对数据作简要处理,设计接口将数据库中的数据以json格式返回到前端页面。
后端技术实现
组员感想——
成长的不止是作品本身
随着项目的不断推进,我也深刻认识到了团队协作的重要性,也体会到了老师对我们指导的深刻意义。在赛前一次次的答辩过程中,我们从PPT演讲、系统演示再到答辩都被老师们和实验室的同学们指出问题,再根据这些问题一次次整改。虽然未能在国赛中取得内心期望的成绩,但是经由这个项目所得到的进步和收获,我相信仍然会在今后的学习生活里熠熠生辉。
能够有机会参与到这个项目中来并能一路过关斩将闯入到全国决赛,我感到非常的幸运和开心。在整个项目的开发过程中,我从真正意义上了解了一个项目是如何成型的,从需求分析,功能的初步设计到接口文档的编写,后台程序开发,接口测试再到最后程序的部署上线。同时为了完成我在队伍中的后端开发任务去新学习了很多新的技术,比如跨语言开发、云技术等等。在学习这些云技术的过程中,由于没有现成的视频可以供我去借鉴以及学习,只能通过学习官方文档,不断地摸索与测试。这使得我的自主学习能力有了进一步的提升。
扫码关注
文案 | 队伍成员
排版 | 包乾琳 江 越
审核 | 刘雪娇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...