《数智人文实战》专栏将以实战为主,分享数智人文相关的案例100个,旨在帮助初学者和探索数智人文发展。本文主要介绍文献可视化分析软件CiteSpace基础知识,以中国知网《红楼梦》文献为例,开展主题挖掘、关键词聚类及主题演化分析。基础文章,希望对您有所帮助,知识星球提供对应语料和代码。
文章目录
一.CiteSpace介绍及安装
1.简介
2.下载
3.安装
二.中国知网下载文献数据集
三.CiteSpace基本操作
1.基本功能介绍
2.数据准备
3.可视化分析
四.《红楼梦》文献主题演化分析
1.聚类分析
2.主题演化分析
五.总结
作者的github资源:
文本挖掘和知识发现:
https://github.com/eastmountyxz/
TextMing-KnowledgeDiscovery
一.CiteSpace介绍及安装
1.简介
CiteSpace 是由美国德雷塞尔大学陈超美博士与WISE实验室联合开发的科学文献分析工具。CiteSpace是利用Java实现的可视化文献分析软件,作为一款极为优秀的文献计量学或图书情报学软件,其能显示一个学科或知识领域在一定时期发展的趋势或动向,形成研究前沿领域的演化历程,能将文献之间的关系以科学知识图谱的方式可视化呈现。
常用于文本主题挖掘、文本演化分析、知识发现等领域
CiteSpace软件基于共引分析和寻径网络算法等对数据样本进行可视化处理,呈现特定知识领域的演化过程。尤其面对海量文献,该软件能帮助我们迅速锁定关键信息和核心主题,挖掘领域的发展历程,预测当前活跃的研究主题及未来发展趋势。总之,CiteSpace既能帮助我们厘清某一领域过去的研究轨迹、研究现状和热点话题,也能揭示该领域未来的发展方向。
2.下载
该软件可以从官网下载:
http://cluster.ischool.drexel.edu/~cchen/citespace/download/
Java环境仅需要下载JRE或JDK即可。
https://www.java.com/zh-CN/download/
如下图所示,点击download下载软件。
同样可以从下列网站中下载对应软件。
https://citespace.podia.com/
3.安装
作者下载的软件如下图所示。
双击文件安装,并安装至指定目录,建议安装非C盘的英文目录。
安装成功如下图所示。
安装成功,运行软件(桌面图标)如下图所示,点击同意即可。
下图为CiteScape的主界面。
二.中国知网下载文献数据集
第一步,打开中国知网搜索对应的主题,比如“红楼梦 红学”,读者可以尝试高级搜索对应时间或所需文献。此时共搜索3089篇期刊文献,然后依次“全选”按钮选中所需文献。
第二步,选中所有期刊后,点击“导出与分析”按钮,再选择里面的“Refworks”格式。
第三步,导出时下载文件命名规则:download_XXXX.txt。
最终导出的内容如下图所示,包括每篇文献的相关信息,读者将所有文献导出后存储至CiteSpace分析的指定目录即可。注意:知网一次最多导出五百条文献,超过五百条需要分批导出。
三.CiteSpace基本操作
1.基本功能介绍
CiteSpace可以通过可视化手段来呈现学科知识的结构、规律以及分布情况,并生成可视化知识图谱,从而探究某一研究领域的研究热点、研究前沿、主要作者和机构等相关信息。还包括如下分析:
引用聚类功能可以帮助我们知道哪些文章被引最多
按时间轴分析可以发现该领域下各个话题的发展趋势以及当前研究热点
在整个研究领域中占据主流地位的主题有哪些;
该领域发文最多的国家和机构
某一领域中的开山式文献和里程碑式文献
文献共引分析
文献社区聚类分析
CiteSpace主界面包括:
File(文件)
Project(项目)
Data(数据)
Visualization(可视化)
Overlay Maps(叠加分析)
Analytical(文献网络分析)
Network(网络)
Text(文本)
Preference(偏好设置)
CiteSpace可以分析的数据包括:
Web of Science
:格式为全记录与引用的参考文献全文本CSSCI
:格式为utf-8编码CNKI(中国知网)
:格式为RefworksNSF
:要求nsf.gov XML格式Derwent(德温特专利数据库)
Scopus
:RIS或CSV格式
2.数据准备
CiteSpace工具分析需要构建对应的文件夹,并构建四个文件夹用来存放输入、输出、数据、项目,因为我是要做有关《红楼梦》文献的分析所以文件夹名字是Hongloumeng,如下图所示:
接着将中国知网导出的文献存放至“input”文件夹中。注意,文件需要重命名为download_01.txt格式按序排列,否则会报错。
第一步,点击“Data”中的“Import/Export”按钮。
第二步,在弹出的界面中选择“CNKI”,在“Input Directory”中选择所下载的Refworks格式的引文所在的input文件夹;在Output Directory选择输出文件夹output。接着点击CNKI Format Conversion(3.0)转换按钮即可转换。
第三步,此时output文件夹里会生成各个转换后的文件,并将这些文件复制到data文件夹里。
接下来是具体的分析。
3.可视化分析
第一步,数据导入。 在CiteSpace中点击“Project”和“New”新建工程,选择工程文件文件夹Project和数据文件夹Data,数据来源选择“CNKI”和中文,接着点击保存。
第二步,参数设置。 在功能选择区进行参数选择,Time Slicing根据下载文献时所选择的时间范围进行设置(如2015-2020年),Years Per Slice设置为1,Node Types选择即将分析的内容(如Keyword),Pruning在循进中选择Pruning sliced networks,其它参数保持默认设置即可。
第三步,运行程序。 设置成功后点击“GO”按钮进行分析,该部分主要分析关键词。
第四步,关键词共现分析。 运行后点击“visualize”可视化按钮,随后便会形成关键词共现图谱。共现分析旨在挖掘高频关键词之间的关联关系,解释当前主题的热点。
运行结果如下图所示:
第五步,可视化设置。 通过控制面板中的”Labels”中的“keyword”可以对关键词共现网络进行美化和调整,包括节点大小、节点标签大小、节点标签、阈值等。通过“colormap”调节节点和连线的颜色,使不同关键词间的联系更加清晰。如下图所示红学文献关键词主题挖掘效果。
四.《红楼梦》文献主题演化分析
1.聚类分析
在关键词聚类图谱的基础上可以进一步进行聚类分析,点击如下图所示图标,输入“K”,即可对关键词进行自动聚类。
此外,有四类聚类方式,从左到右依次为:一减聚类(自动布局和风格)、根据Title标题聚类、根据KeyWords关键词聚类、根据Author作者聚类、KTA全部聚类(标题|关键词|作者)。聚类后建议把Label标签阈值拉到最大,之前的标签就不会显示了。
此外,点击左上角按钮第二个“Save”按钮即可保存为PNG图片。
输出聚类结果如下图所示:
2.主题演化分析
增加TimeLine时间轴即可显示对应的主题。下图的框选区域分别为:
普通模式显示
时间线TimeLine显示
导出结果如下图所示:
最终优化结果如下,您可以试试喔!
五.总结
写到这里,本文介绍完毕,希望对您有所帮助。哎,写了12年博客,突然没动力了 o(╥﹏╥)o
但还有好多知识要分享,忙碌中勉强分享一篇文章和新的系列,希望您喜欢。祝好~
一.CiteSpace介绍及安装
1.简介
2.下载
3.安装二.中国知网下载文献数据集
三.CiteSpace基本操作
1.基本功能介绍
2.数据准备
3.可视化分析四.《红楼梦》文献主题演化分析
1.聚类分析
2.主题演化分析五.总结
(By:Eastmount 2024-05-27 夜于火星)
参考文献:
[1] 作者书籍《文本挖掘和知识发现》
[2] http://cluster.cis.drexel.edu/~cchen/citespace/download/
[3] CiteSpace入门教程—下载安装使用指南 - Gsqsis
[4]
[5]
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...