时间:2022-09-08 14:12 所属分类:写作指导 点击次数:
概念:文本挖掘(Text Mining)指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。
01 文本挖掘法发展历史
1.文本挖掘法的诞生
学界中所运用的文本挖掘相关研究理论和技术多数是国外学者最早开展研究并运用到实际的生产生活中,时间可以追溯到上世纪中期。1959年Luhn把词频统计思想应用到自动分类上,二者结合成为了文本分类技术起步的理论基础,后来Maron率先发表第一篇涉及文本分类的论文,自此文本挖掘的技术与理论研究逐渐受到学者们关注。
2.文本挖掘法的发展历史
发展阶段:
文本挖掘发展至今已然是新兴的多领域、跨学科的复合研究方法,其研究领域包含数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等众多新兴学科领域。文本挖掘这一概念最早由Feldman和Dagan(1995)正式提出,此后英文的文本挖掘在国外逐渐发展起来。之后随着技术的不断发展以及学术研究的深入交流,国内学者认识到文本挖掘的重要性,开始探索基于中文文本的挖掘与应用。在文本挖掘涉及的过程中,文本的特征选择是开展挖掘分析的基础。
02 文本挖掘法操作步骤
根据研究,得出文本挖掘一般流程包括文本数据采集、文本数据预处理、文本数据分析和文本数据可视化这四个步骤。
1.文本数据采集
作为文本挖掘过程的第一步,文本数据采集过程为:首先确定数据的来源,然后利用网络爬虫技术进行数据获取,最终将获取到的待处理文本数据存储至数据库,等待下一步处理。
2.文本数据预处理
由于爬取到的评论数据充斥着许多无意义信息,因此在进入分析环节前,需要对评论内容进行预处理,包含文本清洗、中文分词、去停用词等,为下一步分析数据做好充分的准备。
3.文本数据分析
主要包括文本特征表示和提取、文本分类、文本聚类分析、文本结构分析、关联性分析等等。
4.文本数据可视化
这一步需要把挖掘到的有用信息变成易于大众理解的视觉信息,借助图形、表格等方式进行呈现。若直接将文本挖掘的数据结果呈现在用户眼前,用户很难理解这些晦涩的数据信息。而运用可视化技术将数据转换成通俗易懂的图表,就能轻松解决这样的困扰。
03 C刊范文
1. 《基于网络招聘信息文本挖掘的企业竞争力识别研究》,钱明辉、徐志轩、王玉玺,《管理评论》,2022-07-31.
2. 《金融科技与商业银行盈利能力:冲击抑或助推?——基于银行财报文本挖掘的实证检验》,岳华、王海燕、陈欣媛,《东南大学学报(哲学社会科学版)》,2022-07-20.
3. 《基于多源文本挖掘的技术演化路径识别》,刘怀兰、刘盛、周源、张睿,《情报理论与实践》,2022-07-15.
4. 《基于典籍文本挖掘的明清时期色彩知识研究》,徐娟、刘东华、刘宇,《图书馆论坛》,2022-06-23.
5. 《营商环境与政府支持对企业数字化转型的影响——来自上市企业年报文本挖掘的实证》,龚新蜀、靳媚,《科技进步与对策》,2022-05-18.
6. 《年报可读性与内部人交易研究——基于文本挖掘视角》,朱光、王纯熙,《金融监管研究》,2022-04-25.
7. 《教育质性研究中人机协同文本挖掘技术的运用——以某高校教学评估中文文本数据为例》,王金羽、詹逸思、冯起、李曼丽,《清华大学教育研究》,2022-04-20.
8. 《企业风险预期与投资策略选择——基于年报文本挖掘的实证研究》,杨兵、杨杨、杜剑,《经济管理》,2022-03-08.
9. 《游客的目的地感知是如何形成的?——基于文本挖掘的探索性研究》,史达、张冰超、衣博文,《旅游学刊》,2022-03-06.
10. 《基于文本挖掘的中外游客文化感知差异——以世界遗产地为例》,郑淞尹、孙传明、谈国新,《华侨大学学报(哲学社会科学版)》,2022-02-20.
11. 《工业互联网产业集群生态系统构建——基于文本挖掘的质性研究》,左文明、丘心心,《科技进步与对策》,2022-01-19.
12. 《零售企业数字化转型对经营效率的影响研究——基于上市企业年报的文本挖掘分析》,黄漫宇、王孝行,《北京工商大学学报(社会科学版)》,2022-01-18.
13. 《基于文本挖掘的中小企业知识产权政策研究——来自中央层面的数据》,唐恒、高清、孙莹琳、肖寒姿,《科技管理研究》,2022-01-10.
14. 《基于事件抽取技术的听证公开文本挖掘方法研究》,丁思媛、乔晓东、张运良,《情报杂志》,2022-01-10.
15. 《“新文科”学术话语的建构路径:基于文本挖掘的视角》,宁继鸣、周汶霏,《山东大学学报(哲学社会科学版)》,2022-01-05.
上一篇:技术性文献在论文写作中的应用案例
下一篇:学术研究论文写作为何需要想象力