时间:2022-12-21 22:11 所属分类:计算机论文 点击次数:
摘要:面对移动互联网中庞大的数据量,如何进行挖掘和可视化的分析是当前大数据研究的一个热点。本文搭建 了一个互联网数据挖掘与分析平台,首先采用基于 Scrapy 框架搭建的爬虫系统从互联网络爬取了大量新闻数据与招聘 数据,通过 Sphinx 和 CoreSeek 经过 google-diff-match-patch 算法去重,最后利用 R 语言对这些数据进行可视化分析,从而为 制定决策提供更好的依据。
关键词:互联网数据; R 语言; Scrapy; 可视化分析
随着社会信息化程度的不断提高,作为信息化的产物 目前各种 APP 和网站层出不穷,然而每一款优秀的 APP 或者网站其后台必然存在庞大的数据量。如果能够对这 些数据进行很好的挖掘与分析以及将其可视化,帮助决策 者更好地掌握自己的产品和客户的动向,这毫无疑问会提 升其产品在市场竞争上的生命力。因此数据挖掘和数据 可视化分析一直是数据分析方向的一个研究热点。R 语 言作为数据分析的工具,已经被越来越多地用在数据的可 视化分析中。由于 R 语言是开源的,R 的扩展包非常庞大 又功能齐全,在这些丰富的扩展包的帮助下,让数据的可 视化分析变得简单易行。因此,本文从互联网爬下来的大 量数据的分析与可视化采用 R 语言来实现。
1 数据的获取
在做数据分析与可视化工作时为了更加准确地说明 问题,往往是需要大量实时可靠的数据作为基础的,数据 获取是进行数据分析与可视化的第一个阻碍,尤其是像新 闻和招聘这类数据,单纯靠手工收集获取难度巨大,这时 可行的办法是搭建爬虫系统来自动爬取实时的互联网数 据,作为数据分析与可视化的基础。然而现在网站大多都 存在反爬虫机制,Scrapy 框架编写的爬虫系统在对互联网 网站数据进行爬取时,针对目前网站常用的反爬机制会采 取一些措施。它的工作流程如图 1 所示。因此本文选取 Scrapy 爬虫系统进行爬取新闻数据和招聘数据。
2 除去重复数据
爬虫是通过 URL 来定位资源的位置进行数据爬取 的,这就会导致一些问题的出现,当然这些问题本身也是 不可避免的,因为不同的 URL 对应的数据可能存在高度 的相似性,尤其像新闻信息这样的数据。为了保证后期数 据可视化时效果的合理性与科学性,必须在数据进行可视 化之前对爬取的数据去除冗余。本文采取的做法是,在对 新爬取的数据进行入库之前,需要拿新爬取的数据与数据 库中已存在的数据进行文本差异性比较,如果在比较时发 现两条数据差异性比较小则删除新爬取的数据禁止其入 库,从而避免数据冗余。 本文采用 google-diff-match-patch 算法对数据进行差异 性鉴定,不是直接用一条数据的全部内容参与差异性分 析,而是在 比 较 之 前 对 数 据 进 行 关 键 词 提 取,如 利 用 Pathon 中文分词组件 Jieba 分词,找出最能代表某条数据 的全部关键词,通过比较两条数据的关键词的差异性来间 接地确定两条数据的差异性,从而提高了鉴定的效率。 google-diff-match-patch 算法的思想: 使用两条待比较 的数据其中的一条为模板,把作为模板的一条进行复原, 统计出复原的步数,再计算出复原成模板最坏情况下的步 数,用最坏情况下复原成模板的步数减去实际复原所用的 步数,再除以最坏情况下的步数即为两个带比较文本的相 似度。每个步骤只能做“保持不变”“插入”或者“删除” 操作。
3 数据的可视化分析
完成了数据的获取以及对获取的数据进行挖掘与分 析工作之后,就可以进一步对数据进行可视化分析。可视 化的分析结果能够显著地为决策者提供一定的支持。之 前爬取的数据已保存在 MySQL 数据库中,所以在利用 RStudio 工具对数据库中的数据进行分析之前,需要先设 置数据源然后利用 R 语言中的 RODBC 包提供的相关接口 与 MySQL 数据库建立连接。最后就是根据要达到的可视 化目标,编写相应逻辑的 SQL 语句来获取数据库中的数 据,之后利用 R 语言丰富的扩展包所提供的相关函数,把 获取的数据转化成 R 语言可视化所要求的数据格式便于 可视化分析,至此完成对数据可视化分析的工作。 本文主要采用 R 语言词云图对新闻进行了可视化分 析,利用饼图、条形图和绘制地图等方式对招聘信息进行 了可视化分析。
3. 1 新闻数据词云图
采用词云的方式对爬取的所有新闻数据共同提 到的关键词汇进行可视化,当鼠标移动到相应的词汇时, 将会显示该词汇一共被提及的次数。本文利用 wordcloud2 这样一款用于从文本生成词云图而提供的工具包进行词 云的生成。
本文基于 R 语言对比较有代表性的新闻数据和招聘 数据进行了可视化分析,并对分析过程中需要注意的重要 流程做了详细的分析与说明。用 R 语言代码演示了新闻 数据对应的云图以及招聘数据对应的饼图、条形图、城市 分布图的完整绘制过程。R 语言是既能处理海量数据,又 能提供几乎整个统计领域的所有前沿算法的强大的数据 可视化工具,下一步将对爬取的互联网数据进行更深入的 挖掘,并采用 R 语言构建一个数据分析和可视化的平台, 能进行更强大的数据挖掘分析和可视化能力。
参考文献:
[1]刘璐,等. 基于 top-k 显露模式的商品对比评论分 析[J]. 计算机应用,2015,35( 10) : 2727-2732.
[2]孟诗琼,孟诗瑶,尹志. 基于 R 语言的汽车消费数据 挖掘及可视化方法[J]. 宁波工程学院学报,2015,27( 4) : 17-23.
[3]杨霞,吴东伟. R 语言在大数据处理中的应用[J]. 科技资讯,2013( 23) : 19-20.
[4]刘培宁,韩笑,杨福兴. 基于 R 语言的 Net CDF 文件 分析和可视化应用[J]. 气象科技,2014,42( 4) : 629-634.
[5]孙歆,戴桦,孔晓昀,赵明明. 基于 Scrapy 的工业漏 洞爬虫设计[J]. 信息安全与技术,2017. 8( 1) : 66-71.
上一篇:浅析计算机网络安全隐患管理与维护
下一篇:电厂网络安全防护研究分析