基于朴素贝叶斯的新冠疫情新闻分类研究

阅读: 评论:0

第14期2020年7月无线互联科技
WirelessInternetTechnologyNo.14
July,2020
深圳凤凰山景点介绍基金项目:山西农业大学博士科研启动项目;项目名称:农业物联网模型检测技术研究;编号:2017YJ30。作者简介:马亚州(1999—),男,山西长治人,本科生;研究方向:计算机科学与技术。
基于朴素贝叶斯的新冠疫情新闻分类研究
马亚州,张 勇,侯益明,王紫薇
(山西农业大学信息科学与工程学院,山西 太谷 030801)
摘 要:2020年,由于新冠病毒的来袭,能够正确接收有关报道显得格外重要。在众多新闻词条中,可能会错失有
关新冠疫情的报道。文章基于朴素贝叶斯算法实现了新闻分类,可以将有关新冠疫情的相关报道识别出来,识别准2022今天刚刚发生地震了
确率较高,
可达95.54%,有一定的使用价值。关键词:朴素贝叶斯;分类;识别0
 引言2020年,新冠病毒来势汹汹,席卷全球。随着新型冠状病毒性肺炎疫情的蔓延,防控工作越来越艰巨,面临的问题也越来越严峻。在这没有硝烟的“战场”上,普通民众能做的就是保护好自己,因此,能够正确接收正规新闻报道,清楚地认清当下疫情情势和防控措施,才可以更好地保护自己,对社会有所贡献。
为了能够快速阅读到关于疫情的新闻,本文基于朴素贝叶斯算法来对当前一些实时新闻进行分类,将实时新闻分为疫情类与非疫情类。该算法用于分类的准确率较高且有一定使用意义,值得进一步研究。1
 朴素贝叶斯算法朴素贝叶斯(NaiveBayes,NB)是基于“特征之间是
独立的”[1]
这一朴素假设,应用贝叶斯定理的监督学习
算法。对应给定的样本X的特征向量x1,x2,...,xm;
该样本X的类别y的概率可以由贝叶斯公式得到:
P(y|x1,x2,…,xm
)=P()y P(x1,x2,…,xm|
y)P(x1,x2,…,xm)
1)特征之间是相互独立的,可得:
Py|x1,x2,…,x()m=P()y Px1,x2,…,xm()|yPx1,x2,…,x()m
P(y)∏N
i=1
P(xi|
y)Px1,x2,…,()
xm(2)
在给定样本的情况下,P(x1,x2,...,xm)是
常数:
东莞有什么好玩的P(y|x1,x2,…,x)m∝P
(y)∏N
i=1
P(xi
|y)(3)
要求得到最终的模型为:青岛七天连锁酒店
y︿
中山三乡泉眼温泉攻略=argmaxP(y)∏N
i=1
Pxi()|y
(4)
计算出新闻分类中用于训练的每个新闻标题的每
个单词在词汇表中出现的概率,之后对于待分类的新闻可分别计算其属于两个类别的概率,然后比较其大小,
最终予以分类[
2]
。算法流程如图1所示。图1 朴素贝叶斯算法流程
2
 数据准备(1)通过Java爬虫代码分别从中国日报网英文版(http://www.chinadaily.com.cn/)、人民网英文版(ht tp://english.peopledaily.com.cn/)、中国日报英文版(http://europe.chinad
aily.com.cn/)、新浪英文版(ht tp://english.sina.com/)等各大权威网站搜集近一个月以来的新闻报道标题,从中共筛选得到1085条关于新冠疫情的新闻报道标题,从中随机选取200条用于测试错误率,其余用于训练,另外,选取同样数目的其他新闻标题也用于训练。将每个样本分别单独放到一个文
本文档中,构成训练数据集和测试数据集[3]
。(2)训练数据时,将所有训练数据集和测试数据集构成一个词汇表并且将其向量化,将得到包含所有单词的单词表及向量表,如表1所示。
021—
>奥帕拉拉水公园

本文发布于:2023-07-16 21:48:13,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/2/533157.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:疫情   新闻   分类   训练   新冠   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图