首页 > 旅游百科

基于朴素贝叶斯的新冠疫情新闻分类研究

阅读：评论：0

第１４期２０２０年７月无线互联科技

ＷｉｒｅｌｅｓｓＩｎｔｅｒｎｅｔＴｅｃｈｎｏｌｏｇｙＮｏ．１４

Ｊｕｌｙ，２０２０

深圳凤凰山景点介绍基金项目：山西农业大学博士科研启动项目；项目名称：农业物联网模型检测技术研究；编号：２０１７ＹＪ３０。作者简介：马亚州（１９９９—），男，山西长治人，本科生；研究方向：计算机科学与技术。

基于朴素贝叶斯的新冠疫情新闻分类研究

马亚州，张　勇，侯益明，王紫薇

（山西农业大学信息科学与工程学院，山西　太谷　０３０８０１）

摘　要：２０２０年，由于新冠病毒的来袭，能够正确接收有关报道显得格外重要。在众多新闻词条中，可能会错失有

关新冠疫情的报道。文章基于朴素贝叶斯算法实现了新闻分类，可以将有关新冠疫情的相关报道识别出来，识别准2022今天刚刚发生地震了

确率较高，

可达９５．５４％，有一定的使用价值。关键词：朴素贝叶斯；分类；识别0

　引言２０２０年，新冠病毒来势汹汹，席卷全球。随着新型冠状病毒性肺炎疫情的蔓延，防控工作越来越艰巨，面临的问题也越来越严峻。在这没有硝烟的“战场”上，普通民众能做的就是保护好自己，因此，能够正确接收正规新闻报道，清楚地认清当下疫情情势和防控措施，才可以更好地保护自己，对社会有所贡献。

为了能够快速阅读到关于疫情的新闻，本文基于朴素贝叶斯算法来对当前一些实时新闻进行分类，将实时新闻分为疫情类与非疫情类。该算法用于分类的准确率较高且有一定使用意义，值得进一步研究。1

　朴素贝叶斯算法朴素贝叶斯（ＮａｉｖｅＢａｙｅｓ，ＮＢ）是基于“特征之间是

独立的”［１］

这一朴素假设，应用贝叶斯定理的监督学习

算法。对应给定的样本Ｘ的特征向量ｘ１，ｘ２，．．．，ｘｍ；

该样本Ｘ的类别ｙ的概率可以由贝叶斯公式得到：

Ｐ（ｙ｜ｘ１，ｘ２，…，ｘｍ

）＝Ｐ()ｙＰ（ｘ１，ｘ２，…，ｘｍ｜

ｙ）Ｐ（ｘ１，ｘ２，…，ｘｍ）

（

１）特征之间是相互独立的，可得：

Ｐｙ｜ｘ１，ｘ２，…，ｘ()ｍ＝Ｐ()ｙＰｘ１，ｘ２，…，ｘｍ()｜ｙＰｘ１，ｘ２，…，ｘ()ｍ

＝

Ｐ（ｙ）∏Ｎ

ｉ＝１

Ｐ（ｘｉ｜

ｙ）Ｐｘ１，ｘ２，…，()

ｘｍ（２）

在给定样本的情况下，Ｐ（ｘ１，ｘ２，．．．，ｘｍ）是

常数：

东莞有什么好玩的Ｐ（ｙ｜ｘ１，ｘ２，…，ｘ)ｍ∝Ｐ

（ｙ）∏Ｎ

ｉ＝１

Ｐ（ｘｉ

｜ｙ）（３）

要求得到最终的模型为：青岛七天连锁酒店

ｙ︿

中山三乡泉眼温泉攻略＝ａｒｇｍａｘＰ（ｙ）∏Ｎ

ｉ＝１

Ｐｘｉ()｜ｙ

（４）

计算出新闻分类中用于训练的每个新闻标题的每

个单词在词汇表中出现的概率，之后对于待分类的新闻可分别计算其属于两个类别的概率，然后比较其大小，

最终予以分类［

２］

。算法流程如图１所示。图１　朴素贝叶斯算法流程

　数据准备（１）通过Ｊａｖａ爬虫代码分别从中国日报网英文版（ｈｔｔｐ：／／ｗｗｗ．ｃｈｉｎａｄａｉｌｙ．ｃｏｍ．ｃｎ／）、人民网英文版（ｈｔｔｐ：／／ｅｎｇｌｉｓｈ．ｐｅｏｐｌｅｄａｉｌｙ．ｃｏｍ．ｃｎ／）、中国日报英文版（ｈｔｔｐ：／／ｅｕｒｏｐｅ．ｃｈｉｎａｄ

ａｉｌｙ．ｃｏｍ．ｃｎ／）、新浪英文版（ｈｔｔｐ：／／ｅｎｇｌｉｓｈ．ｓｉｎａ．ｃｏｍ／）等各大权威网站搜集近一个月以来的新闻报道标题，从中共筛选得到１０８５条关于新冠疫情的新闻报道标题，从中随机选取２００条用于测试错误率，其余用于训练，另外，选取同样数目的其他新闻标题也用于训练。将每个样本分别单独放到一个文

本文档中，构成训练数据集和测试数据集［３］

。（２）训练数据时，将所有训练数据集和测试数据集构成一个词汇表并且将其向量化，将得到包含所有单词的单词表及向量表，如表１所示。

—

０２１—

>奥帕拉拉水公园

本文发布于:2023-07-16 21:48:13，感谢您对本站的认可！

本文链接：http://www.035400.com/whly/2/533157.html

上一篇：钟南山南抗击疫情的故事100字叁篇

下一篇：疫情心理健康主题班会教案（11篇）