基于GoogLeNet的场景识别研究

阅读: 评论:0

- 37 -
上海中国国际旅行社信 息 技 术
0 引言
场景识别,即通过计算机采集场景图片并自主判断场景所处的类型,使计算机可以深刻理解所在场景,辅助计算机进行判断,是场景理解中的基本问题,是计算机视觉领域里非常有前途的研究方向。随着科技的不断进步,场景识别问题引起了学者的广泛关注。国内外诸多知名大学及科研机构都在场景识别领域展开了深入探索。
1 场景识别技术
目前的场景识别方法可以分成2类,即利用人工的场景识别方法以及基于学习的场景识别方法。最初使用的方法一般基于简单的底层特征,例如颜和纹理特征,后面发展到著名的SIFT、HOG、GIST、CENTRIST 特征等。随着人工智能技术的兴起,深度学习技术开始发展,其中的神经网络算法更是广泛应用于图像识别领域[1]。目前卷积神经网络成了研究图像识别的主流方法,实验结果证明,卷积神经网络在场景识别研究领域存在无限潜力,与传统的方法相比具有强大的优势。
2 卷积神经网络模型2.1 卷积神经网络伊春天气预报
卷积神经网络由多层网络构成,一般包括卷积层、下采样层、全连接层以及输出层[2]。输入的图像经过卷积神经网络结构中多层网络的处理后,可得到输入图像的概率分布,根据最后结果可以判断出图像所属的类型。卷积神经网络不仅具有普通神经网络的优点,它的局部感知和权值共享特性,可以让卷积神经网络更接近生物神经网络,而且可以减小运行过程的计算量。
2.2 GoogLeNet模型
基于卷积神经网络的作用机理,许多学者根据研究问题设计了针对特定问题的卷积神经网络模型,例如AlexNet、GoogLeNet、VGGNet、ResNet 模型等。其中Google 团队提出的GoogLeNet 模型是近年来较为成功的卷积神经网络模型。该模型一共有22层网络结构,模型除普通的卷积层、池化层、全连接层以外,还有Google 团队提出的Inception 结构。通过Inception 结构中不同尺度的卷积核,可以提取到不同的图片特征,然而这样的方式会使训练过
程的计算变得复杂。因此,在模型中需要使用1×1的卷积核来降低维度,减小计算量。GoogLeNet 模型正是凭借多层卷积神经网络结构以及Inception 结构,在图像识别领域取得了优秀的成绩。
2.3 残差结构
众所周知,网络层数越多,模型的识别效果越好,但也会产生梯度消失的问题,从而影响模型的训练。为了保证识别的准确率并解决梯度消失的问题,何凯明提出了用ResNet 来解决所谓的“退化”问题。为了解决网络层数过深时的梯度消失问题,在网络中引入了残差结构。加入残差结构后可以设计深层的卷积神经网络模型,并且在图像识别问题中能够取得理想的识别效果。
3 场景识别模型3.1 场景特点
场景图像不同于一般的图像,场景图像中包含的内容较多,往往是多种内容才能表达一种的场景。同时场景的环境复杂多样,有时还会存在干扰,如果只提取某种特征来进行场景识别,就不能准确描述场景图像的全部内容,容易造成识别任务的失败,因此,需要提取场景的多种特征进行融合,以此来表达场景的内容[3]。
3.2 模型设计
基于场景图像中多特征的特点,可以使用GoogLeNet 网络模型中的Inception 结构来进行多尺度场景特征的提取。此外,ResNet 网络模型中的残差结构,可以缓解由于层数加深而产生的退化问题,利用残差结构可以增加GoogLeNet 网络模型的层数,从而提高识别效果。对以上2种思想进行结合,设计了Inception-Residual 结构。
北京郊区旅游景点
该结构中使用1×1、3×3、5×5  3种尺寸的卷积核来提取场景中的多尺度特征,并在之后使用1×1的卷积核来降低维度,从而减小计算量。基于残差网络的设计思想,将输入输出直接相连来构成残差结构,从而避免了由于层数过深而产生的过拟合问题。此外,在卷积层后选择ReLU 作为激活函数,可以提高卷积神经网络的训练速度,而且精确度更高。最后基于该种结构,设计出能够完成场景识别任务的卷积神经网络模型。
浙江嵊泗列岛为了避免模型的过拟合问题并提高模型的泛化性,还
基于GoogLeNet的场景识别研究周边自驾游
蔡青青  崔志强  王 睿  张尚然
日本购物必买清单带图
(承德石油高等专科学校,河北  承德  067000)
摘  要:场景识别技术属于机器视觉的研究内容,是图像理解的常见任务,一直受到广泛关注。随着人工智能专业的发展,卷积神经网络在图像理解与识别领域取得了许多成果。因此,该文基于常用的卷积神经网络模型GoogLeNet 和残差网络设计了场景识别模型。通过设计的模型提取场景图像特征,并利用卷积神经网络模型进行场景识别,最终完成对场景的分类识别任务。实验结果证明了卷积神经网络在研究场景识别问题上的有效性。关键词:场景识别;GoogLeNet ;卷积神经网络;TensorFlow 中图分类号:TP391                  文献标志码:A

本文发布于:2023-07-17 04:55:03,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/1/533790.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:场景   卷积   识别   神经网络   模型   问题   图像
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图