基于GoogLeNet的场景识别研究

阅读：评论：0

- 37 -

上海中国国际旅行社信息技术

０　引言

场景识别，即通过计算机采集场景图片并自主判断场景所处的类型，使计算机可以深刻理解所在场景，辅助计算机进行判断，是场景理解中的基本问题，是计算机视觉领域里非常有前途的研究方向。随着科技的不断进步，场景识别问题引起了学者的广泛关注。国内外诸多知名大学及科研机构都在场景识别领域展开了深入探索。

１　场景识别技术

目前的场景识别方法可以分成2类，即利用人工的场景识别方法以及基于学习的场景识别方法。最初使用的方法一般基于简单的底层特征，例如颜和纹理特征，后面发展到著名的SIFT、HOG、GIST、CENTRIST 特征等。随着人工智能技术的兴起，深度学习技术开始发展，其中的神经网络算法更是广泛应用于图像识别领域[1]。目前卷积神经网络成了研究图像识别的主流方法，实验结果证明，卷积神经网络在场景识别研究领域存在无限潜力，与传统的方法相比具有强大的优势。

２　卷积神经网络模型２．１　卷积神经网络伊春天气预报

卷积神经网络由多层网络构成，一般包括卷积层、下采样层、全连接层以及输出层[2]。输入的图像经过卷积神经网络结构中多层网络的处理后，可得到输入图像的概率分布，根据最后结果可以判断出图像所属的类型。卷积神经网络不仅具有普通神经网络的优点，它的局部感知和权值共享特性，可以让卷积神经网络更接近生物神经网络，而且可以减小运行过程的计算量。

２．２　ＧｏｏｇＬｅＮｅｔ模型

基于卷积神经网络的作用机理，许多学者根据研究问题设计了针对特定问题的卷积神经网络模型，例如AlexNet、GoogLeNet、VGGNet、ResNet 模型等。其中Google 团队提出的GoogLeNet 模型是近年来较为成功的卷积神经网络模型。该模型一共有22层网络结构，模型除普通的卷积层、池化层、全连接层以外，还有Google 团队提出的Inception 结构。通过Inception 结构中不同尺度的卷积核，可以提取到不同的图片特征，然而这样的方式会使训练过

程的计算变得复杂。因此，在模型中需要使用1×1的卷积核来降低维度，减小计算量。GoogLeNet 模型正是凭借多层卷积神经网络结构以及Inception 结构，在图像识别领域取得了优秀的成绩。

２．３　残差结构

众所周知，网络层数越多，模型的识别效果越好，但也会产生梯度消失的问题，从而影响模型的训练。为了保证识别的准确率并解决梯度消失的问题，何凯明提出了用ResNet 来解决所谓的“退化”问题。为了解决网络层数过深时的梯度消失问题，在网络中引入了残差结构。加入残差结构后可以设计深层的卷积神经网络模型，并且在图像识别问题中能够取得理想的识别效果。

３　场景识别模型３．１　场景特点

场景图像不同于一般的图像，场景图像中包含的内容较多，往往是多种内容才能表达一种的场景。同时场景的环境复杂多样，有时还会存在干扰，如果只提取某种特征来进行场景识别，就不能准确描述场景图像的全部内容，容易造成识别任务的失败，因此，需要提取场景的多种特征进行融合，以此来表达场景的内容[3]。

３．２　模型设计

基于场景图像中多特征的特点，可以使用GoogLeNet 网络模型中的Inception 结构来进行多尺度场景特征的提取。此外，ResNet 网络模型中的残差结构，可以缓解由于层数加深而产生的退化问题，利用残差结构可以增加GoogLeNet 网络模型的层数，从而提高识别效果。对以上2种思想进行结合，设计了Inception-Residual 结构。

北京郊区旅游景点

该结构中使用1×1、3×3、5×5 3种尺寸的卷积核来提取场景中的多尺度特征，并在之后使用1×1的卷积核来降低维度，从而减小计算量。基于残差网络的设计思想，将输入输出直接相连来构成残差结构，从而避免了由于层数过深而产生的过拟合问题。此外，在卷积层后选择ReLU 作为激活函数，可以提高卷积神经网络的训练速度，而且精确度更高。最后基于该种结构，设计出能够完成场景识别任务的卷积神经网络模型。

浙江嵊泗列岛为了避免模型的过拟合问题并提高模型的泛化性，还

基于GoogLeNet的场景识别研究周边自驾游

蔡青青崔志强王睿张尚然

日本购物必买清单带图

（承德石油高等专科学校，河北承德 067000）

摘要：场景识别技术属于机器视觉的研究内容，是图像理解的常见任务，一直受到广泛关注。随着人工智能专业的发展，卷积神经网络在图像理解与识别领域取得了许多成果。因此，该文基于常用的卷积神经网络模型GoogLeNet 和残差网络设计了场景识别模型。通过设计的模型提取场景图像特征，并利用卷积神经网络模型进行场景识别，最终完成对场景的分类识别任务。实验结果证明了卷积神经网络在研究场景识别问题上的有效性。关键词：场景识别；GoogLeNet ；卷积神经网络；TensorFlow 中图分类号：TP391 文献标志码：A

本文发布于:2023-07-17 04:55:03，感谢您对本站的认可！

本文链接：http://www.035400.com/whly/1/533790.html

上一篇：基于ProcessSimulate的焊装工位虚拟调试技术应用

下一篇：上海美食的介绍

标签：场景卷积识别神经网络模型问题图像

留言与评论（共有 0 条评论）