前言
本专栏旨在通过逐步深入的学习笔记形式,带领大家探索人工智能技术的奥秘。本篇文章作为第二篇,将带你了解机器视觉处理及其中的图像分类问题。
目录
二、图像分类问题
2.1 尝试使用全连接神经网络
2.2 引入卷积神经网络
2.3 分类函数Softmax
2.4 交叉熵损失函数
2.5 学习率优化算法
2.6 图像预处理算法
2.6.1 随机改变亮暗、对比度和颜色等
2.6.2 随机填充
2.6.3 随机裁剪
2.6.4 随机缩放
2.6.5 随机翻转
2.6.6 随机打乱真实框排列顺序
机器视觉(Machine Vision),是一门使机器具备“看”的能力的学科,是深度学习技术的一个重要应用领域,广泛应用于安防、工业质检和自动驾驶等场景。目前主流的计算机视觉任务包括图像分类、目标检测、图像分割、OCR、视频分析和图像生成等。
图像分类是利用计算机对图像进行定量分析,将图像或图像中的像元或区域划分为若干个类别中的某一种。例如,手写数字识别就是一个典型的图像分类问题,已被广泛应用于汇款单号识别、手写邮政编码识别等领域,大大缩短了业务处理时间,提升了工作效率和质量。在处理手写邮政编码的简单图像分类任务时,可以使用基于MNIST数据集的手写数字识别模型。MNIST是深度学习领域标准、易用的成熟数据集,包含50,000条训练样本和10,000条测试样本。
首先,我们尝试使用典型的全连接神经网络,再引入适合图像处理任务的卷积神经网络。经典的全连接神经网络包含四层网络:输入层、两个隐含层和输出层。在处理图像分类任务时,我们还需要引入卷积神经网络(CNN)、Softmax激活函数以及交叉熵损失函数。卷积神经网络由多个卷积层和池化层组成,能够更有效地处理图像数据。
在深度学习神经网络模型中,通常使用标准的随机梯度下降算法更新参数,学习率代表参数更新幅度的大小。目前形成了四种比较成熟的优化算法:SGD、Momentum、AdaGrad和Adam。此外,为了提升模型的泛化能力,我们会对图像进行一些随机的变化,如随机改变亮暗、对比度和颜色,随机填充、裁剪、缩放、翻转等。这些操作能够扩大训练数据集,抑制过拟合。