AI模型训练到底在训练什么?看完这篇你就知道了!!

AI百科6个月前更新 快创云
57 0

  AI模型训练是通过数据驱动的方式,让人工智能(AI)系统从经验中学习,以便在给定的任务上进行预测、分类或生成等操作。这个过程通过优化模型的参数(如神经网络的权重和偏置)来最小化预测误差或损失,从而使模型能够在新数据上做出准确的判断。本文将介绍AI模型中神经网络和神经元的构造,以及AI训练的原理。

生物神经网络

  生物神经网络是由一组化学上相连或功能上相关的神经元组成。一个神经元可能与许多其他神经元相连,网络中的神经元和连接的总数可能很多。神经元之间的连接称为突触,通常是从轴突到树突形成的。除了电信号外,还有其他形式的信号,这些信号来自于神经递质的扩散。整体工作流程如下:

  1. 外部刺激通过神经末梢,转化为电信号,转导到神经细胞(又叫神经元)。
  2. 无数神经元构成神经中枢。
  3. 神经中枢综合各种信号,做出判断。
  4. 人体根据神经中枢的指令,对外部刺激做出反应。

  大脑神经元的数量、神经元之间的连接方式等会影响生物个体智力。例如,人类成人的大脑大约包含860亿到1000亿个神经元,猪的大脑大约包含20亿到30亿个神经元,金鱼的大脑神经元数量较少,大约在100万到300万之间。

人工神经网络

  人工神经网络是一种模拟人类大脑神经元连接方式的计算模型,主要用于处理和学习大量的数据,尤其是在模式识别、预测分析和分类任务中表现突出。它由大量互相连接的“神经元”(也称为节点)组成,每个神经元与其他神经元相连,形成一个复杂的网络结构。神经网络的核心思想是通过调整连接之间的“权重”来学习和优化模型,使其能根据输入数据产生正确的输出。

神经元

  神经元节点内部主要接收多个输入(a1, a2, a3…),产生一个输出(a)。它好比神经末梢感受各种外部环境的变化,最后产生电信号。其中最开始输入的a1, a2, a3…就是特征,w1, w2, w3…就是权重。为什么要这么设计呢?假如如果评估一个人是否是美女,那么我们通常会怎么做?

  1. 通常需要确定多个审视条件。比如头发长度、是否黑直长、单双眼皮、身材比例等。这每一个条件都会或多或少影响到真实的审美结果。对于这每一个条件,我们称其为“特征”(feature)。
  2. 仅有特征是明显不够的,因为我们对于每一个特征来说都有着不同的喜恶。比如你可能会觉得眼睛是你最为看重的一点,对于小眼睛女生会直接PASS。又或者你可能会认为鼻梁挺不挺是次要的,如果是可爱的娃娃脸,塌鼻梁也可以接受。对于这每一个喜恶的程度,我们可以称其为权重(weight)。

  假如我们对一个需要评估的人提取了6个特征,分别是“眼睛、牙齿、体型、皮肤、颈部、额头、眉毛、笑容”。现在我们也拍脑袋给了每一个特征对应的权重(比例),并且给定一个评分机制,从0分到10分进行打分。通过上述机制就可以实现输入一个人给出对应的评分结果。

  在实际AI场景中,特征就是输入对象的向量(向量其实就是对象在多个维度上的表示);权重就是对应该维度在目标任务中的重要程度;最终评分和计算方法就是神经元内计算输入得出输出的算法(根据任务不同有不同的算法)。

神经元节点的工作机制:

  1. 接收输入(输入信号):神经元节点首先接收来自前一层神经元的输入信号(或者原始数据)。这些输入可以是来自数据集的特征(例如图像的像素值、文本的词向量等),也可以是前一层神经元的输出。每个输入信号都带有一个“权重”(weight),权重是神经网络训练过程中调整的参数。
  2. 加权求和:每个神经元对收到的输入信号进行加权求和。简单来说,神经元对每个输入值乘以相应的权重,然后将结果加在一起。例如,对于神经元的输入向量x1, x2,…, xn和权重向量w1, w2,…, wn,神经元的加权输入z为:z = w1⋅x1 + w2⋅x2 + … + wn⋅xn + b(其中b是偏置项(bias),它帮助模型调整输出的阈值)。
  3. 激活函数(非线性变换):加权求和的结果z通常会被送入一个“激活函数”,以引入非线性。激活函数的作用是增加神经网络的表达能力,使其能够学习和处理复杂的模式,而不仅仅是线性关系。常见的激活函数有:Sigmoid(将输出限制在0到1之间)、ReLU(Rectified Linear Unit:如果输入大于0,则输出为输入值;否则,输出为0)、Tanh(输出范围为-1到1)、Softmax(常用于分类任务的输出层,将多维输入转换为概率分布)。激活函数的应用可以帮助神经网络学习复杂的非线性模式,增强其表达能力。
  4. 输出:神经元的输出是激活函数计算后的结果。这个输出将作为下一层神经元的输入(在网络的最顶层)或作为最终输出。神经元的输出可以通过网络的层层传递,逐渐变得更加抽象和有用。

  通过上面内容可以知道,在AI模型中在网络结构固定的情况下,权重和偏置决定了神经网络的输出结果。训练过程的目标就是通过调整这些参数使模型的预测更加准确。下面简要说明权重和偏置的修改过程及其在训练中的作用:

  1. 前向传播(Forward Propagation):输入数据通过神经网络进行前向传播,经过每一层的计算后,最终得出预测输出。对应上图则是输入一张图片,最后输出识别结果。
  2. 计算损失(Loss Function):前向传播之后,网络会根据模型的输出a和真实标签y计算损失(误差),对应上图是输出的识别结果与真实值之间比较,例如是三个字都错了还是只错了1个。
  3. 反向传播(Backpropagation):需要将误差反向传递到网络的每一层,需要计算每一层网络的误差。这个过程是通过链式法则(Chain Rule)实现的。神经网络通常包含多层,每一层的输出都依赖于前一层的输出,因此在反向传播时我们需要逐层计算每一层的误差。
  4. 更新权重和偏置(Gradient Descent):一旦计算出了每个参数的梯度就可以通过梯度下降算法来更新权重和偏置。梯度下降的基本思想是:如果损失函数的梯度(即误差)指向某个方向我们就应该沿着相反的方向调整参数以减小损失。
  5. 训练迭代(Epochs):训练过程中神经网络会多次进行前向传播、计算损失、反向传播误差并更新权重和偏置。每一次完整的前向传播和反向传播过程叫做一个“epoch”。通常训练过程会经历多个epoch直到模型收敛到较低的损失值或者达到预设的最大迭代次数这也是为什么训练过程比较长的原因所在。

  总结起来AI模型训练就是经过多轮训练不断的调整权重和偏置让误差变小趋近于0就像我们在电视上看到的综艺节目经常玩的一个小游戏主持人拿出一款商品让几位玩家去猜测这个物品的标签价会是多少A:“1000”主持人:“低了”B:“2000”主持人:“高了”经历过很多次的猜测以后最终A猜出了1688的价格抱着吸尘器回家了训练结束以后会生成权重文件权重文件是存储神经网络中所有权重和偏置值的文件。训练过程中的权重文件记录了模型通过学习所获得的参数这些权重和偏置决定了模型如何将输入数据映射到输出结果具体作用如下:

  1. 保存训练好的模型:训练结束后所有的权重和偏置都已经更新并最优化权重文件保存了这些参数这样在后续使用模型时我们可以加载这些权重文件避免每次都重新训练模型。
  2. 迁移学习:通过加载预训练模型的权重文件我们可以在新的任务上继续训练(微调)。这样预训练的模型就能利用已学到的特征从而加快新任务的学习过程尤其在数据较少时非常有效。
  3. 模型部署:在实际应用中模型通常需要部署到生产环境中此时权重文件被用于加载训练好的模型并执行推理(Inference)进行预测任务。
© 版权声明

相关文章