感知机算法用于二分类任务,旨在找到能够将训练数据线性划分的超平面。它是构建神经网络和支持向量机的基础,通过极小化损失函数——即误分类点到超平面的总距离,来实现模型的学习。损失函数的最优化可通过随机梯度下降法完成,包括原始形式和对偶形式。
K近邻法(K-NN)适用于多分类和回归任务,通过测量新实例与训练集中最近邻的K个实例之间的距离,来确定新实例的类别。该方法的关键要素包括K值的选择、距离度量方式以及分类决策规则。为了实现高效搜索,通常采用kd树(一种二叉树)来快速定位K个最近邻的点。K值的选择需平衡近似误差与估计误差,通常通过交叉验证来确定最优K值,K值较小意味着模型较复杂,而较大则意味着模型较简单。
朴素贝叶斯法是一种多分类算法,常用于自然语言处理(NLP)。它基于贝叶斯定理和特征条件独立假设,先学习输入输出的联合概率分布,再利用贝叶斯定理计算给定输入x的后验概率最大的输出y。后验概率最大化等价于0-1损失函数的期望风险最小化。该方法采用极大似然估计或贝叶斯估计进行概率估计,其基本假设是条件独立性。
决策树是一种多分类和回归工具,它通过递归地分割数据集来构建模型。逻辑回归和最大熵模型则用于多分类任务,它们本质上是在线性回归的基础上添加了sigmoid函数,将输出映射为(0,1)之间的概率值。逻辑回归不仅用于二分类,也适用于多分类情境。最大熵模型则基于熵最大原则,即X服从均匀分布时熵最大,学习过程等价于约束最优化问题,对偶函数的极大化则与最大熵模型的极大似然估计相对应。
支持向量机同样是一种二分类模型,它通过最大化间隔来寻找最优分离超平面。函数间隔衡量分类的正确性和确信度,而几何间隔则是样本点到超平面的最近距离。支持向量机不仅支持线性分类,还通过核函数处理非线性问题。
提升方法(boosting)在二分类任务中通过调整训练样本权重、学习多个分类器并线性组合它们来提升分类性能。EM算法及其推广则用于概率模型参数的估计,特别适用于含有隐变量的模型。隐马尔科夫模型(HMM)是NLP中的生成模型,用于标注问题,通过前向和后向算法高效计算概率。条件随机场(CRF)则是判别模型,用于标注问题,其概率计算采用前后向算法,学习方法包括正则化的极大似然估计法。维特比算法则用于求解最优路径问题,即找到概率最大的状态序列。