julyedu_7的博客

AI百科7个月前更新 快创云
67 0

DeBERTa提出了两种改进BERT预训练的方法:第一种方法是分散注意机制,该机制使用两个向量分别对每个单词的内容和位置进行编码来表示每个单词,并使用分散矩阵计算单词之间在内容和相对位置上的注意力权重;第二个方法是一个增强的掩码解码器,它取代了输出的Softmax层来预测用于MLM预训练的掩码令牌。使用这两种技术,新的预训练语言模型DeBERTa在许多下游NLP任务上表现都优于RoBERTa和BERT。直接采用现有的多分类模型如LightGBM或者深度模型神经网络进行多分类。两种方法:快排和堆排序。

© 版权声明

相关文章