大模型文件主要包括权重文件(如.pt、.ckpt、.safetensors)、配置文件(config.json、generation_config.json)和词汇表文件(tokenizer.json、tokenizer_config.json)。权重文件存储模型参数,配置文件定义模型结构和生成参数,而词汇表文件处理文本编码,其中tokenizer.json用于分词器训练,tokenizer_config.json用于文本生成配置。相比传统的vocab.txt,现代分词器使用更灵活的文件格式。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com