生成式AI的最新进展
一、Meta发布「变色龙」挑战GPT-4,34B参数引领多模态革命
- Meta最新推出的34亿参数「Chameleon」模型,能够无缝处理文本和图像,通过10万亿token进行训练,性能接近GPT-4V。
- Chameleon采用统一的Transformer架构,实现了文本和图像的「早期融合」,刷新了多模态视觉问答和图像标注的基准(SOTA)。
- 面临技术挑战,Meta引入了创新的架构和训练技术,以优化模型的性能和稳定性。
二、Anthropic发布Claude 3秘密武器:Claude宪法
- Claude宪法是Anthropic推出的AI模型价值系统,旨在提供明确的行为原则和价值观,以改善AI行为的道德和安全性。
- 通过两阶段训练过程,包括原则评价和强化学习,使用AI生成的反馈而非人类反馈,确保模型输出更无害、更有帮助。
- 宪法训练带来了Pareto改进,对抗性输入反应更适当,同时提高了模型的透明度和理解度,未来可根据不同文化调整道德规则。
三、ChatGPT实时互动分析Excel数据背后的新模型
- ChatGPT新增功能支持从Google Drive和Microsoft OneDrive上传数据文件,并提供实时数据分析与图表定制。
- 新模型ADA V2强化了ChatGPT的数据处理能力,允许处理复杂数据任务,并生成深入洞察。
- OpenAI维持数据隐私承诺,为ChatGPT Plus用户提供关闭数据训练使用的「数据控件」选项。
四、谷歌Gemini 1.5在奥数题上的表现及Flash版速度优势
- Gemini 1.5引入了工程和基础设施优化、MoE架构,提升了处理跨模态内容的长上下文检索和推理能力。
- Gemini 1.5的Flash版本专注于高效计算,使用TPU优化运算,实现较低延迟和快速响应,比GPT-4 Turbo快5倍。
- Gemini 1.5 Pro在数学问题解决中表现出色,未使用辅助工具达到91.1%的突破性表现,有效减少专业任务完成时间26-75%。
五、谷歌文生图模型Imagen 3的写实效果
- Imagen 3优化了文本解析能力,能详细捕捉长文本提示中的细微细节,并提高嵌入文字的生成准确性。
- 该模型支持多种艺术风格,尤其在生成写实风格图片方面表现出高质量,与真实摄影难以区分。
- Imagen 3将面向多个领域推出,提供从快速草图到高分辨率图像的多版本优化,满足广泛的创作需求。
六、腾讯混元「元器」平台的推出
- 腾讯推出腾讯元器平台,基于混元大模型,支持企业和开发者一站式创建和分发AI智能体,可直接整合至QQ、微信客服和腾讯云等多个渠道。
- 混元大模型提供不同版本以适应不同场景,助力企业实现高性价比的模型应用和优化业务流程。
- 同时推出三大引擎:大模型知识引擎、大模型图像创作引擎、大模型视频创作引擎,旨在提升企业在知识服务、图像和视频创作的质量和效率。
七、OpenAI与Reddit合作引发数据隐私担忧
- OpenAI与Reddit合作,利用Reddit的实时、结构化内容训练AI模型,集成到ChatGPT中以改善模型对话能力和内容展示。
- 这项合作可能引发用户关于数据隐私和使用的担忧。
前沿科技动态
八、复旦团队在低温保存人脑技术上的突破
- 复旦大学科学家成功复活了冷冻18个月的人脑,打破了低温保存领域的纪录,实验结果发表于《Cell》子刊。
- 新方法MEDY能够有效防止脑细胞在冷冻和解冻过程中死亡,保留细胞的结构和功能,提供了治疗绝症和长期太空旅行的新可能。
- 该技术的成功不仅为医学研究开辟新道路,也引发了关于人体冷冻和未来复活的广泛讨论和想象。
报告观点摘要
- 创始人应预见大型AI公司模型的改进并制定应对策略,以维持初创企业的竞争力。
- 数据的真正价值在于如何利用,而非数据本身。重要的是数据的独特性和难以获取性。
- 风投接受创新过程中的失败比例,强调技术投资的不可预测性和风险性。
智源评测体系发布及全球模型评测结果
- 智源研究院发布“智源评测体系”,全面评测全球140+语言和多模态大模型。
- 国内模型在中文环境中表现亮眼,尤其在多模态理解和生成上接近国际一流水平。
- 评测涵盖语言理解、推理、多模态能力等维度。国产模型在安全与价值观维度表现与国际有差异。
© 版权声明
本网站上的所有资源均来源于本网站,所有网址和文章版权均归原作者所有。如有侵权行为,请将相关证明发送至以下电子邮件地址:dxsen@qq.com