当前,新一代AI系统的核心驱动因素是数据的可获得性和用于训练这些数据的计算基础设施。为了推进AI研发的前沿发展,必须拥有高质量且结构良好的数据和软件。本节主要介绍在开发和提供满足各种AI应用需求的数据集方面的进展,以及开发共享的大规模和专业化的高级计算和硬件资源,使测试资源能够响应商业和公众的需求。此外,还介绍了开发用于AI训练和测试的开源软件库和工具包的举措。
国防高级研究计划局 (DARPA)
DARPA致力于开发并共享用于人工智能训练和测试的数据集和环境,以提升美国在人工智能领域的竞争力。其“保障AI在欺骗攻击中的稳健性”(GARD)计划旨在开发防御对抗性攻击ML模型的方法,并提供用于描述ML防御机制及评估其适用范围的资源。这些资源包括虚拟测试平台、工具箱、基准数据集和培训材料,并通过公共存储库向广泛的研究社区开放。
国防部 (DOD)
国防部致力于扩大公众对信息的获取,并坚持优先公开和访问的原则,使高质量、权威性的数据集对公众开放,前提是这些数据集未因国家安全、隐私或其他法规原因受到限制。对于无法完全公开的数据集,国防部旨在通过协作生态系统与授权社区进行安全共享。
COEUS项目
COEUS项目旨在为数据工程师和科学家提供一个集中的协作工作空间,以便访问数据、代码和其他项目。它提供一个灵活的云原生平台,支持AI/ML候选模型的测试与评估、数据标注、模型训练以及数据产品的自动化和传播。此平台使得工件的发现、共享和重用成为可能,从而加速算法开发,提高算法交付效率。
研究与工程AI中心
研究与工程AI中心是一个跨越DOD服务的数据专用协作平台,旨在共享数据、生成合成数据、提供建模和仿真环境以及研究专长,以解决关键任务问题。
能源部/科学办公室 (DOE/SC)
DOE/SC投资于高质量的数据和软件,以用于训练和测试先进的人工智能系统。通过充分利用高性能计算和其实验用户设施提供的大规模数据集,SC在新方法和算法的进步中发挥了重要作用,进而提升了人工智能应用的可靠性、稳健性和普适性,并提高了科学研究中机器学习的严谨性。
公共可再利用 (PuRe) 数据倡议
该倡议旨在生成高价值的社区数据资源,包括数据仓库、知识库、分析平台以及其他使经过精心整理的科学数据公开可用的活动。资源涵盖广泛的科学领域,如大气数据、生物和环境研究,以及物理科学的材料数据库。
国土安全部科学与技术局 (DHS S&T)
DHS S&T继续识别已达到技术成熟的能力,并将其与任务需求相匹配,从而促进国土安全部各组件和利益相关者对现有AI/ML解决方案的理解和采用。DHS S&T正在推进使非专业人士能够策划和处理大型数据集的能力,同时就实施AI/ML所需的技术和政策基础设施向部门提供建议。
多云生态系统计划
美国国土安全部(DHS)正在研究一种用户能够访问多个云环境的体系,用于模型训练和分析方法的开发。这将使得对网络安全和基础设施安全局(CISA)敏感的网络安全数据进行大规模数据分析和人工智能处理成为可能。DHS已经在构建高效的数据和信息共享架构方面投入了大量开发资源。
合成数据项目
该项目主要致力于为机场扫描仪训练检测算法。由于实际扫描数百万件行李和货物不切实际,因此该项目旨在理解当前最先进的技术,并寻找创造高质量合成数据集的机会,用于培训机场安检的AI/ML算法。
联邦公路管理局 (DOT/FHWA)
联邦公路管理局正在资助一项研究,旨在安全地收集、利用和公开行人数据。在2022财年,EAR80项目对行人数据的多样性进行了研究。研究发现,研究人员难以获取经过精心整理和合理分布的行人数据,而这些数据对于开发和测试能提升所有出行者安全和流动性的AI系统至关重要。在2024财年,EAR计划支持对收集、标记和分析行人数据的新方法的研究。这些新方法将解决同意和隐私相关的问题,从而涵盖使用辅助设备(如轮椅或白杖)进行移动或在感官条件下行走的未被充分代表的行人。
退伍军人事务部 (VA)
VA通过Challenge.Gov提供联邦数据,并通过AI技术竞赛激励合作与创新。美国退伍军人事务部(VA)正在参与国家人工智能研究资源(NAIRR)试点项目,并支持其中NAIRR开放版(NAIRR Open)、NAIRR安全版(NAIRR Secure)、NAIRR教室版(NAIRR Classroom)和NAIRR软件版(NAIRR Software)全部四个阶段的实施。VA在之前的VA数据公共平台(VA Data Commons)计划中的数据共享经验以及VA的AI培训平台ASPIRE(策略#7)的应用尤为相关。VA正在牵头实施两个关键的AI技术冲刺,旨在支持评估和利用AI以减轻医疗工作者倦怠的临床价值主张。第一个冲刺重点是提供临床书写功能,旨在简化预约期间及预约后的临床文档记录;第二个冲刺聚焦于社区护理文档处理,目标是开发一个基于AI的系统,能够迅速获取VA系统外的健康记录并使临床医生可访问,从而推动有意义的临床决策。
美国国家航空航天局 (NASA)
NASA尽可能公开其生成的数据,包括通过分布式活动档案中心(DAACs)提供的重要地球科学数据。NASA地球科学技术办公室的高级信息系统技术计划(AIST)目前正在实施28个项目,并最近发布了新的提案征集。这些正在进行的项目致力于提供创新的信息系统和技术以降低NASA空间和地面信息系统的风险、成本和开发时间,显著提升科学数据的可访问性和实用价值并促进先进观测测量技术和地球科学信息能力的发展。通过企业数据平台项目,NASA致力于构建一个不仅能够存储多种NASA数据集还能实现对这些数据仓库的搜索功能的平台。
美国国立卫生研究院 (NIH)
NIH向研究社区提供大量生物医学数据致力于使这些数据具备可查找性、可访问性、可互操作性和可重复利用性即所谓的FAIR标准同时期望这些数据能够应用于AI和ML技术。Bridge to Artificial Intelligence (Bridge2AI)计划为医学领域的广泛应用奠定了基础该计划开发了跨越生物医学及行为研究的道德来源“旗舰”AI就绪数据集并制定了培训课程此外与AI培训和测试相关的其他多个NIH项目包括精准健康营养(Nutrition for Precision Health)、减少健康差距与人工智能偏差的科学合作(Science Collaborative for Health disparities and Artificial intelligence bias REduction, ScHARe)、国家COVID队列协作(National COVID Cohort Collaborative, N3C)和医学影像与数据资源中心(Medical Imaging and Data Resource Center, MIDRC)。ScHARe Think-a-Thons系列活动的目标对象是数据科学领域中代表性不足的人群如女性和健康差异群体旨在帮助他们获得和提升人工智能与云计算方面的知识从而利用云计算资源进行健康差异医疗服务和健康结果的研究包括超过250个人口科学行为学环境学和社会健康决定因素的数据集。
国家司法研究所 (NIJ)
NIJ开发并提供可以通过data.gov和国家刑事司法数据档案获取的研究数据集。人口贩卖项目计划涵盖了创建南卫理工会大学的人口贩卖数据仓库该平台致力于解决数据不足问题其内容包括开发一个基于人类计算与机器学习的游戏用于提取和完善人口贩卖数据集研究目标包含理解人口贩卖的经济关联分析时空模式识别结果差异并采用人机协同的机器学习方法。“考察洛杉矶(LA)自1990年以来的凶杀动态变化”项目通过分析从凶杀案档案中提取的一系列丰富变量旨在提升对凶杀案件自然结构和情境动态的理解探讨与枪支暴力致命性相关的因素以及凶杀案调查过程中的自然结构该项目结合了公开数据及洛杉矶警察局的“谋杀档案”数据并包含了覆盖洛杉矶南区的4,000份凶杀档案中的早期信息。
国家标准与技术研究院 (NIST)
NIST创建并公开分享涵盖基础与应用人工智能研发领域及众多科学研究领域的技术参考数据集旨在支持广泛的研发参与加速稳健的研发进程实现有意义的进展评估和一致性评估NIST正在参与国家人工智能研究资源试点项目并建立了一个中心用于制定和实施人工智能风险管理框架(AIRMF)以及共享支持开发和测试负责任且可信赖的人工智能系统和技术的资源和数据NIST正在研究计算和捕捉用于训练人工智能模型的数据属性的方法并利用这些数据属性来计算和关联基于人工智能推断的不确定性美国国家标准与技术研究院(NIST)提供公开可用的数据支持其所有基础和应用科学领域的研发性能和一致性测试以及多种机器学习和人工智能的研究领域与应用许多NIST数据集被视为研究的黄金标准例如NIST创建了联合自动存储库(JARVIS-DFT)用于各种集成模拟和密度泛函理论包含超过30,000种材料和500,000种性质以支持自动化材料发现。