人工智能时代:数据加工厂是如何运作的?

AI百科6个月前更新 快创云
51 0

  人工智能时代,相较于传统数据处理,一个显著的区别在于对非结构化数据的处理与应用。本文将介绍如何利用数据标注工具,将非结构化数据转化为可供建模的结构化数据。

  非结构化数据,如图像,本质上是由像素点按一定顺序排列组成的。若要让计算机识别图像中的特定对象,如鸟,需人工用框将鸟标出,并标记告诉计算机这是鸟。这样,计算机就能学习这些像素点,构建识别模型

  在2012年,谷歌首席科学家李飞飞教授团队利用神经网络算法,使计算机具备了在图片中识别猫的能力。这一成就不仅得益于计算力和AI算法的发展,更关键的是ImageNet数据集提供的带标注的千万张图片。

  机器学习领域有句话说:“数据和特征决定了机器学习的上限。” 可见数据和特征在AI中的重要性。改进算法不如构建更精确的数据集更有效。一个高质量标注的数据集对模型的提升效果远超优化算法。

  虽然ImageNet等开源数据集数量多,但标注精度不高,无法满足所有建模需求。因此,AI团队需根据自身需求构建数据集。根据应用方向,大致可分为推荐算法、语音语义和计算机视觉三个方向。

  推荐算法发展最为成熟,一方面得益于传统机器学习算法的成熟,另一方面是大量结构化数据的积累。例如,淘宝上传商品时需选择分类,网站设置SEO关键词等。用户数据和行为偏好数据通过埋点收集,结合商品和用户数据构建推荐系统。

  语音语义方向,如科大讯飞、海量大数据等公司积累近20年,在中文分词、语音模型、语言模型等方面成熟,可商用。目前,语音语义数据标注包括音频识别、语义分析、文本分类等。

  计算机视觉方向处于起步阶段但发展迅速,人脸识别、图像转化已有大量商用产品。这一方向对高质量标注数据需求大,如图片拉框、描点、语义分割、视频跟踪标注等。

  数据标注工作流程通常如下:产品经理确定用户需求,准备原始数据;与人工智能训练师细化标注需求;训练师创建教程并发放给标注员;标注员根据教程标注数据;训练师和产品经理验收数据,不合格打回重新标注;交付给AI工程师建模。

  标注工具方面,介绍两款工具:LabelImg由Python编写,但门槛较高;另一款国产工具友好易用,支持常见标注需求和数据格式。大公司可能开发自家工具,但多数公司选择众包团队进行标注。

  众包平台选择考虑因素包括:标注员专业度、功能完善度、数据安全性等。高质量标注数据是AI基石,未来几年随着应用场景拓展,数据标注需求将增长。通用高质量标注数据集增多将降低智能产品落地门槛,加速AI发展。

© 版权声明

相关文章