AI技术在漫画阅读体验上的应用

AI百科2个月前发布 快创云
37 0

  作为引领国内漫画领域的先锋平台,我们不仅坐拥庞大的连载作品库,更覆盖了多样化的漫画形式,从页漫到条漫,从黑白到彩色,旨在让每一位漫画爱好者都能享受到无懈可击的阅读体验,同时有效缓解阅读过程中的疲劳感。为此,我们大胆引入了深度学习技术,展开了一系列创新尝试。

  对于页漫与条漫的概念,或许对部分读者而言稍显陌生。为便于后续理解,让我们简要概述两者的差异。左侧通常代表条漫,其特点在于以长条形布局呈现;而右侧则代表页漫,通常按照传统书籍的排版方式,即一页一页地翻阅。请注意,这只是基于大量作品的总结,不排除个别作品可能不符合这些标准,我们主要聚焦于常见情况。

  受限于手机屏幕大小,条漫在手机端往往拥有更佳的阅读体验。于是,我们萌生了一个念头:是否存在一种技术方案,能将页漫转换为条漫呢?

  起初,我们考虑直接处理漫画的原始PSD文件,但遗憾的是,大多数页漫年代久远,早已没有PSD原稿。部分作品甚至只是扫描生成的图片。因此,我们决定采用第二种方案——直接对图片内容进行识别后重新排版。

  为确保重新排版的准确性,我们识别了漫画内的多种主体。整个项目的主要流程及使用的模型包括:针对跨越两页的宏大场景,我们训练了MobileNetv2模型来识别并合并这些场景;针对不同结构的模型训练,我们搜集并标注了大量数据;对重叠、内嵌、连通的分镜进行整合时,我们格外小心,以确保不破坏原内容;针对日漫和国漫不同的阅读方向,我们在排版任务中提前进行了相应设置;对于跨页漫画的排版方式判断,我们专门训练了ResNet18模型进行识别。同时,考虑到图片质量可能因传统页漫的固有限制而受影响,我们采用了waifu2x模型进行图像增强。

  在实际技术落地过程中,我们遭遇了比预想中更为复杂的问题。为了不破坏内容的完整性和连贯性,在分镜有重叠及联通区域时,我们保留了原始分镜布局,避免了文字缺失等问题。

  接下来,我们探讨了阅读成本的话题。这里所说的“阅读”,广义上涵盖了“观看”。在对比文字、图片、视频三种互联网内容的展现形式时,我们发现视频在信息维度丰富度及用户操作便捷性上具有显著优势。当前手机普遍较大且重量增加,用户在长时间滑动观看漫画时容易感到手部疲劳。因此,我们思考是否能让用户无需任何操作,就能模拟出人的阅读习惯,让画面自动动起来。

  在调研了现有的自动阅读方案后,我们发现两种方式都存在不足:第一种方式视觉焦点无法固定,长时间观看易产生视觉疲劳和眩晕感;第二种方式虽然体验稍好但较为生硬且无法准确理解画面内容。基于此,我们确定了以下目标:每次滑动距离不定且每个画面停留时间不定以模拟人的阅读习惯。

  为实现这一目标我们对漫画内容进行了细致识别主要识别了漫画格子、气泡文字、动漫人脸等要素。条漫的分镜识别是一个重要难点涉及场景梳理、数据标注及模型训练等复杂工作在此不再赘述。在识别出多种要素后我们还会进行合并工作使画面更完整避免产生过多小画面。最终服务端返回的数据结构被客户端根据用户设备屏幕大小重新适配计算后端返回的视觉单元数据对于较大的分镜会进行拆分而对于较小的分镜则会进行再次合并。

  合适的画面停留时间至关重要。我们通过信息密度来确定当前画面的停留时间信息密度越大阅读成本越高需要停留的时间也就越长。信息密度主要涉及以下因子:文字区域识别、文字格数统计(文字个数越多代表信息越多)、文本权重设置(如作者、责编等信息可设为较低权重)、文字大小影响(文字大小直接影响阅读速度)、弹幕数反映(弹幕数越多画面停留时间可适当增加)以及基础停留时间赋予(无文字及弹幕的画面也会赋予一定基础停留时间)。综合以上因子图像算法团队与客户端团队共同设计了智能画面停留时间公式每个画面都有自己实时计算的停留时间且允许用户根据个人阅读速度进行调整提供多挡可调选项以满足不同需求。

  尽管在漫画自动阅读的探索中我们基本实现了模拟人的阅读习惯让画面能够自动动起来但与视频的体验相比仍存在差距。自动阅读的顺序仍采用自上向下的方式而视频则是画面持续连贯且伴有声音、背景音乐等多种表现形式。虽然漫画受限于图片形态无法达到视频的帧率但我们正在探索以切入画面的形式辅以背景音乐来实现“类视频”的阅读效果甚至进一步识别内容文本后用AI进行配音。目前Demo已初见雏形期待未来能与读者见面共同探索这一创新领域。

© 版权声明

相关文章