1. 0801 的 凌晨 0 点起 B 榜开始接受提交。请参赛者注意,因为 A 榜、B 榜同时存在,大家在提交界面时,请注意切换 A 榜、B榜,以免提交错误位置。切换方式请见如下示意图:
2. 请注意,当前进入 B 榜阶段后,每个队伍/选手有两次渲染测试申请机会,当前的渲染测试每周三截止收取一次,每周五前反馈渲染内容。
3.请注意,B 榜的测试集、评分规则、评分内容均有更新和调整,请以该补充文档为准:点我访问
此处简要说明如下:
1)B 榜测试集包含有三种类型测试任务:中之人录制语音(6min左右)、TTS 合成语音(1.5min 左右)、上海电视台新闻提取语音( 2.5min 左右)
2)B 榜提交时需针对上述三种任务均输出对应 blendshape 并打包提交至平台
3)输出的 blendshape 需考虑眼部动作,眼部动作可不通过 AI 模型输出,具体眼部动作的设定、生成需在最终 PPT 中写明方法
4)线上 B 榜评分时,仅针对「中之人录制语音」的对应 blendshape 予以客观评分,且 blendshape 的参数维度中不包含眼部动作等(与 A 榜一致)
5)B 榜截止后,我们将选取实名认证、有有效数据申请、且有有效 A 榜成绩的的 在 B 榜排名前 20 的选手,提交解决方案 PPT、模型代码。
6)我们将邀请 10 名主观评审,对选定的测试任务做主观评价。测试任务、主观评价维度请详见上方文档链接。测试任务的 blendshape 将由 SMG 技术中心统一做渲染处理生成视频提供至评审。
4. 竞赛官方解读视频回放如下:
出题方:SMG技术中心(上海东方传媒技术有限公司)、SMG融媒体中心、AR/VR技术及应用国家工程实验室
随着“元宇宙”概念的火爆,数字人被越来越多出现在我们生活的方方面面。SMG在2020年退出了虚拟二次元新闻主播“申䒕雅”,并在2022年转正有了写实风格的数字人形象。创造一个数字人需要大量时间和经历,虚拟人物的创造包括:人物原型、建模、生成、渲染等;虚拟人物的驱动方式包括:手动制作动画、动作捕捉技术、AI智能驱动技术。
随着AI技术的发展,越来越多人开始用AI来控制数字人的动态行为。通过对接AI大脑(知识库),让AI数字人具备了特定场景下的识别信息、理解信息、反馈信息的智能人机交互能力。
然而在实际应用中,让数字人能够模拟真人情感和行为细节仍然是正在不断优化的行业研究课题。本次的赛题即为实际应用中的研究课题之一:如何让数字人可能基于对文本语音的理解,有更真实的表情和口型的表现力 。本次赛题将以SMG新闻主播“申䒕雅”数字人为虚拟主角,提供其中之人大量动捕数据的供机器学习,形成一套AI算法来通过文本语音驱动数字人表情口型。
|
A 榜 |
B 榜 |
训练集 |
1、原始的文本数据; 2、“中之人”念文稿的原始语音数据; 3、“中之人”通过动捕系统捕捉生成数据,并绑定在数字人的“申䒕雅”模型上生成的BlendShape参数,共30min左右。(按 25FPS 输出,一秒音频对应 25 组 BlendShape 参数) |
不再提供额外训练集 |
测试集 |
1、原始的文本数据; 2、“中之人”念文稿的原始语音数据; 3、“中之人”通过动捕系统捕捉生成数据,并绑定在数字人的“申䒕雅”模型上生成的BlendShape参数,共10min。 |
中之人录制的语音数据(6min)左右; TTS 合成的语音数据(1.5min)左右; 上海电视台新闻提取的语音数据(2.5min)左右 |
提交要求 |
1、选手(团队或个人)需完成系统实名认证,签署保密协议方能有效参赛。 2、提交算法模型,可基于文本/语音输出数字人“申䒕雅”的BlendShape参数。 3、A榜启动至 7 月 31 日,选手可有最多2次申请生成数字人视频的机会,可通过左侧「渲染测试」标签了解详情。 4、最终提交算法模型至AIWIN平台。 |
1、须有有效的 A 榜成绩,B 榜成绩才能生效。 2. 提交算法模型,可基于文本/语音输出数字人“申䒕雅”的BlendShape参数。 3、B 榜开启后,选手可再获得最多 2次中途生成数字人视频的机会,可通过左侧「渲染测试」标签了解详情。 4、最终提交算法模型代码和解决方案PPT至AIWIN平台。 |
关键节点(拟) |
7 月 5 日开启A 榜
|
8 月 1 日0:00 开启 B 榜 (A 榜继续运行) 8 月 14 日 24:00 关闭线上榜单 8 月下旬答辩 9 月上旬颁奖 |
提交限制 |
每日做多3 次提交 |
全程最多 3 次提交 |
晋级或奖励 |
|
依据:综合B 榜有效成绩排名将要求前 20 名提交 PPT 和代码,结合 PPT、代码审核及对 Blendshape 的渲染主观评价,将选取有效的前 10 名进入终审路演答辩,结合答辩成绩,确定最终奖项归属 。
奖励: 1.12 万元奖金池 2.企业:SMG长期合作数字人项目的机会 3.个人:SMT(SMG 技术中心)实习或入职优先考虑 4.AIWIN 证书
|
SMG技术中心(上海东方传媒技术有限公司)、SMG融媒体中心、AR/VR技术及应用国家工程实验室
随着元宇宙的兴起,越来越多的厂商将战略资源投入到元宇宙和数字人。作为人机交互的重要组成部分,表情和口型驱动广泛用于游戏、电影、人机对话、虚拟主播等。不同于传统的动画和游戏,元宇宙的世界对表情和口型有更高的要求,从而使数字人(digital human)表情更加丰富、细腻;口型与表达的内容更加吻合,以提升元宇宙情感体验。
表情(expression)可被视作由无数个表情基准通过线性组合而计算得到,用公式来说就是e=Bd+b,其中e是expression,B是一组表情基准(即blendshape,可以是皱眉、闭合眼皮、嘴角扬起等,越细分表情约细腻),d是对应的系数(在这一组里面的权重),b是neutral。当下,Maya 等软件在制作数字人动画时均需通过 blendshape 参数来实现表情动画的定义。
我们的竞赛任务即希望通过给定的语音文本,通过 AI 算法生成对应的 blendshape 参数,从而在 Maya 等软件中可以驱动对应人物表情。
为便于选手快速了解 Blendshape,可参考以下短视频的演示,视频中左侧的参数列表例如“Jaw Open”等都代表了脸部某一细节如唇角上扬、口型开闭、眼睛张闭等程度,通过对这一系列参数(统称为 blendshape)的数值(0-1 之间)予以控制,将能刻画一个数字人某一帧的口型表情,而当多帧连续放映就形成了动画效果
本次赛题将提供语音以及所对应的文本和blendshape参数,语音通过真人朗读文本获得,blendshape参数通过人脸面部捕捉设备获得。
参赛选手通过端对端训练语音/文本—blendshape参数,得到人脸表情驱动模型。在测试阶段,输入为语音或文本数据,输出为blendshape参数,通过blendshape参数,将用于驱动虚拟数字人面部表情。比赛任务即:
输入:语音/文本数据
输出:blendshape参数(要求25FPS,即1秒音频输出25个blendshape,训练集按同样要求采集生成)
|
初赛 |
复赛 |
训练集(含验证集,请自行划分) |
30 min左右的语音数据以及所对应文本和BlendShape参数(按 25FPS 输出,一秒音频对应 25 组 BlendShape 参数),实名认证并签署保密协议后可获取 |
不再提供额外训练集 |
测试集 |
10 min语音数据以及所对应文本,可下载 |
10 min语音数据以及所对应文本,可下载 |
“1.wav”示例内容:略
“1.txt”示例内容:床前明月光,疑是地上霜
“1.csv”示例内容:csv 格式文件,请具体参见「下载」-「数据示例」
本赛题共分成三个大阶段:
线上比赛(A、B 榜)——成绩复核——终选答辩
线上比赛阶段采用 A、B 榜模式,并在 PPT 和代码核验后挑选前 10 名进入终选答辩
该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)。
团队创建需经管理员审核(若正式代表某机构或企业参赛,需机构或企业出具相应盖章函件证明方可建立)。
参与的选手,需与SMG技术中心(SMT)签署相关的参赛协议,以规范数据使用范围和履行保密义务。
设定每日最多 3 次提交(A 榜) / 设定全程最多 3 次(B榜)
请注意,为避免不可预见的问题,团队中请保持使用统一账号负责提交。具体保留在排行榜上的成绩按照 D 小节「排名规则」的设定。
排行榜显示最佳成绩。
排行榜截止排名后,工作人员将对排行榜做复核,确认所有榜上个人和团队都已完成实名认证,并剔除相关小号记录等。
1)线上比赛结束后,AIWIN 将在1 天内确定 B 榜有效的前 20 名,通知提交 PPT 和代码。
2)为便于选手准备,请 B 榜成绩进入前 30 的提前准备 PPT 和代码。我们正式通知提交后,一般给于的提交时间为 2 天内提交完毕。
3)相应提交方式和要求届时将邮件通知。
4) PPT 可参照如下结构准备:
5) 代码请整理后,提供 README 文档,文档内应对代码的运行方式、代码结构、代码依赖等做相关说明,并确保提供的代码可独立运行复现结果。
6)20 名提交内容后,将送审 SMG技术中心做技术复审,以及针对主观评价任务做主观评审,经过综合评定后,将通知前 10 名进入决赛答辩
采用如下评价方式。
模型输出要求25FPS(即1秒视频输出25个blendshape)
模型性能将通过RMSE计算一段输入音频输出的blendshape平均损失
公式如下:
参考代码如下:
完整示例代码:链接: https://pan.baidu.com/s/1ZwsqCsGEu5U_v55K1BEX2Q?pwd=5mxj 提取码: 5mxj
对测试集,我们将计算平均损失,分数越小,性能越佳(排名越高)
B 榜 20 名选 10 名进入决赛时,将增加主观评价方式,即通过输出的blendshape,渲染驱动3D模型,主观评价表情和口型优劣。(具体主观评价和客观分数的比例,将在稍后赛程中进一步确定和公布)
主观评价仅针对下述三个任务开展:
“中之人”:59.wav
TTS合成:tts_2.wav
新闻提取:tv_1.wav
我们将邀请 10 名评审参与主观评价,其维度为:
- 声画同步
- 开口音整体准确度
- 闭口音整体准确度
- 是否有无意义抖动
- 生成发音的成功率
- 整体嘴部说话逼真度
- 眨眼自然度
综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
采用如下评价方式。
模型输出要求25FPS(即1秒视频输出25个blendshape)
模型性能将通过RMSE计算一段输入音频输出的blendshape平均损失
公式如下:
参考代码如下:
完整示例代码:链接: https://pan.baidu.com/s/1ZwsqCsGEu5U_v55K1BEX2Q?pwd=5mxj 提取码: 5mxj
对测试集,我们将计算平均损失,分数越小,性能越佳(排名越高)
B 榜 20 名选 10 名进入决赛时,将增加主观评价方式,即通过输出的blendshape,渲染驱动3D模型,主观评价表情和口型优劣。(具体主观评价和客观分数的比例,将在稍后赛程中进一步确定和公布)
主观评价仅针对下述三个任务开展:
“中之人”:59.wav
TTS合成:tts_2.wav
新闻提取:tv_1.wav
我们将邀请 10 名评审参与主观评价,其维度为:
- 声画同步
- 开口音整体准确度
- 闭口音整体准确度
- 是否有无意义抖动
- 生成发音的成功率
- 整体嘴部说话逼真度
- 眨眼自然度
1. 参赛者身份属性、队伍组成成分均以保密协议签署的内容为准,一经审核通过,不再发生变化。
2. 所有参赛者,无论是自然人或法人组织,均需按照保密协议的约定,不得私自或公开分享传播赛事数据
1. 账号注册:队伍中的所有人应在ailab.aiwin.org.cn的平台注册了账号
2. 实名认证:队伍中的所有人应通过实名认证(地址:http://ailab.aiwin.org.cn/my/verification/,具体步骤也可参考「实名认证」的专题标签。如因为手机号实名信息与身份证不符等原因而实名认证无法通过,可先跳过实名认证,在提交协议环节我们会手工做验证)
3. 参赛报名:队伍中的所有人应在竞赛页面点击「参赛提交」报名赛事
4. 队伍组建(如需):队伍中的所有人应通过竞赛的「队伍管理」组建或加入了队伍 (如不清楚具体怎么操作,可点击页面右上角「使用手册」具体了解),协议签署手续完成后,队伍的组成情况以协议签署的版本为准。
5. 协议签署:
如果你们队伍是由个人(即不代表任何机构)组成的,那么请签署个人版保密协议(链接见下),请确保每个人都已单独签署一份,并已准备好了身份证复印件
如果你们队伍中有任何机构需要以机构身份参赛,请准备好机构盖章的法人版保密协议(链接见下),并请准备好营业执照扫描件
6. 协议提交:https://jinshuju.net/f/WnNdD7
7. 协议审核:我们会在 2 个工作日内尽快对材料予以审核,并邮件反馈团队
8. 数据下载:获得数据链接的选手可下载数据,请注意根据协议,任何选手无论个人或法人机构都无权传播该数据,请勿私自向任何其他未签署协议的个人、机构提供数据。任何个人、机构未完成上诉材料提供,而获得数据并提交的结果都将视为无效提交。
协议的获取地址和说明地址:https://pan.baidu.com/s/1gGxNo_SplzgWMrLUhOZ8_g 密码: lma9
请注意以下几点:
1. 如无需 SMT侧提供盖章版,可仅通过上方电子渠道提交单章/单方签字的扫描件即可
2. 如需要 SMT 侧盖章,请按照协议要求完整准备正本协议和相应附件,一并寄送到上诉协议文件夹下的协议说明里提供的地址
本竞赛的任务是利用人工智能机器学习方式代替传统动捕获得语音文本对应的 BlendShape 参数,从而加速数字人的生产效率。为了能够让选手直观检视机器学习产出参数组的实际效果,命题方牵头单位 SMG 技术中心为选手提供了渲染测试服务,能够为选手自选的一个特定 BlendShape 文件(即测试集中对应的一个特定文本音频)做渲染,并返还生成的视频。
1. 测试申请截止节点:
为提高渲染测试的效率,赛事设定每周日晚 24 点统一截止一批申请的采集,并在次周一由 SMG 技术中心统一渲染返还给选手。
(B 榜期间修正为 8 月 3 日周三、8 月 10 日周三两次截止收取,周五反馈)
2. 有效测试申请:
有效的测试申请必须含有完整、有效、真实的填写信息,且上传的 blendshape 文件有效、按要求命名
blendshape 命名规则:文件命名为[选手名-Audio 名],即两部分组成
- 选手名:即你们的团队名称或个人参赛的话即个人用户名
- 对应 Audio 名:对应测试集中的 Audio 名
3. 测试次数限制:
-截止7 月 31 日(含当天),每个有效的团队有 2 次提出申请的机会;
-8 月 1 日-8 月 14 日期间,每个有效的团队可获得额外 2 次提出申请的机会;
1. 请首先至https://jinshuju.net/f/LiOcBu 提交申请,你应当准备好你们需要申请渲染的 BlendShape 文件
2. 每周一至周日 24 点为一个申请接收周期,我们将统一再「次周一」将上周的有效申请转交给 SMG 技术中心
3. SMG技术中心将按照时间倒序(先提交的先渲染)开始渲染生成视频
4. 视频渲染完成后,将返还至申请中预留的邮箱
请注意渲染时间随着每周申请量变化而有所不同,请给到 1-2 个工作日的预期。
1.Audio-Driven Facial Animation by Joint End-to-End Learning of Pose and Emotion 2017
2.VisemeNet: Audio-Driven Animator-Centric Speech Animation 2018
3.Capture, Learning, and Synthesis of 3D Speaking Styles 2019
4. AUDIO2FACE: GENERATING SPEECH/FACE ANIMATION FROM SINGLE AUDIO WITH ATTENTION-BASED BIDIRECTIONAL LSTM NETWORKS 2019
5. A Novel Speech-Driven Lip-Sync Model with CNN and LSTM 2022
https://github.com/FACEGOOD/Voice2Face
请注意,2022 赛季起实名认证都将作为晋级或切榜后成绩有效的前提。
实名认证需通过点击系统右上角用户名处,进入「设定」界面操作。
在此界面请先确认姓名是否为真实姓名,若不是请修改,并点击页面最下方的保存按钮。之后点击「前往实名认证」
在实名认证页面,你需要填入自己的身份证号和手机号(请使用登记在你身份证名下的手机号)
若三者信息匹配即可完成实名认证。如有技术问题,请按页面提示联络我们。
结合2022AIWIN春季赛季赛题,机械出版社华章分社推荐以下书籍,希望能够帮助各位参赛选手取得好的成绩!同时对于优秀的参赛选手也将提供部分书籍奖励。感兴趣的同学也可到 AIWIN 专题书单页面购买(京东专题页传送门,当当专题页传送门)
推荐语:将深度学习方法应用于各种自然语言处理任务,可以让你的算法在速度和准确性方面提升到一个全新的水平。本书首先介绍自然语言处理领域的基本构件,接着介绍使用*的神经网络模型可以解决的问题。深入研究各种神经网络架构及其特定的应用领域将有助于你理解如何选择*模型来满足你的需求。随着学习的深入,你将学到卷积神经网络、循环神经网络、递归神经网络以及长短期记忆网络。在后面的章节中,你将能够使用自然语言处理技术(如注意力机制模型和集束搜索)开发应用程序。
推荐语:这是一部讲解如何基于NLP技术和人机交互技术实现聊天机器人的著作。
两位作者聊天机器人领域均有多年大型项目的实战经验,这本书不仅讲解了NLP和人机交互的核心技术,而且从技术、算法、实战3个维度讲解聊天机器人的原理、实现与工程实践。
推荐语:这是一本能让读者快速从零开始构建工业级知识图谱的著作。作者是知识图谱和自然语言处理领域的专家,本书得到了OpenKG联合创始人王昊奋、清华大学教授李涓子、东南大学教授漆桂林、美团知识图谱团队负责人张富峥、文因互联创始人鲍捷等学界和业界知识图谱扛旗人的一致好评和推荐。
本书不仅详细讲解了知识图谱的技术原理和构建工具,而且还循序渐进地讲解了知识图谱的构建方法、步骤和行业应用。配有大量实战案例,并且开放了源代码,确保读者能学会并落地。
推荐语:IBM研究员Ken Barker及谷歌知识图谱Denny Vrandecic作序推荐,介绍神经网络和知识图谱的结合在NLP中的应用。书中准确地演示了如何创建和使用上下文表示,对意义嵌入和知识图谱嵌入有着明确的处理方法,解释了使用它们的语言模型和Transformer体系结构。
推荐语:为互联网企业的智能平台构建提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的技术指导,适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。
当前系统仅接受压缩包,所以请将所有任务对应的 blendshape 的 csv 文件统一打包入一个压缩包,并按命名规范操作上传提交。
请注意,该压缩包应当在 unzip 命令下解压后,在解压路径的根目录下能够直接得到所有 csv 文件,而无文件夹嵌套。
如有文件夹嵌套,系统将无法自动定位到 csv 文件,从而无法判分而抛出异常。
1. 请注意,提交界面上传文件后,提交物会先后经历[submitting- submitted - running - finished] 数个状态。
2. 待进入 finished 状态后,可点击”+“号 展开该行提交
3. 点击「查看 scoring output 输出」可看到详细的每个 blendshape 的分数和总分 score
4. 请注意当前 score 数值越小越接近 0代表生成的 blendshape 越好
5. 排行榜采用的是取你历史提交最佳成绩显示,因此建议你是提交后,隔 1 分钟刷新提交页面,查看此轮提交物的输出分数
6. 如果发现排行榜显示的分数并非是你的最好成绩,请邮件至 it@aispacesh.com 反馈该问题,我们尽快介入处理。
在 Traceback 中直接输出的报错信息
FileNotFoundError: [Errno 2] No such file or directory: './input/ref/xxxx.csv'
含义:评审程序会读取 ground truth,并试图通过同样的文件名找到对应的提交答案,如出现上述错误,说明你对输出的 blendshape 的命名有误。请检查,如测试任务是A1.wav,则对应的输出应该是 A1.csv
在 Traceback 中直接输出的异常
KeyError: 'XXXXXX'
含义:请确认你的输出中是否正确输出了 blendshape 的参数,正确的参数个数应该为52个(请以 数据包中 blendshape-example(输出模版参考).zip 为准)
在 Traceback 中直接输出的异常
ValueError: Found input variables with inconsistent numbers of samples: [xxx, yyy]
含义:初步判断应当是你输出的 blendshape 文件的行数与 ground truth 有差异,或你的 blendshape 可能包含多余的参数列,请检查
Start: 七月 5, 2022, 8 a.m.
概述: [已开启]赛事分 AB 榜,必须有有效 A 榜成绩方能使 B 榜成绩生效,A 榜终止日期为 8 月 14 日
Start: 八月 1, 2022, 午夜
概述: B 榜自 8 月 1 日开启接受提交,前 30 名请自行做好提交 PPT 和代码准备,待 8 月 14 日榜单封榜后,有效的 20 强将收取代码和 PPT
Start: 八月 15, 2022, 午夜
概述: 代码和 PPT 复核及渲染输出结果后,将邀请 10 强选手线下答辩
九月 15, 2022, 8 a.m.
请登陆来参加比赛
登入# | 用户名 | 分数 |
---|---|---|
1 | invatar | 0.123 |
2 | azrael | 0.130 |
3 | shuaigui | 0.141 |