新闻

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

财经

杭州商务局总经济师武长虹：未来5年培育10家独角兽...

【亿邦原创】4月27日消息，在2023中国（杭州）新电商大会开幕式上，杭州市商务局总经济师武长虹发表了题...

伊丽莎白·沃伦(Elizabeth Warren)担任总统，为其20...
民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选，但用于推动她竞选的技术将继续存在。她的员工成员宣布，他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...
看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...
今年早些时候，微软提出了一项最雄心勃勃，范围广泛的战略来减少公司运营的碳排放量，从而在企业界引起了轰动。该计划的一部分是一个10亿美元的基金，该基金将投资于减缓气候变化的技术，特别是针...
英国科技产业组建Code4COVID.org以抗击冠状病毒危机
由英国基层技术倡议组织组成的联盟已经聚集在一起，以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光，生活在庇护的门后

人类确实是一群惊人的韧性。尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

“煤矿里的金丝雀”：西雅图营销技术初创公司Amplero...
Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年，并计划将其收入增加近三倍。但是随后发生了COVID-19疫情，经济陷入停滞。 Amplero的客户渠道突然枯竭。现在，该公司正...
首席执行官表示，随着美国关闭，StockX的业务蓬勃发展
StockX是一个高速发展的转售市场，连接着运动鞋，街头服装，手袋和其他可收藏物品的买卖双方，其财富随着价值60亿美元的全球运动鞋转售市场一起增长，而后者是更广泛的1000亿美元运动鞋类别的一部分。...
Zyl重现旧照片以创建协作故事
法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库，并神奇地找到重要的照片。每天，应用程序都会...

研究人员开发了可以从录像中读取嘴唇的AI

发布时间：2019/12/05 新闻 浏览：877

实际上，能够从视频中读取嘴唇的AI和机器学习算法并没有什么不同。早在2016年，来自Google和牛津大学的研究人员就详细介绍了一种系统，该系统可以以46.8%的准确度注释视频录像，优于专业的人读机的12.4%准确度。但是，即使是最先进的系统也难以克服唇部运动的歧义，从而阻止其性能超过基于音频的语音识别。
为了追求更好的性能，浙江大学阿里巴巴分校和史蒂文斯理工学院的研究人员设计了一种方法，称为“按语言说话”(LIBS)，该方法利用从语音识别器中提取的特征作为补充线索。他们说，它在两个基准上都达到了业界领先的准确性，在字符错误率方面，基准比基准高出7.66%和2.75%。
LIBS和其他类似的解决方案可以帮助那些听障人士观看缺少字幕的视频。据估计，全世界有4.66亿人患有失能性听力障碍，约占世界人口的5%。根据世界卫生组织的数据，到2050年，这一数字可能会超过9亿。
LIBS从人类说话者的视频中以多种尺度提取有用的音频信息，包括序列级别，上下文级别和帧级别。然后，通过识别它们之间的对应关系，将数据与视频数据对齐(由于不同的采样率和空白有时会出现在开头或结尾，视频和音频序列的长度不一致)，并且它利用过滤技术来优化蒸馏功能。
LIBS的语音识别器和口语阅读器组件均基于基于注意力的序列到序列体系结构，这是一种机器翻译方法，可将序列的输入(即音频或视频)映射到带有标签的输出和注意值。研究人员对上述内容和LRS2进行了培训，LRS2包含来自BBC的45,000多个口头句子，以及CMLR，它是最大的中文普通话口语语料库，具有来自中国网络电视台网站的100,000多个自然句子(包括3,000多个中文)字符和20,000个词组)。
该团队指出，由于某些句子的简短性，该模型难以在LRS2数据集上实现“合理的”结果。 (解码器努力从少于14个字符的句子中提取相关信息。)但是，一旦对最大长度为16个单词的句子进行了预训练，则解码器将提高LRS2数据中句子结尾部分的质量通过利用上下文级别的知识进行设置。研究人员在描述其工作的论文中写道：“ [LIBS减少了]对无关框架的关注。” “帧级知识提炼进一步提高了视频帧特征的可分辨性，使注意力更加集中。”

上一篇: Twitch引入了新的仪表板，使更多的人可以创建直播

下一篇: 泰国头条新闻举办年度颁奖礼《陈情令》获最具影响力大奖

发布时间: