新闻 news
您现在的位置:首页 > 新闻 > Google高度可扩展的AI可以发出令人信服的人性化语音

新闻

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

财经

杭州商务局总经济师武长虹:未来5年培育10家独角兽企业 杭州商务局总经济师武长虹:未来5年培育10家独角兽...

【亿邦原创】4月27日消息,在2023中国(杭州)新电商大会开幕式上,杭州市商务局总经济师武长虹发表了题...

  • 伊丽莎白·沃伦(Elizabeth Warren)担任总统,为其20...

      民主党参议员伊丽莎白·沃伦(Elizabeth Warren)可能已经结束了她的2020年总统大选,但用于推动她竞选的技术将继续存在。 她的员工成员宣布,他们将公开公开展示沃伦为成为民主党总统候选人而开发的顶...

  • 看来布兰登·米道(Brandon Middaugh)正领导着$ 1B的...

      今年早些时候,微软提出了一项最雄心勃勃,范围广泛的战略来减少公司运营的碳排放量,从而在企业界引起了轰动。 该计划的一部分是一个10亿美元的基金,该基金将投资于减缓气候变化的技术,特别是针...

  • 英国科技产业组建Code4COVID.org以抗击冠状病毒危机

      由英国基层技术倡议组织组成的联盟已经聚集在一起,以协调支持英国应对冠状病毒的关键技术人员群体。 COVID19技术响应(CTR)旨在协调可用技术人才的供应;处理需要解决的问题以及两者的匹配。到目前为...

商业

视频聊天聚会带来欢乐时光,生活在庇护的门后 视频聊天聚会带来欢乐时光,生活在庇护的门后

  人类确实是一群惊人的韧性。 尽管在佛罗里达海滩上举行聚会的偷偷摸摸的人肆意冒着将冠状病毒传...

  • “煤矿里的金丝雀”:西雅图营销技术初创公司Amplero...

      Amplero的前途一片光明。这家西雅图营销技术初创公司以积极的势头进入2020年,并计划将其收入增加近三倍。 但是随后发生了COVID-19疫情,经济陷入停滞。 Amplero的客户渠道突然枯竭。现在,该公司正...

  • 首席执行官表示,随着美国关闭,StockX的业务蓬勃发展

      StockX是一个高速发展的转售市场,连接着运动鞋,街头服装,手袋和其他可收藏物品的买卖双方,其财富随着价值60亿美元的全球运动鞋转售市场一起增长,而后者是更广泛的1000亿美元运动鞋类别的一部分。...

  • Zyl重现旧照片以创建协作故事

      法国初创公司Zyl发布了适用于iOS和Android的移动应用程序的重大更新。该应用程序旨在查找照片库中重要生活事件的被遗忘的回忆。 Zyl会扫描您的照片库,并神奇地找到重要的照片。每天,应用程序都会...

Google高度可扩展的AI可以发出令人信服的人性化语音

发布时间:2019/10/02 新闻 浏览:614

 
生成对抗网络(GAN)是一种通用的AI体系结构类型,非常适合从有限的数据合成图像,视频和文本。但是由于许多设计挑战,它在音频制作领域的应用并不多,这就是为什么Google和伦敦帝国理工学院的研究人员着手创建一个能够匹配(或匹配)状态的基于GAN的文本到语音系统的原因最先进的方法。他们说,他们的模型不仅可以产生具有“自然”感的高保真语音,而且具有高度可并行性,这意味着与传统的替代方案相比,它更容易在多台机器上进行训练。
“ [最新TTS]模型的显着局限性在于它们难以随时间并行化:它们可以按顺序预测音频信号的每个时间步,这在计算上是昂贵的,而且通常不切实际,”合著者写道。 。 “有关TTS神经模型的最新研究集中在通过并行预测多个时间步长来提高并行度。生成并行波形的另一种方法是使用生成对抗网络……据我们所知,GAN尚未大规模应用于非可视域。”
研究人员提出的系统GAN-TTS由卷积神经网络组成,该神经网络通过训练具有567个编码的语音,时长和音高数据的语音语料库来学习产生原始音频。为了使模型能够生成任意长度的句子,研究人员对价值44小时的2秒窗口以及为5毫秒窗口计算的相应语言特征进行了采样。
GAN-TTS将卷积神经网络与10个鉴别器集成在一起,这些鉴别器试图区分真实语音和合成语音。一些鉴别器会考虑语言条件,以衡量所生成的音频与输入话语的对应程度,而另一些鉴别器会忽略条件,只能评估音频的一般真实感。
使用上/下箭头键增加或减少音量。
研究人员首先通过人工评估人员以1,000个句子对GAN-TTS的性能进行了评估。每个人的任务是听长达15秒的语音,并标出句子的主观自然性,然后将他们的分数与Google尖端WaveNet模型报道的分数相提并论。另外,研究人员使用新提出的一系列指标对GAN-TTS的性能进行了定量评估。
最后,性能最佳的模型(经过多达100万步的​​训练)达到了与基线相当的分数,同时每个样本仅需要0.64 MFLOP(每秒数百万个浮点运算)(WaveNet每个样本需要1.97 MFLOP) 。研究人员说,结果“展示了使用GAN进行文本到语音转换的可行性”。
“与最新的文本语音转换模型不同,GAN-TTS经过对抗训练,生成的生成器是前馈卷积网络,”合著者写道。 “这允许非常有效的音频生成,这在实际应用中很重要。”

姓 名:
邮箱
留 言: