rss信息聚合

12种语言!Google推出云语音合成服务

2018-03-29 23:26:43 作者:郭美珍 来源:TechDaily 浏览次数:0 网友评论 0 | Share to

【TechDaily电子报2018年3月29日吉隆坡讯】一直以来,许多开发者都希望自己的应用程序能够具备语音合成功能。为了满足开发者的需求,谷歌不断完善语音合成技术,今日宣布在谷歌云端平台上(Google Cloud Platform)上正式推出云语音合成服务"Cloud Text-to-Speech”。

许多谷歌产品(例如:Google Assistant、Search、Maps)都内嵌高质量的文本到语音合成功能,可生成自然的语音。

Cloud Text-to-Speech的用途广泛,可用于:

    构建呼叫中心自动语音应答系统 (IVRs),并实现实时自然语言人机对话

    启动物联网设备(例如:电视、汽车、机器人)的语音和应答功能

    将基于文本的媒体(例如:新闻文章、书籍)转换成语音格式(例如:播客或有声读物)

Cloud Text-to-Speech提供32种语音,并支持12种语言和语种,以及MP3和WAV等多种音频格式。

它能够准确地生成包括人名、日期、时间、地址等复杂文本的语音,发音自然、无违和。此外,用户也可自定义音调、语速、音量、增益等因素。

站在巨人的肩膀上 —— Cloud Text-to-Speech 的成功史

谷歌马来西亚(Google Malaysia)今在声明中指出:“我们很高兴地宣布,Cloud Text-to-Speech也提供基于WaveNet技术的高度仿真语音。WaveNet为一款原始音频的生成模型,由DeepMind研发而成,可合成更为自然的语音,并生成质量普遍高于其他语音合成技术的语音音频。”

在2016年年底,DeepMind推出了WaveNet的第一个版本。当时,WaveNet为一个神经网络模型,以大量语音作为训练样本,可完全自动生成原始的音频波形。

样本训练时,该网络提取语音的底层结构,如:延展音调和真人语音应有的波形。当输入文本时,已训练的WaveNet模型将依据个别样本生成相应的语音波形,并在时间的推进下逐渐筛选出准确性最高的合成方法。

“而今天,我们使用的是升级版的WaveNet。此升级版模型运行于Google的 Cloud TPU 基础设施,生成原始波形的速度比原版快上1,000 倍,并可在50毫秒内生成一秒的语音。”

“不仅如此,该模型的仿真度也比原版更高,可以一秒24,000个样本的速度生成波形。此外,我们也提升了音频质量,将每个样本的分辨率从8位增至16位,以生成更为仿真的语音。”

通过这些调整,新的WaveNet 模型得以生成更自然的语音。在针对升级版 WaveNet 的平均意见得分 (MOS) 测试中,受试者平均给其美国英语语音打了4.1 分(分数范围为 1-5 分) —— 此得分比标准语音高20%,并将人机语音的差距缩小了70%。

由于 WaveNet 语音需要较少的录制音频输入即可生成高质量的语音模型,WaveNet语音模型的数量有望在未来数月内增加,质量也有望提升。

作为WaveNet同样的声音需要较少的录制音频输入,以生产高品质的车型,我们希望继续提高两个品种,以及在未来几个月内云客户WaveNet声音的质量。

迄今为止,已有不少客户通过 Cloud Text-to-Speech 为终端用户提供更好的体验,包括思科 (Cisco) 和 Dolphin ONE。

Cloud Text-to-Speech 为全世界最先进的语音技术之一,而您只需点击几下即可立即使用它。欲了解更多详情,可浏览欲Cloud Text-to-Speech的官方网站(https://cloud.google.com/text-to-speech/)试用公测版或新语音服务。
 

[错误报告] [推荐] [收藏] [打印] [关闭] [返回顶部]

  • 验证码:

最新图片文章

最新文章