假如机器会说话之 "全球通"

Cet article a été publié le August 3, 2021

文字转语音功能（Text-To-Speech，简称TTS）在当今市场上越发广泛应用，如今的用户对于更仿真、更悦耳的TTS引擎有着极高的需求。因此，基于AI技术而且可高度定制的TTS引擎应运而生。它们听起来不像机器人；它们有着和人类一样的音高、语速和发音变化，让我们感觉就像在和真人对话一样。

Illustration of a bot call agent addressing calls

在这个云技术和人工智能的时代，在人机互动的过程中，机器人说话不能再像先前一般刻板，而应该更向真人靠拢。

文字转语音功能（Text-To-Speech，简称TTS）在当今市场上越来越被广泛应用，如今的用户对于更仿真、更悦耳的TTS引擎有着极高的需求。因此，基于AI技术而且可高度定制的TTS引擎应运而生。它们听起来不像机器人；它们有着和人类一样的音高、语速和发音变化，甚至是口音，让我们感觉如同在与真人对话一样。

通过SSML实现自然的文字转语音效果

语音合成标记语言（SSML）是一种基于XML的标记语言，开发者可利用其控制TTS的输出特性，以匹配我们的说话方式。SSML通常嵌入在VoiceXML脚本中以驱动交互式电话系统，但也可以单独用于创建有声读物，以及类似的语音服务。

基础TTS功能有一个问题，就是它无法根据语境来发音。例如，当输入的文字是PIN码时，比如 "605014"，可以读成 "六十万五千零十四"，或者 "六、零、五、零、一、四"。因为这是PIN码，所以应该一个数字、一个数字地发音，但基础TTS功能无法区分PIN码和代表数量的数字。支持SSML的TTS功能可以让开发者在文字中添加语境，以便系统能够充分理解上下文。

有了支持SSML的TTS，开发者可以进一步对音高、语速、重音、停顿、音量和发音进行编程，使输出的语音符合语境。

常用的主要标签有：

<break> — 插入停顿
<prosody> — 控制音量、音高和语速
<lang> — 表明短语或单词所属的语言
<say-as> — 表明文字应该如何解读

SSML还支持动态范围压缩、耳语声和音轨长度，使用户体验得到进一步优化。

现在，某些 Voice API 内包含支持SSML的TTS功能，能够帮助中国企业触达更多全球用户，提供更好的用户体验，并实现语音通信的高度自动化，从而大幅削减成本。

46种语言，200种口音

对于用户群体遍布全球的中国出海企业来说，为用户提供多语言的支持和沟通必不可少。支持更多语言则意味着更高的国际触达率和更好的用户体验。

短信消息和营销邮件的吸引力不如语音电话，但同时，雇佣电话营销员工的相关成本非常高昂。在SSML技术的配合支持下，TTS解决了这个问题。它帮助企业在进行推式营销和电话回访时，实现不同语言和口音的自动化通信，能够完美匹配品牌的语调和风格。

包含TTS功能的 Voice API 支持全球46种语言和200多种口音，确保企业在与用户交流时使用他们的母语和口音。这些语言和口音覆盖约45亿人口，包含普通话、阿拉伯语、英语、西班牙语、印地语、法语和丹麦语等最常用语言。当SSML与母语支持结合使用时，通话效果与人类无异，用户会感觉像是真人正在电话的另一头与他们通话。

虽然TTS可以满足大多数的语音通信需求，但有些时候，真人语音也必不可少。此时，TTS允许企业在通话过程中播放真人录音，实现工作效率最大化。

Voice API 与商务工具集成，让中国出海企业可以通过市场营销扩大受众范围，或借助电话营销传播信息，提供交互式语音应答（IVR）反馈，以及自动化的电话安全验证和通知服务。

总结

显然，声音机械刻板的基础TTS已经无法提供优质用户体验。利用TTS实现通信自动化，可以大幅降低成本和提高工作效率。服务全球用户群体的企业，可以利用 Vonage Voice API 提供的全球语言支持来实现这一目标。

通过支持SSML的TTS，企业可以克服基础TTS功能的局限性，实现音高、语速和发音方面的定制化，也可以为文字添加语境。最新的TTS引擎支持超过40种语言和200种口音，与SSML结合使用时，企业可以为用户提供无与伦比、发声自然的语音通话体验。

假如机器会说话之 "全球通"

通过SSML实现自然的文字转语音效果

46种语言，200种口音

总结

Parlez avec un expert.

Société

Réseaux sociaux

Informations légales/politiques

For a better experience, switch to a different browser.