帮助与文档 > 产品文档 > 智能语音服务 > API文档 > 语音合成模型调用
语音合成模型调用

个性化音色调用

说明

Hi,您好,欢迎使用有道智云个性化语音调用接口服务。

本文档主要针对需要集成HTTP API的技术开发工程师,详细描述个性化语音调用相关的技术内容。

如果您有与我们商务合作的需求,可以通过以下方式联系我们:

商务邮箱: AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

客服QQ:1906538062

智云翻译技术交流QQ 1群: 652880659

智云翻译技术交流QQ 2群: 669384425

智云翻译技术交流QQ 3群: 807539209

智云翻译技术交流QQ 4群: 936752411

联系邮箱: zhiyun@corp.youdao.com

温馨提示:

  • 本文档主要针对开发人员,接入测试前需要在控制台开通账户;如果您还没有,请按照 新手指南 获取。
  • 接入时需要购买语音定制资源包或者联系商务开通,供测试使用,可在平台免费体验。

接口说明

个性化语音调用服务,用户可迅速使用自己定制的语音合成服务。

服务主要分模型定制和模型调用两部分。

协议须知

调用方在集成个性化语音调用服务API时,请遵循以下规则。

规则 描述
传输方式 HTTPS
请求方式 GET或POST
字符编码 统一使用UTF-8 编码
请求格式 表单
响应格式 JSON

接口调用参数

个性化语音定制调用地址:

https://openapi.youdao.com

模型调用阶段

调用TTS接口

  • 接口uri:/ttsapi/tts/model

  • 接口说明:

    模型训练成功以后,如果要合成的内容为文本,调用此接口。

  • 接口参数:

参数名称 类型 含义 是否必填 示例
appKey String 应用ID True 可在 应用管理 查看
salt String UUID(唯一识别通用码) True UUID
curtime String 时间戳(秒) True
sign String 签名 True sha256(应用ID+salt+curtime+应用密钥)
signType String 签名版本 False v4 (目前仅支持v4)
version String 接口版本 False v1 (目前仅支持v1)
docType String 服务器响应类型 False json (目前仅支持json)
modelId String 模型ID True M_CC164FF7040141CD88C96B59B90EC695
q String 待合成的文本 (必须是UTF-8编码,长度不超过1000字符,需要进行urlencode编码) True 比如:"您好"
format String 音频格式(支持mp3,wav格式,默认mp3) True mp3或wav
rate String 合成音频采样率(支持8000, 16000, 44100。默认44100) True 16000
speed String 语速(取值:0.5-2.0,默认1.0) True 1.0
volume String 音量 (取值: 0.5-5.0,默认1.0) True 0.5
  • 响应结果

需要根据Content-Type的值确定是否合成成功: 如果合成成功,正常返回为二进制语音文件,具体的header信息 Content-Type:audio/x-wav 如果合成失败,会返回json结果,具体的header信息 Content-Type:application/json, 可以根据(模型错误码)确定出现的问题。

调用VC接口

  • 接口uri:/ttsapi/vc/model

  • 接口说明:

    模型训练成功以后,如果要合成的内容为文本,调用此接口。

  • 接口参数:

参数名称 类型 含义 是否必填 示例
appKey String 应用ID True 可在 应用管理 查看
salt String UUID(唯一识别通用码) True UUID
curtime String 时间戳(秒) True
sign String 签名 True sha256(应用ID+salt+curtime+应用密钥)
signType String 签名版本 False v4 (目前仅支持v4)
version String 接口版本 False v1 (目前仅支持v1)
docType String 服务器响应类型 False json (目前仅支持json)
modelId String 模型ID True M_CC164FF7040141CD88C96B59B90EC695
file MultipartFile 待合成的音频文件 (2秒-120秒) True 音频文件
  • 响应结果

需要根据Content-Type的值确定是否合成成功: 如果合成成功,正常返回为二进制语音文件,具体的header信息 Content-Type:audio/x-wav 如果合成失败,会返回json结果,具体的header信息 Content-Type:application/json, 可以根据(合成错误码)确定出现的问题。

语音合成类型

类型 类型描述
vc 语音转语音,输入音频,输出定制化音色音频
tts 文本转语音,输入文本,输出定制化音色音频

服务配置

输出格式 单次最大请求字符数 单次最大请求时长 支持语言
wav 1000 2s - 2min 中文

模型错误码

错误码 错误码含义
101 缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。
102 不支持的语言类型
103 翻译文本过长
104 不支持的API类型
105 不支持的签名类型
106 不支持的响应类型
107 不支持的传输加密类型
108 应用ID无效,注册账号,登录后台创建应用和实例并完成绑定,可获得应用ID和应用密钥等信息
109 batchLog格式不正确
110 无相关服务的有效实例,应用没有绑定服务。注:某些服务的结果发音需要tts服务,需要在控制台创建语音合成实例绑定应用后方能使用。
111 开发者账号无效
112 请求服务无效
113 q不能为空
114 不支持的图片传输方式
115 语音包异常:不存在或者已删除或者不属于当前devId
116 modelId 无效
201 解密失败,可能为DES,BASE64,URLDecode的错误
202 签名检验失败
203 访问IP地址不在可访问IP列表
205 请求的接口与应用的平台类型不一致,确保接入方式(Android SDK、IOS SDK、API)与创建的应用平台类型一致。
206 因为时间戳无效导致签名校验失败
207 重放请求
303 服务端的其它异常
401 账户已经欠费停
402 offlinesdk不可用
403 无权限
404 资源不存在
405 auth服务不可用
117 鉴权失败
110 无相关服务的有效实例
303 服务端异常
2004 合成字符过大
2301 合成失败
2302 合成次数不足
2303 文件不能为空
2304 文件错误
2305 文件格式错误
2306 modelId 无效
2307 packetId 无效
2308 文件大小错误