帮助与文档 > 产品文档 > 智能语音服务 > API文档 > 语音合成模型调用
语音合成模型调用

个性化音色调用

说明

Hi,您好,欢迎使用有道智云个性化语音调用接口服务。

本文档主要针对需要集成HTTP API的技术开发工程师,详细描述个性化语音调用相关的技术内容。

如果您有与我们商务合作的需求,可以通过以下方式联系我们:

商务邮箱: AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

客服QQ:1906538062

智云翻译技术交流QQ 1群: 652880659

智云翻译技术交流QQ 2群: 669384425

智云翻译技术交流QQ 3群: 807539209

智云翻译技术交流QQ 4群: 936752411

联系邮箱: zhiyun@corp.youdao.com

温馨提示:

  • 本文档主要针对开发人员,接入测试前需要在控制台开通账户;如果您还没有,请按照 新手指南 获取。
  • 接入时需要购买语音定制资源包或者联系商务开通,供测试使用,可在平台免费体验。

接口说明

个性化语音调用服务,用户可迅速使用自己定制的语音合成服务。

服务主要分模型定制和模型调用两部分。

协议须知

调用方在集成个性化语音调用服务API时,请遵循以下规则。

规则描述
传输方式HTTPS
请求方式GET或POST
字符编码统一使用UTF-8 编码
请求格式表单
响应格式JSON

接口调用参数

个性化语音定制调用地址:

https://openapi.youdao.com

模型调用阶段

调用TTS接口

  • 接口uri:/ttsapi/tts/model
  • 接口说明:

模型训练成功以后,如果要合成的内容为文本,调用此接口。

  • 接口参数:
参数名称类型含义是否必填示例
appKeyString应用IDTrue可在 应用管理 查看
saltStringUUID(唯一识别通用码)TrueUUID
curtimeString时间戳(秒)True
signString签名Truesha256(应用ID+salt+curtime+应用密钥)
signTypeString签名版本Falsev4 (目前仅支持v4)
versionString接口版本Falsev1 (目前仅支持v1)
docTypeString服务器响应类型Falsejson (目前仅支持json)
modelIdString模型IDTrueM_CC164FF7040141CD88C96B59B90EC695
qString待合成的文本 (必须是UTF-8编码,长度不超过1000字符,需要进行urlencode编码)True比如:"您好"
formatString音频格式(支持mp3,wav格式,默认mp3)Truemp3或wav
rateString合成音频采样率(支持8000, 16000, 44100。默认44100)True16000
speedString语速(取值:0.5-2.0,默认1.0)True1.0
volumeString音量 (取值: 0.5-5.0,默认1.0)True0.5
  • 响应结果

需要根据Content-Type的值确定是否合成成功:
如果合成成功,正常返回为二进制语音文件,具体的header信息 Content-Type:audio/x-wav
如果合成失败,会返回json结果,具体的header信息 Content-Type:application/json, 可以根据(模型错误码)确定出现的问题。

调用VC接口

  • 接口uri:/ttsapi/vc/model
  • 接口说明:

模型训练成功以后,如果要合成的内容为文本,调用此接口。

  • 接口参数:
参数名称类型含义是否必填示例
appKeyString应用IDTrue可在 应用管理 查看
saltStringUUID(唯一识别通用码)TrueUUID
curtimeString时间戳(秒)True
signString签名Truesha256(应用ID+salt+curtime+应用密钥)
signTypeString签名版本Falsev4 (目前仅支持v4)
versionString接口版本Falsev1 (目前仅支持v1)
docTypeString服务器响应类型Falsejson (目前仅支持json)
modelIdString模型IDTrueM_CC164FF7040141CD88C96B59B90EC695
fileMultipartFile待合成的音频文件 (2秒-120秒)True音频文件
  • 响应结果

需要根据Content-Type的值确定是否合成成功:
如果合成成功,正常返回为二进制语音文件,具体的header信息 Content-Type:audio/x-wav
如果合成失败,会返回json结果,具体的header信息 Content-Type:application/json, 可以根据(合成错误码)确定出现的问题。

语音合成类型

类型类型描述
vc语音转语音,输入音频,输出定制化音色音频
tts文本转语音,输入文本,输出定制化音色音频

服务配置

输出格式单次最大请求字符数单次最大请求时长支持语言
wav10002s - 2min中文

模型错误码

错误码错误码含义
101缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。
102不支持的语言类型
103翻译文本过长
104不支持的API类型
105不支持的签名类型
106不支持的响应类型
107不支持的传输加密类型
108应用ID无效,注册账号,登录后台创建应用和实例并完成绑定,可获得应用ID和应用密钥等信息
109batchLog格式不正确
110无相关服务的有效实例,应用没有绑定服务。注:某些服务的结果发音需要tts服务,需要在控制台创建语音合成实例绑定应用后方能使用。
111开发者账号无效
112请求服务无效
113q不能为空
114不支持的图片传输方式
115语音包异常:不存在或者已删除或者不属于当前devId
116modelId 无效
201解密失败,可能为DES,BASE64,URLDecode的错误
202签名检验失败
203访问IP地址不在可访问IP列表
205请求的接口与应用的平台类型不一致,确保接入方式(Android SDK、IOS SDK、API)与创建的应用平台类型一致。
206因为时间戳无效导致签名校验失败
207重放请求
303服务端的其它异常
401账户已经欠费停
402offlinesdk不可用
403无权限
404资源不存在
405auth服务不可用
117鉴权失败
110无相关服务的有效实例
303服务端异常
2004合成字符过大
2301合成失败
2302合成次数不足
2303文件不能为空
2304文件错误
2305文件格式错误
2306modelId 无效
2307packetId 无效
2308文件大小错误