个性化音色调用-个性化音色调用API文档-有道智云AI开放平台

个性化音色调用

说明

Hi，您好，欢迎使用有道智云个性化语音调用接口服务。

本文档主要针对需要集成HTTP API的技术开发工程师，详细描述个性化语音调用相关的技术内容。

如果您有与我们商务合作的需求，可以通过以下方式联系我们：

商务邮箱： AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问，可以通过以下几种方式联系我们：

客服QQ：1906538062

智云翻译技术交流QQ 1群: 652880659

智云翻译技术交流QQ 2群: 669384425

智云翻译技术交流QQ 3群: 807539209

智云翻译技术交流QQ 4群: 936752411

联系邮箱： zhiyun@corp.youdao.com

温馨提示：

本文档主要针对开发人员，接入测试前需要在控制台开通账户；如果您还没有，请按照新手指南获取。
接入时需要购买语音定制资源包或者联系商务开通，供测试使用，可在平台免费体验。

接口说明

个性化语音调用服务，用户可迅速使用自己定制的语音合成服务。

服务主要分模型定制和模型调用两部分。

协议须知

调用方在集成个性化语音调用服务API时，请遵循以下规则。

规则	描述
传输方式	HTTPS
请求方式	GET或POST
字符编码	统一使用UTF-8 编码
请求格式	表单
响应格式	JSON

接口调用参数

个性化语音定制调用地址：

https://openapi.youdao.com

模型调用阶段

调用TTS接口

接口uri：/ttsapi/tts/model
接口说明：

模型训练成功以后，如果要合成的内容为文本，调用此接口。
接口参数：

参数名称	类型	含义	是否必填	示例
appKey	String	应用ID	True	可在应用管理查看
salt	String	UUID（唯一识别通用码）	True	UUID
curtime	String	时间戳（秒）	True	秒
sign	String	签名	True	sha256(应用ID+salt+curtime+应用密钥)
signType	String	签名版本	False	v4 (目前仅支持v4)
version	String	接口版本	False	v1 (目前仅支持v1)
docType	String	服务器响应类型	False	json (目前仅支持json)
modelId	String	模型ID	True	M_CC164FF7040141CD88C96B59B90EC695
q	String	待合成的文本（必须是UTF-8编码，长度不超过1000字符，需要进行urlencode编码）	True	比如："您好"
format	String	音频格式(支持mp3,wav格式，默认mp3)	True	mp3或wav
rate	String	合成音频采样率(支持8000, 16000, 44100。默认44100)	True	16000
speed	String	语速（取值：0.5-2.0，默认1.0）	True	1.0
volume	String	音量（取值： 0.5-5.0，默认1.0）	True	0.5

响应结果

需要根据Content-Type的值确定是否合成成功：如果合成成功，正常返回为二进制语音文件，具体的header信息 Content-Type:audio/x-wav 如果合成失败，会返回json结果，具体的header信息 Content-Type:application/json, 可以根据（模型错误码）确定出现的问题。

调用VC接口

接口uri：/ttsapi/vc/model
接口说明：

模型训练成功以后，如果要合成的内容为文本，调用此接口。
接口参数：

参数名称	类型	含义	是否必填	示例
appKey	String	应用ID	True	可在应用管理查看
salt	String	UUID（唯一识别通用码）	True	UUID
curtime	String	时间戳（秒）	True	秒
sign	String	签名	True	sha256(应用ID+salt+curtime+应用密钥)
signType	String	签名版本	False	v4 (目前仅支持v4)
version	String	接口版本	False	v1 (目前仅支持v1)
docType	String	服务器响应类型	False	json (目前仅支持json)
modelId	String	模型ID	True	M_CC164FF7040141CD88C96B59B90EC695
file	MultipartFile	待合成的音频文件 (2秒-120秒)	True	音频文件

响应结果

需要根据Content-Type的值确定是否合成成功：如果合成成功，正常返回为二进制语音文件，具体的header信息 Content-Type:audio/x-wav 如果合成失败，会返回json结果，具体的header信息 Content-Type:application/json, 可以根据（合成错误码）确定出现的问题。

语音合成类型

类型	类型描述
vc	语音转语音,输入音频,输出定制化音色音频
tts	文本转语音,输入文本,输出定制化音色音频

服务配置

输出格式	单次最大请求字符数	单次最大请求时长	支持语言
wav	1000	2s - 2min	中文

模型错误码

错误码	错误码含义
101	缺少必填的参数，首先确保必填参数齐全，然后，确认参数书写是否正确。
102	不支持的语言类型
103	翻译文本过长
104	不支持的API类型
105	不支持的签名类型
106	不支持的响应类型
107	不支持的传输加密类型
108	应用ID无效，注册账号，登录后台创建应用和实例并完成绑定，可获得应用ID和应用密钥等信息
109	batchLog格式不正确
110	无相关服务的有效实例，应用没有绑定服务。注：某些服务的结果发音需要tts服务，需要在控制台创建语音合成实例绑定应用后方能使用。
111	开发者账号无效
112	请求服务无效
113	q不能为空
114	不支持的图片传输方式
115	语音包异常：不存在或者已删除或者不属于当前devId
116	modelId 无效
201	解密失败，可能为DES,BASE64,URLDecode的错误
202	签名检验失败
203	访问IP地址不在可访问IP列表
205	请求的接口与应用的平台类型不一致，确保接入方式（Android SDK、IOS SDK、API）与创建的应用平台类型一致。
206	因为时间戳无效导致签名校验失败
207	重放请求
303	服务端的其它异常
401	账户已经欠费停
402	offlinesdk不可用
403	无权限
404	资源不存在
405	auth服务不可用
117	鉴权失败
110	无相关服务的有效实例
303	服务端异常
2004	合成字符过大
2301	合成失败
2302	合成次数不足
2303	文件不能为空
2304	文件错误
2305	文件格式错误
2306	modelId 无效
2307	packetId 无效
2308	文件大小错误