大模型语音复刻合成
个性化音色定制
说明
Hi,您好,欢迎使用有道智云 大模型语音复刻, 大模型语音合成接口服务。
本文档主要针对需要集成HTTP API的技术开发工程师,详细描述相关的技术内容。
如果您有与我们商务合作的需求,可以通过以下方式联系我们:
商务邮箱: AIcloud_Business@corp.youdao.com
如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:
客服QQ:1906538062
智云翻译技术交流QQ 1群: 652880659
智云翻译技术交流QQ 2群: 669384425
智云翻译技术交流QQ 3群: 807539209
智云翻译技术交流QQ 4群: 936752411
联系邮箱: zhiyun@corp.youdao.com
温馨提示:
- 本文档主要针对开发人员,接入测试前需要获取应用ID和应用密钥;如果您还没有,请按照 新手指南 获取。
- 平台向每个账户赠送50元的体验金,供用户集成前测试所用。
接口说明
大模型语音复刻, 大模型语音合成,基于网易有道的语音识别技术,通过上传少量录音,赋予产品声音形象,可在读小说、播音主持、讲故事、客服服务等场景应用。 服务主要分模型复刻(上传音频) 和 模型调用(合成音频) 两部分。
注意: 使用前必须在控制台开通 “大模型声音复刻” 和 “大模型语音合成” 两个服务 !!!
协议须知
调用方在集成个性化语音定制服务API时,请遵循以下规则。
| 规则 | 描述 |
|---|---|
| 传输方式 | HTTPS |
| 请求方式 | POST |
| 字符编码 | 统一使用UTF-8 编码 |
| 请求格式 | 表单 |
| 响应格式 | JSON |
接口调用参数
服务调用地址:
https://openapi.youdao.com
大模型声音复刻(音频上传)
接口uri:/tts_gateway/upload
请求方式:POST
接口说明:
上传 语音合成的参考音频
接口参数:
| 参数名称 | 类型 | 含义 | 是否必填 | 示例 |
|---|---|---|---|---|
| appKey | String | 应用ID | True | 可在 应用管理 查看 |
| curtime | String | 时间戳(秒) | True | |
| salt | String | 随机字符串 | True | |
| sign | String | 签名信息:sha256(appKey + salt + curtime +密钥) | True | |
| signType | String | 签名类型 | True | v4 |
| name | String | 音色名称 (不超过50字符) | True | voiceName |
| model | String | lite 速度更快; pro效果更好, 提供情绪参数; 默认pro |
False | lite, pro |
| audioFile | MultipartFile | 音色音频文件, 必需 | True | |
| emotionAudioFile | MultipartFile | 情感参考音频文件, 只有model=pro时生效, 非必需 | False |
注: 音频时长也会影响合成接口的响应时间, 建议5~10s音频最好
- 响应结果
{
"code": "0",
"data": "01f0e64122ee4e3d9ac03f28556b62b2", (voiceId, 调用合成接口必须)
"requestId": "07399d85-c401-43b0-b9fd-892b225bccfb",
"message": "success",
"successful": true
}
大模型语音合成(音频合成)
接口uri:/tts_gateway/synthesis
请求方式:POST
接口说明: 使用 复刻接口提供的voiceId调用语音合成
接口参数:
| 参数名称 | 类型 | 含义 | 是否必填 | 示例 |
|---|---|---|---|---|
| appKey | String | 应用ID | True | 可在 应用管理 查看 |
| curtime | String | 时间戳(秒) | True | |
| salt | String | 随机字符串 | True | |
| sign | String | 签名信息:sha256(appKey + salt + curtime +密钥) | True | |
| signType | String | 签名类型 | True | v4 |
| voiceId | String | 音色id, 后续提供查询接口, 若没记下来可以联系服务提供方 | True | |
| volume | String | 音量, 0.5~2.0, 默认1.0 | False | |
| speed | String | 速度, 0.5~2.0, 默认1.0 | False | |
| format | String | 期望音频格式: mp3 / wav | True | wav |
| q | String | 合成文本 | True | 你好, 我喜欢旅游和音乐 |
| sampleRate | String | 采样率 8000/16000/22050/24000/32000, 默认24000 | False | 16000 |
| channel | String | 通道数 1 / 2, 默认1 | False | 1 |
- 响应结果
正常返回:
- 响应格式: 音频(audio/wav 或者 audio/mp3), 直接读音频即可
异常返回:
- 相应格式: json
- 示例:
{
"code": "1",
"data": null,
"requestId": "07399d85-c401-43b0-b9fd-892b225bccfb",
"message": "xxxx",
"successful": false
}
错误代码
| 错误码 | 含义 |
|---|---|
| 101 | 缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。 |
| 102 | 不支持的语言类型 |
| 103 | 翻译文本过长 |
| 104 | 不支持的API类型 |
| 105 | 不支持的签名类型 |
| 106 | 不支持的响应类型 |
| 107 | 不支持的传输加密类型 |
| 108 | 应用ID无效,注册账号,登录后台创建应用和实例并完成绑定,可获得应用ID和应用密钥等信息 |
| 109 | batchLog格式不正确 |
| 110 | 无相关服务的有效实例,应用没有绑定服务。注:某些服务的结果发音需要tts,需要在控制台创建语音合成绑定应用后方能使用。 |
| 111 | 开发者账号无效 |
| 112 | 请求服务无效 |
| 113 | q不能为空 |
| 901000 | 认证服务异常, 请联系服务提供方 |
| 900000 | 音色不存在 |
| 900001 | 服务端异常, 请联系服务提供方 |