帮助与文档 > 产品文档 > 智能语音服务 > API文档 > 大模型语音复刻合成
大模型语音复刻合成

个性化音色定制

说明

Hi,您好,欢迎使用有道智云 大模型语音复刻, 大模型语音合成接口服务。

本文档主要针对需要集成HTTP API的技术开发工程师,详细描述相关的技术内容。

如果您有与我们商务合作的需求,可以通过以下方式联系我们:

商务邮箱: AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

客服QQ:1906538062

智云翻译技术交流QQ 1群: 652880659

智云翻译技术交流QQ 2群: 669384425

智云翻译技术交流QQ 3群: 807539209

智云翻译技术交流QQ 4群: 936752411

联系邮箱: zhiyun@corp.youdao.com

温馨提示:

  • 本文档主要针对开发人员,接入测试前需要获取应用ID和应用密钥;如果您还没有,请按照 新手指南 获取。
  • 平台向每个账户赠送50元的体验金,供用户集成前测试所用。

接口说明

大模型语音复刻, 大模型语音合成,基于网易有道的语音识别技术,通过上传少量录音,赋予产品声音形象,可在读小说、播音主持、讲故事、客服服务等场景应用。 服务主要分模型复刻(上传音频) 和 模型调用(合成音频) 两部分。

注意: 使用前必须在控制台开通 “大模型声音复刻” 和 “大模型语音合成” 两个服务 !!!

协议须知

调用方在集成个性化语音定制服务API时,请遵循以下规则。

规则 描述
传输方式 HTTPS
请求方式 POST
字符编码 统一使用UTF-8 编码
请求格式 表单
响应格式 JSON

接口调用参数

服务调用地址:

https://openapi.youdao.com

大模型声音复刻(音频上传)

  • 接口uri:/tts_gateway/upload

  • 请求方式:POST

  • 接口说明:

    上传 语音合成的参考音频

    接口参数:

参数名称 类型 含义 是否必填 示例
appKey String 应用ID True 可在 应用管理 查看
curtime String 时间戳(秒) True
salt String 随机字符串 True
sign String 签名信息:sha256(appKey + salt + curtime +密钥) True
signType String 签名类型 True v4
name String 音色名称 (不超过50字符) True voiceName
model String lite 速度更快; pro效果更好, 提供情绪参数;
默认pro
False lite, pro
audioFile MultipartFile 音色音频文件, 必需 True
emotionAudioFile MultipartFile 情感参考音频文件, 只有model=pro时生效, 非必需 False

注: 音频时长也会影响合成接口的响应时间, 建议5~10s音频最好

  • 响应结果
{
      "code": "0",
      "data": "01f0e64122ee4e3d9ac03f28556b62b2", (voiceId, 调用合成接口必须)
      "requestId": "07399d85-c401-43b0-b9fd-892b225bccfb",
      "message": "success",
      "successful": true
}

大模型语音合成(音频合成)

  • 接口uri:/tts_gateway/synthesis

  • 请求方式:POST

  • 接口说明: 使用 复刻接口提供的voiceId调用语音合成

  • 接口参数:

参数名称 类型 含义 是否必填 示例
appKey String 应用ID True 可在 应用管理 查看
curtime String 时间戳(秒) True
salt String 随机字符串 True
sign String 签名信息:sha256(appKey + salt + curtime +密钥) True
signType String 签名类型 True v4
voiceId String 音色id, 后续提供查询接口, 若没记下来可以联系服务提供方 True
volume String 音量, 0.5~2.0, 默认1.0 False
speed String 速度, 0.5~2.0, 默认1.0 False
format String 期望音频格式: mp3 / wav True wav
q String 合成文本 True 你好, 我喜欢旅游和音乐
sampleRate String 采样率 8000/16000/22050/24000/32000, 默认24000 False 16000
channel String 通道数 1 / 2, 默认1 False 1
  • 响应结果
正常返回:
  - 响应格式: 音频(audio/wav 或者 audio/mp3), 直接读音频即可
  
异常返回: 
  - 相应格式: json
  - 示例: 
   {
      "code": "1",
      "data": null,
      "requestId": "07399d85-c401-43b0-b9fd-892b225bccfb",
      "message": "xxxx",
      "successful": false
   }

错误代码

错误码 含义
101 缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。
102 不支持的语言类型
103 翻译文本过长
104 不支持的API类型
105 不支持的签名类型
106 不支持的响应类型
107 不支持的传输加密类型
108 应用ID无效,注册账号,登录后台创建应用和实例并完成绑定,可获得应用ID和应用密钥等信息
109 batchLog格式不正确
110 无相关服务的有效实例,应用没有绑定服务。注:某些服务的结果发音需要tts,需要在控制台创建语音合成绑定应用后方能使用。
111 开发者账号无效
112 请求服务无效
113 q不能为空
901000 认证服务异常, 请联系服务提供方
900000 音色不存在
900001 服务端异常, 请联系服务提供方