中文分词 API 简介
概念解释
中文分词 API ,可以将输入的中文文本准确地分割成有意义的词语单元,例如,对于“今天天气真好啊”,能够正确分割为“今天 天气 真好 啊”。无论是新闻文章、小说、学术论文还是社交媒体内容,都能进行有效的分词处理。
说明
Hi,您好,欢迎使用有道智云中文分词 API接口服务。
本文档主要针对需要集成HTTP API的技术开发工程师,详细描述中文分词能力相关的技术内容。
如果您有与我们商务合作的需求,可以通过以下方式联系我们:
商务邮箱: AIcloud_Business@corp.youdao.com
如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:
客服QQ:1906538062
智云OCR技术交流QQ 1群: 654064748
智云OCR技术交流QQ 2群: 471638046
联系邮箱: zhiyun@corp.youdao.com
温馨提示:
接口能力
中文分词API接口提供有道的分词服务,您只需要通过调用API,传入待处理的中文文本,就可以得到相应的分词结果,如其中包含英文单词,则不分词整个单词返回。
有道智云中文分词 API HTTPS地址:
https://openapi.youdao.com/cwsapi
协议须知
调用方在集成中文分词 API 时,请遵循以下规则。
规则 | 描述 |
---|---|
传输方式 | HTTPS |
请求方式 | POST |
字符编码 | 统一使用UTF-8编码 |
请求格式 | 表单 |
响应格式 | 统一采用application/json格式 |
接口调用参数
调用API需要向接口发送以下字段来访问服务。
字段名 | 含义 | 备注 | 必填 |
---|---|---|---|
appKey | 应用标识(应用 ID) | 可在应用管理查看 | true |
curtime | 时间戳 | 当前UTC时间戳(秒) | true |
q | 中文句子 | 使用UTF-8编码,长度不超过 10000 | true |
salt | 随机字符串 | 最好是UUID,和curtime一起防请求重放 | true |
sign | 签名信息:sha256(appKey+input+salt+curtime+密钥) | 生成签名可参考下方示例 | true |
signType | 签名类型 | v3 | true |
签名生成方法如下:
signType=v3;
sign=sha256(应用ID+input+salt+curtime+应用密钥);
其中,input的计算方式为:input=q前10个字符 + q长度 + q后10个字符(当q长度大于20)或 input=q字符串(当q长度小于等于20);
输出结果
返回的结果是json格式,具体说明如下:
字段 | 类型 | 字段说明 |
---|---|---|
requestId | text | 请求Id |
errorCode | text | 错误码 |
msg | text | 错误信息 |
tokens | array | 分词字符串数组 |
参考示例
分词的返回结果:
{
"errorCode": "0",
"msg": "SUCCESS",
"requestId": "25246c16-dec1-401e-aa32-ee75e58f7b50",
"tokens": [
"我",
"想",
"把",
"这",
"段",
"中文",
"进行",
"分词",
"处理"
]
}
错误代码列表
错误码 | 含义 |
---|---|
101 | 缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。 |
102 | 不支持的语言类型 |
103 | 翻译文本过长 |
104 | 不支持的API类型 |
105 | 不支持的签名类型 |
106 | 不支持的响应类型 |
107 | 不支持的传输加密类型 |
108 | 应用ID无效,注册账号,登录后台创建应用并完成绑定,可获得应用ID和应用密钥等信息 |
109 | batchLog格式不正确 |
110 | 无相关服务的有效应用,应用没有绑定。注:某些服务的结果发音需要tts服务,需要在控制台创建语音合成实例绑定应用后方能使用。 |
111 | 开发者账号无效 |
112 | 请求服务无效 |
113 | q不能为空 |
114 | 不支持的图片传输方式 |
201 | 解密失败,可能为DES,BASE64,URLDecode的错误 |
202 | 签名检验失败,如果确认应用ID和应用密钥的正确性,仍返回202,一般是编码问题。请确保 img 为 UTF-8 编码. |
203 | 访问IP地址不在可访问IP列表 |
205 | 请求的接口与应用的平台类型不一致,确保接入方式(Android SDK、IOS SDK、API)与创建的应用平台类型一致。如有疑问请参考入门指南 |
206 | 因为时间戳无效导致签名校验失败 |
207 | 重放请求 |
301 | 辞典查询失败 |
302 | 翻译查询失败 |
303 | 服务端的其它异常 |
304 | 会话闲置太久超时 |
401 | 账户已经欠费停 |
402 | offlinesdk不可用 |
411 | 访问频率受限,请稍后访问 |
412 | 长请求过于频繁,请稍后访问 |
76001 | 句子长度超过 10000 |
常见问题
可参考中文分词服务常见问题查阅解决方案,若未能解决问题可联系相关技术同学沟通。