帮助与文档 > 产品文档 > 自然语言翻译服务 > API文档 > 中文分词
中文分词

中文分词 API 简介

概念解释

中文分词 API ,可以将输入的中文文本准确地分割成有意义的词语单元,例如,对于“今天天气真好啊”,能够正确分割为“今天 天气 真好 啊”。无论是新闻文章、小说、学术论文还是社交媒体内容,都能进行有效的分词处理。

说明

Hi,您好,欢迎使用有道智云中文分词 API接口服务。

本文档主要针对需要集成HTTP API的技术开发工程师,详细描述中文分词能力相关的技术内容。

如果您有与我们商务合作的需求,可以通过以下方式联系我们:

商务邮箱: AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

客服QQ:1906538062

智云OCR技术交流QQ 1群: 654064748

智云OCR技术交流QQ 2群: 471638046

联系邮箱: zhiyun@corp.youdao.com

温馨提示:

  • 本文档主要针对开发人员,接入测试前需要获取应用ID应用密钥;如果您还没有,请按照 新手指南 获取。
  • 平台向每个账户赠送50元的体验金,供用户集成前测试所用,具体资费规则详见 中文分词服务报价

接口能力

中文分词API接口提供有道的分词服务,您只需要通过调用API,传入待处理的中文文本,就可以得到相应的分词结果,如其中包含英文单词,则不分词整个单词返回。

有道智云中文分词 API HTTPS地址:

https://openapi.youdao.com/cwsapi

协议须知

调用方在集成中文分词 API 时,请遵循以下规则。

规则 描述
传输方式 HTTPS
请求方式 POST
字符编码 统一使用UTF-8编码
请求格式 表单
响应格式 统一采用application/json格式

接口调用参数

调用API需要向接口发送以下字段来访问服务。

字段名 含义 备注 必填
appKey 应用标识(应用 ID) 可在应用管理查看 true
curtime 时间戳 当前UTC时间戳(秒) true
q 中文句子 使用UTF-8编码,长度不超过 10000 true
salt 随机字符串 最好是UUID,和curtime一起防请求重放 true
sign 签名信息:sha256(appKey+input+salt+curtime+密钥) 生成签名可参考下方示例 true
signType 签名类型 v3 true

签名生成方法如下: signType=v3; sign=sha256(应用ID+input+salt+curtime+应用密钥); 其中,input的计算方式为:input=q前10个字符 + q长度 + q后10个字符(当q长度大于20)或 input=q字符串(当q长度小于等于20);

输出结果

返回的结果是json格式,具体说明如下:

字段 类型 字段说明
requestId text 请求Id
errorCode text 错误码
msg text 错误信息
tokens array 分词字符串数组

参考示例

分词的返回结果:

{
    "errorCode": "0",
    "msg": "SUCCESS",
    "requestId": "25246c16-dec1-401e-aa32-ee75e58f7b50",
    "tokens": [
        "我",
        "想",
        "把",
        "这",
        "段",
        "中文",
        "进行",
        "分词",
        "处理"
    ]
}

错误代码列表

错误码 含义
101 缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。
102 不支持的语言类型
103 翻译文本过长
104 不支持的API类型
105 不支持的签名类型
106 不支持的响应类型
107 不支持的传输加密类型
108 应用ID无效,注册账号,登录后台创建应用并完成绑定,可获得应用ID和应用密钥等信息
109 batchLog格式不正确
110 无相关服务的有效应用,应用没有绑定。注:某些服务的结果发音需要tts服务,需要在控制台创建语音合成实例绑定应用后方能使用。
111 开发者账号无效
112 请求服务无效
113 q不能为空
114 不支持的图片传输方式
201 解密失败,可能为DES,BASE64,URLDecode的错误
202 签名检验失败,如果确认应用ID和应用密钥的正确性,仍返回202,一般是编码问题。请确保 img 为 UTF-8 编码.
203 访问IP地址不在可访问IP列表
205 请求的接口与应用的平台类型不一致,确保接入方式(Android SDK、IOS SDK、API)与创建的应用平台类型一致。如有疑问请参考入门指南
206 因为时间戳无效导致签名校验失败
207 重放请求
301 辞典查询失败
302 翻译查询失败
303 服务端的其它异常
304 会话闲置太久超时
401 账户已经欠费停
402 offlinesdk不可用
411 访问频率受限,请稍后访问
412 长请求过于频繁,请稍后访问
76001 句子长度超过 10000

常见问题

可参考中文分词服务常见问题查阅解决方案,若未能解决问题可联系相关技术同学沟通。