帮助与文档 > 产品文档 > 自然语言翻译服务 > API文档 > 中文分词
中文分词

中文分词 API 简介

概念解释

中文分词 API ,可以将输入的中文文本准确地分割成有意义的词语单元,例如,对于“今天天气真好啊”,能够正确分割为“今天 天气 真好 啊”。无论是新闻文章、小说、学术论文还是社交媒体内容,都能进行有效的分词处理。

说明

Hi,您好,欢迎使用有道智云中文分词 API接口服务。

本文档主要针对需要集成HTTP API的技术开发工程师,详细描述中文分词能力相关的技术内容。

如果您有与我们商务合作的需求,可以通过以下方式联系我们:

商务邮箱: AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

客服QQ:1906538062

智云OCR技术交流QQ 1群: 654064748

智云OCR技术交流QQ 2群: 471638046

联系邮箱: zhiyun@corp.youdao.com

温馨提示:

  • 本文档主要针对开发人员,接入测试前需要获取应用ID应用密钥;如果您还没有,请按照 新手指南 获取。
  • 平台向每个账户赠送50元的体验金,供用户集成前测试所用,具体资费规则详见 中文分词服务报价

接口能力

中文分词API接口提供有道的分词服务,您只需要通过调用API,传入待处理的中文文本,就可以得到相应的分词结果,如其中包含英文单词,则不分词整个单词返回。

有道智云中文分词 API HTTPS地址:

https://openapi.youdao.com/cwsapi

协议须知

调用方在集成中文分词 API 时,请遵循以下规则。

规则描述
传输方式HTTPS
请求方式POST
字符编码统一使用UTF-8编码
请求格式表单
响应格式统一采用application/json格式

接口调用参数

调用API需要向接口发送以下字段来访问服务。

字段名含义备注必填
appKey应用标识(应用 ID)可在应用管理查看true
curtime时间戳当前UTC时间戳(秒)true
q中文句子使用UTF-8编码,长度不超过 10000true
salt随机字符串最好是UUID,和curtime一起防请求重放true
sign签名信息:sha256(appKey+input+salt+curtime+密钥)生成签名可参考下方示例true
signType签名类型v3true

签名生成方法如下:

signType=v3;
sign=sha256(应用ID+input+salt+curtime+应用密钥);
其中,input的计算方式为:input=q前10个字符 + q长度 + q后10个字符(当q长度大于20)或 input=q字符串(当q长度小于等于20);

输出结果

返回的结果是json格式,具体说明如下:

字段类型字段说明
requestIdtext请求Id
errorCodetext错误码
msgtext错误信息
tokensarray分词字符串数组

参考示例

分词的返回结果:

{
    "errorCode": "0",
    "msg": "SUCCESS",
    "requestId": "25246c16-dec1-401e-aa32-ee75e58f7b50",
    "tokens": [
        "我",
        "想",
        "把",
        "这",
        "段",
        "中文",
        "进行",
        "分词",
        "处理"
    ]
}

错误代码列表

错误码含义
101缺少必填的参数,首先确保必填参数齐全,然后,确认参数书写是否正确。
102不支持的语言类型
103翻译文本过长
104不支持的API类型
105不支持的签名类型
106不支持的响应类型
107不支持的传输加密类型
108应用ID无效,注册账号,登录后台创建应用并完成绑定,可获得应用ID和应用密钥等信息
109batchLog格式不正确
110无相关服务的有效应用,应用没有绑定。注:某些服务的结果发音需要tts服务,需要在控制台创建语音合成实例绑定应用后方能使用。
111开发者账号无效
112请求服务无效
113q不能为空
114不支持的图片传输方式
201解密失败,可能为DES,BASE64,URLDecode的错误
202签名检验失败,如果确认应用ID和应用密钥的正确性,仍返回202,一般是编码问题。请确保 img 为 UTF-8 编码.
203访问IP地址不在可访问IP列表
205请求的接口与应用的平台类型不一致,确保接入方式(Android SDK、IOS SDK、API)与创建的应用平台类型一致。如有疑问请参考入门指南
206因为时间戳无效导致签名校验失败
207重放请求
301辞典查询失败
302翻译查询失败
303服务端的其它异常
304会话闲置太久超时
401账户已经欠费停
402offlinesdk不可用
411访问频率受限,请稍后访问
412长请求过于频繁,请稍后访问
76001句子长度超过 10000

常见问题

可参考中文分词服务常见问题查阅解决方案,若未能解决问题可联系相关技术同学沟通。