帮助与文档 > 产品文档 > 语音识别ASR > Android SDK 文档

有道智云语音语音识别 Android SDK 文档

有道智云语音语音识别 SDK 简介

有道语音识别sdk是对有道的语音识别服务的封装,包含中文和英文语音的识别。您只需要通过调用sdk接口,传入待识别的音频文件和格式,即可进行语音的识别。

通过SDK接入优势:

  1. 接入简单,不用实现整个语音识别协议
  2. 方便进行数据统计,了解用户识别使用情况

集成前提

开始集成SDK之前开发者需要登录有道智云平台(http://ai.youdao.com),创建应用获取应用ID(或者通过运营人员获取应用ID),以便使用语音识别服务。

语音识别sdk由如下sdk组成:

文件说明
YoudaoBase.jar有道智云相关sdk基础库(必选)
YoudaoVoicerecognize.jar(必选),在线语音识别sdk)
yd-voicerecognize-demosdk语音识别使用demo

SDK 集成步骤

1. 添加相应 jar 包和 so 文件

在工程目录下,创建一个名为libs的子目录,将相应包拷贝到此目录下。

对于 Android Studio 工程,请参照下面的步骤添加 JAR 包:

  1. 右击你的工程并选择“Open Module Settings”
  2. 在左侧面板中选择你的app
  3. 在主窗口中选择“Dependencies”页签
  4. 点击“+”按钮
  5. 选择”File Depndency”
  6. 选择您拷贝到libs 目录下的jar
  7. 添加so文件:在模块的配置文件中增加jni配置

    `sourceSets.main.jniLibs.srcDirs = ['libs']`
  8. 添加代码混淆文件,避免 jar 的二次混淆

代码混淆文件proguard-project.txt,添加如下内容:

-ignorewarnings
-libraryjars libs/ YoudaoBase.jar
-libraryjars libs/ YoudaoVoicerecognize.jar

-keep class com.youdao.sdk.ydtranslate.** { *;}
-keep class com.youdao.voicerecognize.online.** { *;}

2. 权限添加

<uses-permission android:name="android.permission.INTERNET" />
<!-- 获取WiFi状态 -->
<uses-permission android:name="android.permission.ACCESS_WIFI_STATE" />
<!-- 获取网络信息状态,如当前的网络连接是否有效 -->
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
<!-- 读取手机状态 phone group -->
<uses-permission android:name="android.permission.READ_PHONE_STATE" />
<!-- 往SDCard读写数据权限   storage group -->
<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />
<uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE" />

3. 功能集成说明

说明:请参考 demo 中 RecognizeDemoActivity` 的使用

使用的jar:

YoudaoBase.jarYoudaoVoicerecognize.jar

代码添加:

1.注册应用ID DemoApplication

YouDaoApplication.init(this, appkey);

2.识别对象初始化,请设置source参数为app对应的名称(英文字符串),注意,语音识别的音频仅支持wav格式,输出语音也支持wav格式

     //输入音频为WAV格式
      ASRParameters tps = new ASRParameters.Builder()
                .source("youdaoocr")
                .timeout(100000)
                .lanType(Language.ENGLISH.getCode())//langType支持中文和英文
                .rate(Constants.RATE_8000)
                .build();

3.执行识别,返回两种情况,一种是成功,相关结果存储在result参数中,另外一种是失败,失败信息放在TranslateErrorCode 是一个枚举类,整个识别是异步的,回调在子线程进行,若涉及到界面操作,请切回主线程。lookup方法中最后一个参数"requestId",sdk并未使用,在回调中会再返回给开发者,用于区分每次调用,开发者可传null或者任意字符串。

SpeechTranslate.getInstance(tps).recognize(bases64,"requestId"
                new ASRListener() {
                     @Override
                    public void onResult(final ASRResult result, String input, String requestid) {
                        handler.post(new Runnable() {
                            @Override
                            public void run() {
                                if(result.getResult() != null && result.getResult().size() > 0){
                                    resultText.setText("识别完成:" +result.getResult().get(0));
                                }else{
                                    resultText.setText("未知错误");
                                }
                            }
                        });
                    }

                    @Override
                    public void onError(final ASRErrorCode error, String requestid) {
                        handler.post(new Runnable() {
                            @Override
                            public void run() {
                                resultText.setText("识别失败" + error.toString());
                            }
                        });
                    }
                }, "requestid");

语音识别结果说明

对于在线语音识别,服务器查询结果返回数据如下:

{
"result": [
"今天天气不错"
],  //识别结果
"errorCode": "0",   //错误码。一定存在
}
字段含义
result识别结果发音地址,识别成功一定存在
errorCode识别结果错误码,一定存在

支持语言

语言代码
中文zh-CHS
英文en

格式支持:只支持wav格式。
采样率:8k或者16k。推荐16k。
编码:16bit位深的单声道

常见问题及注意事项

  1. 运行程序崩溃?
    检查下是否对应的 so 是否放到当前工程目录下。
  2. 语音识别没结果?
    检查下语音识别接口回调的错误信息,保证申请的 appKey 是有效且提前绑定了。
  3. 如何获得 appKey
    注册账号, 登录后台创建应用和实例并完成绑定, 可获得应用ID和密钥等信息,其中应用ID就是appKey( 注意不是应用密钥)。

错误代码列表

错误码含义
101缺少必填的参数
102不支持的语言类型
103请求文本过长
104不支持的API类型
105不支持的签名类型
106不支持的响应类型
107不支持的传输加密类型
108appKey无效
109batchLog格式不正确
110无相关服务的有效实例
111用户无效
112请求服务无效
113请求文本不能为空
201解密失败
202签名检验失败
203访问IP地址不在可访问IP列表
301词典查询失败
302小语种翻译失败
303服务的异常
401账户已经欠费停止
402offlinesdk不可用
411访问频率受限,请稍后访问
412超过最大请求字符数
4001不支持的语音识别格式
4002不支持的语音识别采样率
4003不支持的语音识别声道
4004不支持的语音上传类型
4005不支持的语言类型
4006识别音频文件过大
4007识别音频时长过长
4201解密失败
4301语音识别失败
4303服务的异常
4411访问频率受限,请稍后访问
4412超过最大请求时长

版本更新记录

上线日期版本号更新内容
2018.03.28v1.0.0支持在线语音语音识别
文档是否有帮助解决问题?

如有其它疑问,可在此提交意见和反馈
详细描述(选填)
联系邮箱(选填)
 
有道智云平台介绍
网易有道旗下一个为开发者、企业和政府机构等提供自然语言翻译、文字识别OCR等服务以及行业解决方案的云服务平台,致力于提供安全、可靠和高效的云服务。
联系方式
联系电话:010-8255-8901
商务合作:
投诉反馈:
地址:北京市海淀区西北旺东路10号院 中关村软件园二期西区7号 网易(北京)公司
微信公众号
微信小程序
 
 
 
©2017 网易公司 京ICP证080268号