帮助与文档 > 产品文档 > 语音识别ASR > Android SDK 文档

有道智云短语音识别 Android SDK 文档

有道智云短语音识别 SDK 简介

有道语音识别sdk是对有道的语音识别服务的封装,包含中文和英文语音的识别。您只需要通过调用sdk接口,传入待识别的音频文件和格式,即可进行语音的识别。

通过SDK接入优势:

  1. 接入简单,不用实现整个语音识别协议
  2. 方便进行数据统计,了解用户识别使用情况

集成前提

开始集成SDK之前开发者需要登录有道智云平台(http://ai.youdao.com),创建应用获取应用ID(或者通过运营人员获取应用ID),以便使用语音识别服务。

语音识别sdk由如下sdk组成:

文件说明
YoudaoBase.jar有道智云相关sdk基础库(必选)
YoudaoVoicerecognize.jar(必选),在线语音识别sdk)
yd-voicerecognize-demosdk语音识别使用demo

SDK 集成步骤

1. 添加相应 jar 包和 so 文件

在工程目录下,创建一个名为libs的子目录,将相应包拷贝到此目录下。

对于 Android Studio 工程,请参照下面的步骤添加 JAR 包:

  1. 右击你的工程并选择“Open Module Settings”
  2. 在左侧面板中选择你的app
  3. 在主窗口中选择“Dependencies”页签
  4. 点击“+”按钮
  5. 选择”File Depndency”
  6. 选择您拷贝到libs 目录下的jar
  7. 添加so文件:在模块的配置文件中增加jni配置

    `sourceSets.main.jniLibs.srcDirs = ['libs']`
  8. 添加代码混淆文件,避免 jar 的二次混淆

代码混淆文件proguard-project.txt,添加如下内容:

-ignorewarnings
-libraryjars libs/ YoudaoBase.jar
-libraryjars libs/ YoudaoVoicerecognize.jar

-keep class com.youdao.sdk.ydtranslate.** { *;}
-keep class com.youdao.voicerecognize.online.** { *;}

2. 权限添加

<uses-permission android:name="android.permission.INTERNET" />
<!-- 获取WiFi状态 -->
<uses-permission android:name="android.permission.ACCESS_WIFI_STATE" />
<!-- 获取网络信息状态,如当前的网络连接是否有效 -->
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
<!-- 读取手机状态 phone group -->
<uses-permission android:name="android.permission.READ_PHONE_STATE" />
<!-- 往SDCard读写数据权限   storage group -->
<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />
<uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE" />

3. 功能集成说明

说明:请参考 demo 中 RecognizeDemoActivity` 的使用

使用的jar:

YoudaoBase.jarYoudaoVoicerecognize.jar

代码添加:

1.注册应用ID DemoApplication

YouDaoApplication.init(this, appkey);

2.识别对象初始化,请设置source参数为app对应的名称(英文字符串),注意,语音识别的音频仅支持wav格式,输出语音也支持wav格式

     //输入音频为WAV格式
      ASRParameters tps = new ASRParameters.Builder()
                .source("youdaoocr")
                .timeout(100000)
                .lanType(Language.ENGLISH.getCode())//langType支持中文和英文
                .rate(Constants.RATE_8000)
                .build();

3.执行识别,返回两种情况,一种是成功,相关结果存储在result参数中,另外一种是失败,失败信息放在TranslateErrorCode 是一个枚举类,整个识别是异步的,回调在子线程进行,若涉及到界面操作,请切回主线程。lookup方法中最后一个参数"requestId",sdk并未使用,在回调中会再返回给开发者,用于区分每次调用,开发者可传null或者任意字符串。

SpeechTranslate.getInstance(tps).recognize(bases64,"requestId"
                new ASRListener() {
                     @Override
                    public void onResult(final ASRResult result, String input, String requestid) {
                        handler.post(new Runnable() {
                            @Override
                            public void run() {
                                if(result.getResult() != null && result.getResult().size() > 0){
                                    resultText.setText("识别完成:" +result.getResult().get(0));
                                }else{
                                    resultText.setText("未知错误");
                                }
                            }
                        });
                    }

                    @Override
                    public void onError(final ASRErrorCode error, String requestid) {
                        handler.post(new Runnable() {
                            @Override
                            public void run() {
                                resultText.setText("识别失败" + error.toString());
                            }
                        });
                    }
                }, "requestid");

语音识别结果说明

对于在线语音识别,服务器查询结果返回数据如下:

{
"result": [
"今天天气不错"
],  //识别结果
"errorCode": "0",   //错误码。一定存在
}
字段含义
result识别结果发音地址,识别成功一定存在
errorCode识别结果错误码,一定存在

支持语言

语言代码
中文zh-CHS
英文en

格式支持:只支持wav格式。
采样率:8k或者16k。推荐16k。
编码:16bit位深的单声道

常见问题及注意事项

  1. 运行程序崩溃?
    检查下是否对应的 so 是否放到当前工程目录下。
  2. 语音识别没结果?
    检查下语音识别接口回调的错误信息,保证申请的 appKey 是有效且提前绑定了。
  3. 如何获得 appKey
    注册账号, 登录后台创建应用和实例并完成绑定, 可获得应用ID和密钥等信息,其中应用ID就是appKey( 注意不是应用密钥)。

错误代码列表

错误码含义
101缺少必填的参数
102不支持的语言类型
103请求文本过长
104不支持的API类型
105不支持的签名类型
106不支持的响应类型
107不支持的传输加密类型
108appKey无效
109batchLog格式不正确
110无相关服务的有效实例
111用户无效
112请求服务无效
113请求文本不能为空
201解密失败
202签名检验失败
203访问IP地址不在可访问IP列表
301词典查询失败
302小语种翻译失败
303服务的异常
401账户已经欠费停止
402offlinesdk不可用
411访问频率受限,请稍后访问
412超过最大请求字符数
4001不支持的语音识别格式
4002不支持的语音识别采样率
4003不支持的语音识别声道
4004不支持的语音上传类型
4005不支持的语言类型
4006识别音频文件过大
4007识别音频时长过长
4201解密失败
4301语音识别失败
4303服务的异常
4411访问频率受限,请稍后访问
4412超过最大请求时长

版本更新记录

上线日期版本号更新内容
2018.03.28v1.0.0支持在线语音语音识别

简介

Hi,您好,欢迎使用有道智云实时语音识别Android SDK。

本文档主要针对需要集成实时语音识别的Android开发工程师,详细描述实时语音识别能力相关的技术内容。

如果您是非技术人员,想要体验我们的产品能力,请点击语音识别体验中心。也可以通过扫描网站底部小程序二维码,在小程序中进行体验。

如果您有与我们商务合作的需求,可以通过一下方式联系我们:

商务邮箱: AIcloud_Business@corp.youdao.com

如果您对文档内容有任何疑问,可以通过以下几种方式联系我们:

客服QQ:1906538062

官方交流群:652880659

联系邮箱: zyservice@corp.youdao.com

下面是Android SDK接入文档,接入测试需要一个绑定实时语音识别的实例的应用Id(appKey),如果您还没有,请按照新手指南获取。

接入前提

  • 在sdk下载页面下载sdk

将app签名以及app包名给智云进行认证备案并生成appKey

  • 获取app签名
gradlew Task :app:signingReport
> Task :app:signingReport
Variant: releaseUnitTest
Config: release
Store: /Users/shen/workspace/sourcecode/ydasr/app/ydasr.key
Alias: ydasr
MD5: A2:20:C7:A2:5B:B7:FF:A3:5F:D9:FD:D7:13:7A:C6:56
SHA1: CC:09:81:E2:B7:27:62:6C:73:BB:FA:BF:43:5F:74:1F:F4:E0:22:AA
SHA-256: 6E:C0:01:C6:1A:1F:25:4F:B7:99:BF:07:89:12:78:20:EA:CC:B1:64:22:6E:6C:D1:E7:82:6E:EA:AE:7E:AB:98
Valid until: Thursday, October 8, 2048
  • 获取密钥。1中获取到的签名MD5部分,过滤掉其中冒号,并将获取到的32位转化为小写即为需要填写的应用密钥。
获取到的MD5: A2:20:C7:A2:5B:B7:FF:A3:5F:D9:FD:D7:13:7A:C6:56
最后得到的密钥:a220c7a25bb7ffa35fd9fdd7137ac656

集成步骤

引入依赖

引入依赖包,拷贝aar包到app下面的libs目录下,在gradle中如下进行配置即可。

注意:依赖分为两种:aar包和依赖的其他第三方库,aar包包括ydaudiosdk-release.aar和ydasrsdk-release.aar。其他库包括lifeCycle的两个包以及okhttp和gson和kotlin。以上都是需要引入的。

  • libs方式
android {
    ...
    repositories {
        flatDir {
            dirs 'libs'
        }
    }
}
dependencies {
    ...
    implementation "android.arch.lifecycle:extensions:1.1.1"
    implementation "android.arch.lifecycle:common-java8:1.1.1"
    implementation "com.squareup.okhttp3:okhttp:3.11.0"
    implementation "com.google.code.gson:gson:2.8.5"
    implementation "org.jetbrains.kotlin:kotlin-stdlib:1.3.0"

    implementation (name:'ydaudiosdk-release', ext:'aar')
    implementation (name:'ydasrsdk-release', ext:'aar')
}

增加权限

<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
<uses-permission android:name="android.permission.INTERNET" />
<uses-permission android:name="android.permission.RECORD_AUDIO" />
<uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" />
<uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE" />
<uses-permission android:name="android.permission.MODIFY_AUDIO_SETTINGS" />
<uses-permission android:name="android.permission.BROADCAST_STICKY" />
<uses-permission android:name="android.permission.BLUETOOTH" />

其中 RECORD_AUDIO、WRITE_EXTERNAL_STORAGE和READ_EXTERNAL_STORAGE 权限需要动态申请,申请权限代码可见demo代码所示。

混淆需增加部分

# Gson
-keepattributes Signature
-keepattributes *Annotation*
-keep class sun.misc.Unsafe { *; }
-keep class com.google.gson.stream.** { *; }

#okhttp3
-dontwarn com.squareup.okhttp3.**
-keep class com.squareup.okhttp3.** { *;}
-dontwarn okhttp3.**
-dontwarn okio.**
-dontwarn javax.annotation.**
-dontwarn org.conscrypt.**

#lifecycle
-keep public class android.arch.lifecycle.** {
    public protected *;
}
-keepclassmembers class ** {
    @android.arch.lifecycle.OnLifecycleEvent public *;
}

#kotlin
-dontwarn kotlin.**

#AsrSdk
-keep class com.youdao.ydasr.** { *; }
-keep interface com.youdao.ydasr.** { *; }
-keep class com.youdao.audio.** { *; }
-keep interface com.youdao.audio.** { *; }

使用说明

  • 创建asr返回接口
private AsrListener mAsrListener = new AsrListener() {
    // 开始识别回调
    @Override
    public void onAsrStart() {}

    // 重连后再次连接成功回调
    @Override
    public void onAsrRestart() {}

    // 结束识别回调
    @Override
    public void onAsrStop() {}

    // 正在重连提示
    @Override
    public void onAsrReconnecting() {}

    // 错误回调
    @Override
    public void onAsrError(@NotNull AsrResultCode error) {

    // ASR结果回调
    @Override
    public void onAsrNext(@NotNull AsrResult result, boolean isSentence) {}

    // 音量变化回调
    @Override
    public void onAsrVolumeChange(float volume) {}

    // 后端点静音回调
    @Override
    public void onAsrSilentEnd() {}

    // 前端点静音回调
    @Override
    public void onAsrSilentStart() {}

    // 连接上蓝牙麦克风提示
    @Override
    public void onBluetoothAudioConnected() {}

    // 蓝牙麦克风断开提示
    @Override
    public void onBluetoothAudioDisconnected() {}
};
  • 在activity中创建AsrManager,初始化的参数包含appKey(如何获取见集成前提)并注册生命周期观察
mAsrManager = AsrManager.getInstance(this, Consts.AsrAppKey, mAsrListener);
getLifecycle().addObserver(mAsrManager);
  • 开始识别
Map<String, Object> params = new HashMap<>();
params.put(AsrParams.LANG, mLang);
params.put(AsrParams.SILENT_TIMEOUT_START, 5000L);
params.put(AsrParams.SILENT_TIMEOUT_END, 10000L);
params.put(AsrParams.SENTENCE_TIMEOUT, 3000L);
params.put(AsrParams.CONNECT_TIMEOUT, 10000L);
params.put(AsrParams.WAIT_SERVER_DISCONNECT, true);
mAsrManager.start(params);
  • 停止识别
mAsrManager.stop();

识别结果

  • 识别结果示例:
{
    "result": [{
        "st": [{
            "bg": 30,
            "ed": 480,
            "ws": [{
                "w": "Have",
                "wb": 30,
                "we": 240
            }, {
                "w": "a",
                "wb": 240,
                "we": 270
            }, {
                "w": "good",
                "wb": 270,
                "we": 480
            }, {
                "w": "day.",
                "wb": 480,
                "we": 480
            }]
        }],
        "seg_id": 0
    }],
    "errorCode": "0",
    "action": "recognition"
}
  • 识别结果说明
参数含义说明
bg分句开始时间单位毫秒/ms
ed分句结束时间单位毫秒/ms
w词(字)识别结果
wb词(字)开始时间单位毫秒/ms
we词(字)结束时间单位毫秒/ms
seg_id分句 id从 0 开始递增

支持的语言表

支持中文和其他几种语言的互译。

语言代码
中文zh-CHS
英文en

常见问题

  • 错误1

    • 错误说明
    null
    C:/Users/liuyanyan/.gradle/caches/transforms-1/files-1.1/appcompat-v7-28.0.0.aar/7cbab2e2b4c7701e76fa4d46215a4687/res/values-v28/values-v28.xml
    D:/workdir/ydasrDemo
    C:/Users/liuyanyan/.gradle/caches/transforms-1/files-1.1/appcompat-v7-28.0.0.aar/7cbab2e2b4c7701e76fa4d46215a4687/res/values/values.xml
    null
    failed linking references.    
    • 解决方案
    targetSdkVersion 28
    ...
    dependencies {
        ...
        implementation 'com.android.support:appcompat-v7:28.0.0'
    }
  • 错误2

    • 错误说明
    null
    Default interface methods are only supported starting with Android N (--min-api 24): void android.arch.lifecycle.DefaultLifecycleObserver.onCreate(android.arch.lifecycle.LifecycleOwner)
    Stripped invalid locals information from 1 method.
    null
    com.android.builder.dexing.DexArchiveBuilderException: Failed to process C:\Users\liuyanyan\.gradle\caches\modules-2\files-2.1\android.arch.lifecycle\common-java8\1.1.1\795d68cd761d093ccb235d1d91b8fd17c2ae25ff\common-java8-1.1.1.jar
    com.android.builder.dexing.DexArchiveBuilderException: Error while dexing.
    com.android.tools.r8.CompilationFailedException: Compilation failed to complete
    com.android.tools.r8.utils.AbortException
    • 解决方法:gradle中增加如下配置
    compileOptions {
        sourceCompatibility JavaVersion.VERSION_1_8
        targetCompatibility JavaVersion.VERSION_1_8
    }
  • 其他注意事项

    • asr回调方法非主线程的,如果需要在回调中更新UI,需放到主线程中,代码可见demo.
    • 权限及动态权限一定要添加否则可能导致无反应
    • 依赖包也必须都添加,否则可能导致无反应或崩溃问题

版本更新记录

上线日期版本号更新内容
2018.11.12v1.0.0支持在线实时语音识别
文档是否有帮助解决问题?

如有其它疑问,可在此提交意见和反馈
详细描述(选填)
联系邮箱(选填)
 
有道智云平台介绍
网易有道旗下一个为开发者、企业和政府机构等提供自然语言翻译、文字识别OCR等服务以及行业解决方案的云服务平台,致力于提供安全、可靠和高效的云服务。
联系方式
联系电话:010-8255-8901
商务合作:
投诉反馈:
地址:北京市海淀区西北旺东路10号院 中关村软件园二期西区7号 网易(北京)公司
微信公众号
微信小程序
 
 
 
©2017 网易公司 京ICP证080268号