软件服务

语音识别

语音识别为开发者提供语音转文字服务的最佳体验。经大体量业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户。具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。

功能

语音识别开放录音文件识别、实时语音识别和一句话识别三种服务形式,满足不同类型开发者需求。

录音文件识别

对不超过一小时的录音文件进行识别。适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。

语言和方言:目前支持中文普通话、英语、粤语。

行业/领域模型:目前支持音视频领域模型。

音频属性:支持 wav、mp3、silk、speex、amr、m4a 等主流的音频格式,支持8k、16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。

音频数据长度支持:若采用直接上传音频数据方式,建议音频数据不能大于5MB;若采用上传音频 url 方式,建议音频时长不能大于1小时。

自学习模型:支持通过语言模型自学习工具进行定制优化,可以有效提高文本场景下的语音识别准确率。

热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。

关于录音文件识别使用详情,请参阅 录音文件识别 API 文档。

实时语音识别

对实时音频流进行识别,达到“边说边出文字”的效果。适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。

语言和方言:目前支持中文普通话、英语、粤语、韩语。

行业/领域模型:目前支持金融领域模型。

音频属性:支持 wav、pcm、speex、silk、mp3 的音频格式,支持8k、16k采样率的单声道音频流,支持16bit的数据采样精度。

音频数据长度:建议每个数据包的音频分片最大不能超过200KB。

自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。

热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。

一句话识别

对60秒之内的短音频文件进行识别。适用于语音消息转写场景,例如语音短信、语音搜索等。

语言和方言:目前支持中文普通话、英语、粤语。

音频属性:支持 wav、mp3 的音频格式,支持8k、16k采样率的单声道音频,支持16bit的数据采样精度。

音频数据长度:若采用直接上传音频数据方式,建议整个数据包不能大于600KB;若采用上传音频url方式,建议音频时长不能大于60s。

自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。

热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。



颜色切换
Settings