非特定人语音识别方案
一、 什么是语音识别
概述
由于语音识别属于信号处理领域,下面文字如果过于专业,可以跳过,直接看第二部分,语音识别样品介绍。
语音识别技术就是让机器通过识别把语音信号转变为命令的技术,也就是语言命令控制,它和人类语言交流一样,作为一种命令交互方式。在PC 领
域,Microsoft 的Word 软件就有语音识别技术,但我们的语音识别芯片SR160x 与PC 相比,具有自己的特点。首先,它是一个完整的语音识别系统,除
了识别外还具备语音提示及语音回放等功能。其次,嵌入式语音识别系统具有体积小,可靠性高,功耗低,价格低,易于商品化。嵌入式语音识别系统
的特点使得其应用领域十分广泛,不仅可以做玩具、礼品、学习机、消费类产品控制。
由于语音识别的特点,不建议使用要求可靠性极高的领域。
我们能给客户提供芯片级、PCBA 级、机芯级产品。在样品中,我们能演示语音识别、高压缩率、高品质放音,录音,温度检测、时钟,闹钟等功能。
如有这方面的需要请联系我们。
语音识别原理
嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理,包括语音信号的采样、反混叠滤波、语音增强,接下来是特征提
取,用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤,第一步是系统“学习”或“训练”阶段,
这一阶段的任务是构建参考模式库,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。第二是“识别”或“测
试”阶段,按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。
系统硬件设计
对于嵌入式系统而言,语音识别硬件组成要考虑很多其它因素,首先由于成本的限制,一般使用定点DSP,这意味着算法的复杂度受到限制;其次,
对产品化有各种严格的限制,这就需要一个高度集成的硬件DSP,因此最理想的硬件组成是系统级的芯片。
我公司采用的是一个16 位结构的微控制器,将MCU、A/D、D/A、RAM、ROM 集成在一块芯片上,具有很高的集成度。同时具有较高运算速度的
16×16 位的乘法语音和内积运算指令,CPU 最高可达时钟49MHz,因此在复杂的数字信号处理方面既非常便利又比专用的DSP 芯片便宜得多。并具有
12 位ADC,和12 位DAC 保证音频精度,配置带自动增益控制(AGC)的麦克风输入方式,为语音处理带来了极大的方便。既具有体积小、集成度高、
可靠性好的特点,又具有较强的中断处理能力、高性能的价格比和功能强、效率高的指令系统及低功耗、低电压的特点,所以非常适合用于嵌入式语音
识别系统。
以 SR1601x 核心的嵌入式语音识别系统硬件的电路系统,主要包括麦克风输入电路、ADC、DAC、功放输出电路、键盘电路和各种通信电路等,语
音和特征库保存到SPI Flash 存储器中。
语音识别软件设计
SR160x 非特定人识别要经过语音训练后才能识别,将语音训练过程中建立的参考模式库和从待识别语音信号中提取的特征参数都存放在外扩的SPI
Flash 中,这样就可以保证掉电后重新开机继续识别。语音识别系统软件主程序由语音训练程序、语音识别程序、语音播放程序、中断程序、初始化程序
等子程序组成。由于嵌入式平台存储资源少、实时性要求高的特点,因此算法在保证识别效果的前提下要尽可能优化。
软件包括 A/D 变换、预加重、分帧和加窗、端点检测、特征参数提取、放宽端点限制的DTW 算法,最后识别结果输出。
在应用层软件考虑到用户的实际需求,增加了能快速开发的虚拟软件开发技术,能快速提供给客户产品。
SR160x 的特点
SR160x 识别速度快,识别率高,抗干扰能力强,识别率最好可以达到98%以上。体积小,使用灵活,系统价格低廉,可移植性好。目前已成功应用
于多类产品中。
二、语音识别样品介绍
功能描述
智能对话样品具有如下功能:
【语音对话】可以与人交互对话,独特的实用创新对话内容,识别距离远,准确率高,响应速度快。
【时间功能】可以语音播报当前时间,语音播报当前日期,语音播报星期
【闹钟功能】具有起床闹钟、睡觉闹钟、日常闹钟 3 个闹钟提醒功能
【温度功能】对话应答当前环境实时温度。
【录音功能】高品质数码录音。
【学习功能】学习唐诗,英语,故事,算数......
【音乐功能】儿歌,音乐尽享其中
【电动功能】放声音的同时可以控制娃娃眨眼和动嘴,栩栩如生。
【红外功能】可选红外遥控,轻松完成操作(或5 个按键)
操作方式
K1 键单击 下一首 双击 上一首 (调时间,闹钟,学习素材)
K2 键调时间,闹钟时功能切换键
K3 键单击放录音,长按开始录音
K4 键开/关机键
K5 键单击顺序翻 双击逆序翻 菜单键
K5 菜单键:
【1】语音对话
【2】唐诗
【3】英语
【4】故事
【5】算数
【6】音乐
【7】时间设置
【8】闹钟设置
识别词条
必须按照下面表格中的识别词条识别
你会做什么? 给我讲个故事!
唱首歌吧 背首诗吧?
学外语 算术练习
现在几点啦? 今天是星期几?
请告诉我温度? 你爱吃什么?
你最喜欢谁? 再来一个
拜拜 请播报日期?
小乖乖 你真漂亮
亲一下好吗? 你有什么爱好吗?
注意: 1、请按“菜单键”到识别功能,“语音交互游戏”时才能进行识别;
2、在播放过程中不能识别;
3、请勿在非常吵杂环境和人声环境中使用;
盛矽电子是专业从事方案与技术服务的提供商。专注于语音识别、智能玩具、儿童电脑、语音芯片等领域。盛矽电子由年轻有为、高学历、有多年
工作经验的员工组成,踏实敬业,技术实力雄厚。成功的服务于消费类电子、玩具、礼品、仪器等行业,为客户提供高附加值的产品方案与技术支持。
盛矽电子以技术为先导,把计算机技术,智能技术,自控技术等移植到玩具产品中,使玩具有智能的芯。
您的产品如果选择了盛矽电子的语音识别(注1)产品线,就立即升级为能听懂人命令智能产品,能与人进行交互式对话,提升了产品附价值,为客
户创造更多利润。
盛矽电子的高品质语音级、音乐级的放音·录音(自有算法)产品线,硬件资源丰富,质优价廉,可以应用于各种需要语音产品中。
盛矽电子推出提升开发效率的软件虚拟机(注2)的录音放音芯片。芯片集成了专业的语音算法和简单实用的接口平台;Flash 存储技术,简单、高
效、灵活、便捷、低风险。
盛矽电子在儿童电脑,智能算法方向有着独到的技术优势,俱有先进自主产权算法,已经成功向多家知名厂商提供方案级、机芯级的产品。
盛矽电子重磅推出业界第一款专门为智能玩具设计的可编程玩具操作系统Semroid Toy Option System(盛卓玩具操作系统),独特的开放平台,接
口丰富多样,适合玩具种类丰富,用户可以把自己的玩法编程,实现新功能和新玩法,使单纯玩具具备创造力。