秒速赛车七码我国语音识别研究工作开始的较晚
发布时间:2019-04-29 05:06

  系统的实用化研究是语音识别研究的一个主要方向。以玩具市场为例,具有高科技含量的电子玩具、智能玩具发展迅猛,电子互动式、智能化玩具已经成为玩具行业发展的主流。我国是玩具生产和出口大国,但在高科技玩具的发展方面和国外的差距很大,因此,及时投入精力广泛开展这方面的研究,无论对技术创新应用,还是社会经济发展,都有巨大的现实意义。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别功能大大增加了玩具使用的乐趣,并使玩具体现出一定的智能性,因此成为大部分电子玩具、智能玩具设计中使用的关键技术。

  语音输出电路如图所示,其中VDDH为参考电压,VSS是系统的模拟地。音频信号由SPCE061A 的DAC引脚输出送到电路的J4端,通过音量电位器R9的调节端送到集成音频功率放大器SPY0030,经音频放大后,音频信号从SPY0030输出经 J2 端口外接扬声器播放声音。 SPCE061A内置2路10位精度的DAC,只需要外接功放电路即可完成语音的播放。图中的SPY0030是凌阳的一款音频放大芯片,可以工作在 2.4~6V范围内,最大输出功率可达700mW。 J5 都是语音输出接口,;是两针的插针外接喇叭,由DAC 输出引脚经语音集成。

  放大器SPY0030 放大,然后输出。SPY0030 是音频功率放大器。因为声音是不同振幅和不同频率的波,即交流信号电流,三极管的集电极电流永远是基极电流的倍,是三极管的交流放大倍数,应用这一点,若将小信号注入基极,则集电极流过的电流会等于基极电流的倍,然后将这个信号用隔直电容隔离出来,就得到了电流(或电压)是原先的倍的大信号,这现象称为三极管的放大作用。经过电流与电压的共同放大,就完成了功率放大。R14为可调电阻,当调节阻值大小事,即调节了基极的输入信号,最终影响的就是输出信号即语音输出音量的大小。SPY0030的放大倍数固定为20倍。

  语音输入电路如图所示,其中VMC提供传声器的电源,AVSS1是系统的模拟地,VCM为参考电压,1脚和2脚分别是传声器X1的正极、负极的输入引脚,连接SPCE061A的MICP、NICN管脚上。当对着传声器讲线脚将随着传声器输入的声音产生变化的波形,并在SPCE061A的两个端口处形成两路反相的波形,送到SPCE061A 控制器内部的运算放大器进行音频放大,经过放大的音频信号,通过ADC转化器转化为数字量,保存到相应的寄存器中。 SPCE061A的A/D转换器有8个通道,其中有1个通道是MIC-NI输入,它专门用于对语音信号进行采样。语音信号经过MCI转换成电信号,然后输入至SPCE061A内部前置放大器。由于人们说话时,麦克风距离嘴边的距离不同,语音信号的能量将会有很大的差异,此时,如果芯片的的输入信号太大或是太小都将影响识别的精度。而SPCE06lA内部就带有自动增益控制电路AGC能随时跟踪、监视前置放大器输出的音频信号电平,当输入信号增大时AGC电路自动减小放大器的增益;当输入信号减小时,AGC电路自动增大放大器的增益,从而以补偿太小或是太大的信号,以便使进入户A/D的信号保持在最佳电平,又可使削波减至最小。 SPCE061A芯片中已经集成了音频输入专用ADC以及AGC放大电路,因为此芯片外部的电路比较简单。

  MICP和MICN将随着MIC产生的波形变化,并在两个端口处形成两路反相波形,在经过两级运放放大,把放大的语音信号交给ADC转换为数字量,这时就可以通过单片机编程对这些数据进行处理,进行语音处理识别等功能。 正如我们在前面介绍的61 板具有强大的语音处理功能,如图3-8所示,X1 是语音的MIC 输入端,带自动增益(AGC)控制。

  在本系统中,当我们对系统进行训练、识别、操作时,有一些语音提示,由于SPCE061A内部只有32k字的flash空间,除了一部分空间作为程序的存储之后,剩下的用来存储语音数据时远远不够的,于是系统外扩了flash。SPR4096与SPCE061A的连接方式为:SCK与SPCE061A的 IOB0接,SDA与SPCE061A的IOB1口接。SPR4096按串行接口模式工作,要把CF2~CF0均接高电平。CF7为低电平时选中 FLASH,高电平时选中SRAM。 SPR4096是一个高性能的4M-bit(5128-bit)FLASH,分为256个扇区。每个扇区2Kbyte。SPR4096还内置了以个 4K8bit的SRAM。在进行FLASH的编程/擦除时,可以并发执行SRAM的读/写。SPR4096内置了一个总线存储器接口和一个串行接口,它允许单片机通过8-bit并行模式或者1-bit的串行模式访问FLASH/SRAM存储区。 SPR4096串行接口的工作频率可达到5MHz。SPR4096有两个电源输入端VDDI和VDDQ。VDDI是给内部FLASH和控制逻辑供电的;VDDQ是专门为I/O供电的。

  供电电压VDDQ:2.25V~3.6V。SPR4096最大读电流为2mA,最大编程/擦除电流为6 mA 。SPR4096模块包括总线存储接口,串行接口,SRAM,编程与擦除控制器和一个4M的FLASH。选择串行接口时,SCLK作为时钟信号线-bit的数据线。如果接收到FLASH的读指令或者SRAM的读/写指令,串口会把这些指令传给编程和擦除控制器,让编程和擦除控制器去完成相应操作。 串行接口模式的选中是通过CF2~CF0来实现的。当CF2~CF0均接高电平时,选中的就是串行接口模式,在串行接口模式下,CF7为低电平时选中 FLASH,高电平时选中SRAM。该芯片有SIF(Serial Interface)和BMI(Busmenory Interface)两种工作方式,但DIP24只支持SIF方式。

  全球电子测量技术与市场领导者是德科技(原安捷伦电子测量事业部)UXM新品体验会将于近期拉开帷幕,欢迎各位业内人士踊跃参加,您的到来,将是KEYSIGHT的最大荣幸!报名地址请点击以下图片进入:

  SPCE061A采用低电压供电方式,这可以大大降低芯片的功率损耗。其中,SPCE06lA的电源分两种,即内核电源(VDD)和I/O口电源(VDDH)。I/O口电源采用5V电压,而内核电源则为3.3V或者更低。降低芯片内核电压的目的主要还是降低芯片的功耗,同时也可以降低芯片的工作温度,延长芯片使用寿命。尽管这种语音芯片的工作电压范围很大,但是为了使芯片内核运行更加稳定,同时又保证I/O口及外部扩展部件的工作电压要求,电源电路采用芯片7805和SPY0029分别提供5V和3.3V电压完成对整个系统供电。 7805芯片电路中正常工作是,输入、输出电压差为2~3V。电路中靠近引脚处接入电容C40、C41用来实现频率补偿,防止稳压器产生高频自激震荡和抑制电路引入的高频干扰,C39是电解电容,以减小稳压电源输出端由输入电源引入的低频干扰。

  6是保护二级管,当输入端短路时,给输出电容器C39一个放电通路,防止C39两端电压作用于调整管的be结,造成调整管be结击穿而损坏。

  键盘模组可直接用排线单片机I/O口相连。1*8KEY 的8 列分别定义为COL1~COL8,1 行定义为ROW1。如图3-11所示。 按键分别和SPCE061A的IOA0~IOA7相连,他们的作用分别为1个系统开关键,1个系统复位键,1个单个命令训练按键,1个所有语句循环训练按键,剩余4个初步设定为LCD功能控制按键。每个按键的按下与抬起都会送给IOA口一个电压值,当按键按下使相应的IOA口得到一个高电压。相反,则为低电压。单片机则根据IO口的电压值进行相应的操作。

  利用LED显示来测试是否达到控制电器目标。利用数码管显示数字的不同来模拟验证是否能达到对家用电器的控制。 LED和LCD电路作为系统的显示部分,以显示当前的系统状况及识别结果以便检验实验结果和提示用户进行下一步操作。LCD部分在实验阶段可不接入。 计划采用内置SPLC0501点阵式图形液晶显示模块由液晶驱动控制器SPLC501、LCD显示器和外部设备的接口等几部分组成,液晶驱动控制器 SPLC501集行、列驱动器、显示数据存储器(DDRAM,Display Data RAM)和控制器与一体,广泛用于小规模液晶显示模块。内置SPLC501点阵式图形液晶显示模块的管脚排列和SPEC061A接线方法如图所示。

  虽然实现了语音控制家用电器,但是总的来说系统界面不是很友好。为此,我们可以充分利用计算机和通信技术,并用VB等软件开发友好的管理界面,将数据和其他信息通过计算机统一进行管理和控制。

  目前制造业市场上,工业机器人具有相当大的市场潜力,要使工业机器人真正应用于生产线上的各个方面,满足人们日益增长的需求,就离不开高性能的语音识别控制系统。随着计算机软硬件技术、半导体技术、电子技术、通讯技术等的飞速发展人类已经进入后PC时代。语音识别技术得到了迅猛发展, 支持语音识别的各种产品纷纷面世。人类实现了语音命令控制空调、电视、灯光、自动窗帘等的使用,让人们的生活“随音所欲”,更加舒适,更加便捷。基于凌阳 16位SPCE061A单片机设计了一个具有语音识别功能的机器人。在经过训练后使机器人对训练人的命令做出应答,完成跳两首舞曲、走步、转向、转头、发射飞盘等动作。

  语音识别可划分为训练和识别两个过程。在第一阶段,语音识别系统对人类的 语言进行学习,把学习内容组成语音库存储起来,在第二阶段就可以把当前输入的语音在语音库中查找相应的词义或语义。凌阳16位SPCE061A单片机内嵌 32K字闪存,2K字SRAM,内置10位ADC、DAC,有多达14个的中断源。它的CPU内核采用16位具有DSP功能的微处理器芯片, 而且CPU可最高工作在49MHz的主频下,能够非常容易地、快速地处理复杂的数字信号,因此与其他类型的单片机相比,在数字语音处理方面 SPCE061A更具有优势。基于SPCE061A设计了一个具有语音识别功能的机器人。经过训练,训练人可使用各种命令让机器人完成许多有趣的动作,使得人机交互更具智能化。

  SPCE061A最小系统中,含有SPCE061A芯片外围的基本模块,其主要由晶体输入模块(OSC)、锁相环外围电路(PLL)、复位电路(RESET)、指示灯(LED)等组成,参看图 4-1。在OSC32O、OSC32I端口接上晶体振荡器和谐振电容,在VCOIN端口接上相对应的电容和电阻后即可工作。在其他不用的VDD端口和 GND端口也不能悬空应该接上0.1uF的耦合电容以提高抗干扰能力。 图 4-1 SPCE061A最小系统。

  电源输入端口是61板的能源供应中心,整块板子的电源都是由此提供进去,可采用电池或稳压电源提供5V输入,并且必须至少保证电流在50mA以上,否则会造成系统无法倍频和下载出错。SPCE061A的内核供电为3.3V,由于I/O端口可接3.3V也可以接5V,所以在电源模块中有一个端口电平选择跳线用于选择端口电压,电源模块参看图,如下:

  将HM628128A中存储的语音数据顺序取出,解码后,以8kHz的速率进行D/A转换输出,语音数据经电容滤波恢复成原始语音波形,最后用三极管驱动扬声器放音。SPCE061A音频输出共有两个DAC通道,DAC1和DAC2输出的模拟电信号通过DAC1和DAC2引脚输出。DAC的输出范围是 0x0000~0xFFFF。DAC1和DAC2的输出数据应写入P_DAC1和P_DAC2单元。上电复位以后,两个DAC均被自动打开,此时会消耗少量的电流(几个毫安)。如若不需要,尽量关闭DAC输出(将P_DAC_Ctrl单元的第一位置为1)。而且DAC的直流电压必须保持平稳地变化,否则可能由于电压的突变引起扬声器产生杂音。为减缓电压的变化幅度,从而输出高质量的音频数据可以采用ramp up/down技术。其应用条件是:被唤醒/上电复位后首次使用DAC时,上电复位功能应在被关闭/进入睡眠状态之前。 放音利用的是SPCE061A内部的DAC,电路参看图 4-8。图中的SPY0030是凌阳公司的产品。和LM386相比,在工作电压上,LM386需在4V以上,而SPY0030仅需2.4V(两节电池)即可工作;在输出功率上,LM386仅在100mW以上,而SPY0030可达700mW。

  机器人驱动电路采用功率较大的三极管搭成H桥来驱动电机从而实现电机的正向旋转与电机的反向旋转,本系统中使用H桥驱动的电机包括两个用于走路的电机与一个头部转向的电机。同时用了一个三极管驱动单向旋转的电机,如加速电机与发射电机。语音处理技术本身就是一门理论性强、实用面广而且难度较大的综合学科。而开发出具有语音功能的单片机也是相当困难的。凌阳unsp系列16位单片机,就是适应这种需求而设计的。凌阳SPCE061A实现语音识别其独特之处在于:硬件电路简单,因为SPCE061A是一款专门为语音信号处理设计的单片机,麦克风和喇叭可以直接接入,接放大电路可不用外接。具有一套高效的指令系统,软件编程容易,有相应的API函数,可直接调用。

  本文利用凌阳单片机设计一个具有语音识别功能的智能遥控小车。该设计将遥控车由传统的手动遥控改成了语音识别遥控,集成了先进的语音识别技术,加上小车的机动灵活的特点,使控制者可以通过语音控制小车实现预设动作,从而释放控制者的双手,而且小车和控制者之间还具有一定的交互功能。所以此次研究具有较强的实用性和发展前景。

  由于单片机I/O口提供的电流太小,不能直接驱动继电器工作。在这里采用8050NPN管来提供一个开关电压,实现I/O口对继电器的驱动;用IN4007去掉继电器断开时线圈产生的反向电流,保护8050NPN管不被损坏。继电器驱动电路如图所示。

  如图所示为行使状态控制电路,整个小车的行驶状态由两个电机MOTOR A和MOTOR B来控制;MOTOR A控制小车的左边两个轮子,MOTOR B控制小车右边两个轮子。具体控制如所示。

  麦克风电路如图所示。凌阳的SPCE061A是16位单片机,具有DSP功能,有很强的信息处理能力,最高时钟可达到49M,具备运算速度高的优势等等,这为语音的播放、录放、合成及辨识提供了条件。本系统接入MIC电路如下图所示,MIC为录制语音辨识命令服务。麦克录音输入及AGC电路。

  音频部分的原理图如下所示,在下图中可以看到两个跳线,其作用在于可以测量DAC的输出波形;另外拔掉跳线,可以断开DAC到喇 叭放大的通路,使得DAC通道处于开路状态。这样便于用DAC做其他用途,用户可以用过这个跳线来加入自己的外围电路。

  本设计综合应用了SPCE061A丰富的硬件资源,成功的实现了语音控制功能。下面简单的介绍一下实际应用中的一些资源优势:在硬件方面,较高的执行速度、内置的硬件乘法器、ADC和DAC功能、内置的AGC自动增益环节,这些为语音处理提供了强大基础。在软件方面,标准的C语言编程,丰富的语音资源函数为编程提供了很大的方便。 该设计方案结构简单,以单芯片实现了语音播放与识别以及电机控制功能,相当于“语音识别芯片+普通单片机”的功能。但是比“语音识别芯片+普通单片机”方案实现起来要简单很多,而且成本也会降低很多。

  基于AVR单片机的语音识别系统设计,系统以AVR单片机为控制核心,实现对人的语音的识别控制。系统采用的主控芯片为Atreel公司的 ATMEGAl28,语音识别功能采用ICR oute公司的单芯片LD3320。LD3320内部集成语音识别算法,无需外部FLASH,RAM资源,可以很好地完成非特定人的语音识别任务。同时该芯片内部集成了MP3播放功能,支持MPEG等格式,可实现语音提示或MP3歌曲的播放功能。由于内部含有16位A/D、D/A转换器和功放电路,所以不需要外接功放电路就可以产生清晰的声音。该系统已经预留好各种接口,具有良好的扩展性。

  LD3320芯片是一款“语音识别”专用芯片。该芯片集成了语音识别处理器和一些外部电路,包括A/D、D/A转换器、麦克风接口、声音输出接口等,而且可以播放MP3。不需要外接任何的辅助芯片如FLASH,RAM等,直接集成到产品中即可以实现语音识别、声控、人机对线电路原理图,与MCU通信采用SPI总线MHz。

  麦克风工作电路如图所示,音频输出只需将扬声器连接到SPOP和SPON即可。使用SPI总线的MD要设为高电平,SPIS设为低电平。SPI总线的引脚有SDI,SDO,SDCK以及SCS。INTB为中断端口,当有识别结果或MP3数据不足时,会触发中断,通知MCU处理。 RSTB引脚是LD3320复位端,低电平有效。LED1,LED2作为上电指示灯。

  由ISD-SR3000构成的语音识别系统由电路如图2所示。以下分别介绍电路中各部分的功能。

  SR3000内含片内振荡器,但应用时也可通过X1和X2/CLKIN端的外接晶振或外部时钟源来产生时钟信号。外部时钟源信号应通过X2/CLKIN端输入。要注意的是,外部时钟源电平与CLKIN的输入电平要相符(3.3V或5V)。

  外接晶振可通过X1和X2/CLKIN端与芯片内的振荡电路相连。为减少寄生电容和电感对振荡频率的影响,外接的晶振和电容应尽量靠近X1和X2 /CLKIN端。ISD-SR3000可工作在3.3V10%和5V10%两种电压,不同电压的接线V电源时的接线V电源时的接线具有低功耗模式,在低功耗模式时的电流消耗仅12mA,此时芯片中的一些功能模块处于未激活状态,因而不能进行语音识别。低功耗模式时的引脚CS0和CS1必须置1,这时,MWCLK、MWDIN信号将保持在Vss+0.5V,而RESET、MWCS信号则将保持在Vcc- 0.5V。

  ISD-SR3000利用扩展的Flash(闪存)和RO来存储声音标签、词汇、提示符和音质模型。建议选用16M以上存储容量的扩展Flash存储器,如Am29LA160D等。外接64kB的SRAM可实现HMM算法。表2给出了扩展地址线的接口信号。

  ISD-SR3000可为模拟和数字电话提供一个支持主和从CODEC接口模式的CODEC接口,该接口具有8位和16位的信道宽度,能支持可变和固定格式的通信协议。在主模式下,可利用SR3000来控制CODEC的运行以满足模拟电话和独立标准的应用;在从模式下,CODEC接口由外接信号控制,此模式可用于数字电话,如ISDN或DECT线等。CODEC接口使用的5个信号分别为CDIN、CODUT、CCLK、CFS0和CSF1。其中 CDIN、CDOUT、CCLK和CFS0被连接到第一个CODEC。CDIN、CDOUT、CCLK和CFS1被连接到第二个CODEC接口。数据通过 CDOUT输出端传送给CODEC接口,并通过CDIN输入端从CODEC读出。CCLK和CFS0端在主模式下为输出状态,而在从模式下为输入状态。 CFS1是一个输出端。

  语音信号采集模块主要包括语音信号的输入输出模拟通道、DSP和AD50的连接、DSP和AD50的周边设备连接等。其中,DSP和AD50的周边设备连接包括电源电路、时钟电路、复位电路、存储器扩展电路和去耦电路等,这些电路的连接可查看相关芯片资料。语音信号的前后端处理主要由输入输出模拟通道组成。这两个电路的主要作用是将信号进行处理,尽量减少输入输出引入的噪声。同时,还可以调整输入输出的放大系数,使语音信号适合各种不同的功放,得到最佳的语音效果。为了达到更好的效果,AD50的模拟信号输入采用差分输入方式,即使用两个运算放大器,将单端输入信号转换成差分输入信号,电路连接如图3.5所示。使用差分信号,信号一J下一负同时进入采集系统,如果此时有随机噪声出现,通过『F负信号的加减,可以有效消除部分噪声。

  要使TLC320AD50正常工作,还需要进行电源供电及去耦电路以及一些功能引脚包括帧同步延迟输出、电压下拉、输出监控、参考电压过滤输出等的连接,具体连接如图3.7所示。

  DSP通过多通道缓冲串口连接AD50。DSP最多可以使一个缓冲串口与3个AD50芯片连接。本系统采用DSP为主设备、AD50为从设备的连接方法。如图3.8所示,AD50的时钟信号MCLK由DSP的定时器0的输出TOUT0提供,时钟频率可以通过设置定时器0来改变。AD50的移位时钟输出 SCLK连接到DSP的缓冲串口0的接收时钟引脚CLKR0,帧同步信号FS连接到DSP缓冲串口0的FRXO。AD50的FC引脚连接到DSP的通用 I/O引脚XF,用于控制二次串行通信。图3.8中DSP的DR0为输入,其余均为输出。

  程序存储器主要用于系统运行时,将采集的数字语音信号暂时存储在RAM中以备后续的处理。由于采集的数据不是太大,扩展32k的程序存储器即可满足要求。因此本系统只用到CY7C1021的低32k字空间,将DSP的地址线位通过一个数字逻辑电路后用于寻址CY7C1021的低32k字空间。电路原理图如图3.9所示。

  数据存储器主要用于存储编译后的系统软件的数据,用于语音识别系统板上电自举。选用flash芯片,是因为flash芯片是电可擦可写芯片,可以在线对flash进行操作,修改应用程序方便。地址缓冲器和数据缓冲器电路连接分别如图3.12和3.13所示:

  SST39VFl60有1M*16bit的容量,但扩展数据存储器只需64K空间足以,所以电路SST39VFl60的地址线位接地。电路原理图如图3.14所示:

  LED显示电路在此系统中用于显示语音识别的结果,与输入的语音比较可知系统识别率的高低。电路中用SN74LS373作为暂存器,通过DSP的I/O 端口选择引脚IS和DSP的第17个地址引脚来控制SN74LS373的输出使能端,用一个共阴极七段数码管来显示识别结果【241。电路图如图3.15 所示:

  JTAG标准是IEEEl990年公布的1 149.1标准的又一称呼,是针对现代超大规模集成电路测试、检验困难而提出的、基于边界扫描机制和标准测试存储口的国际标准。JTAG标准公布以后,TI公司为其以后的DSP器件均设置符合国际标准的JTAG逻辑测试口,通过JTAG测试口访问和调试TI DSP芯片。电路设计中需要注意的问题:当仿线cm时,JTAG仿真头与DSP之间的EMUO、EMUl、TMS、TDI引脚互联时应通过上拉电阻接高电平,而TMS、TDI、TDO、TCK之问互联时还要加缓冲器,只在距离小于15.24cm时它们之间不用通过缓冲器连接。

  此系统中,有两类电压,一类是DSP芯片的内核电压,为1.8V,另一类是DSP的外围电路供电电压,为3.3V。为了能够满足双电压供电,本系统选用TPS767D318电源芯片供电。根据芯片推荐电路搭建电路原理图如图3.17所示:

  简述了与硬件相关的驱动程序的设计,将硬件驱动程序与语音识别程序综合,编译通过后载入目标板即对语音信号进行识别。介绍了一个基于DSP的非特定人汉语孤立数字语音识别系统的设计过程,系统通过AD50芯片将模拟语音信号采集到DSP芯片中,再采用语音识别算法对采集到的信号进行处理,并将识别的结果用LED输出完成了整个系统设计。

  语音是人类最常用的交流方式,也是人类和计算机交流最渴望的方式。因此用语音同计算机交流也成为了最近研究的热点,计算机对语音的理解是计算机科学中的一个引人人胜的、富有挑战性的课题。我国语音识别研究工作开始的较晚,但近年来发展得很快,一直紧跟国际水平,国家也很重视,中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其字准确率或系统响应率可达90%以上。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。

  介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统C/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。

  图3为语音识别部分原理图,参照了ICRoute发布的LD3320数据手册进行设计。LD3320的内部集成了快速稳定的优化算法,不需外接Fla-sh、RAM,不需要用户事先训练和录音而完成非特定人语音识别,识别准确率高。

  图中,LD3320采用并行方式直接与STM32F103C8T6相接,均采用1k电阻上拉,A0用于判断是数据段还是地址段;控制信号,复位信号以及中断返回信号INTB与STM32F103C8T6直接相连,采用10k电阻上拉,辅助系统稳定工作;和STM32F103C8T6采用同一个外部8 MHz时钟;发光二极管D1、D2用于复位后的上电指示;MBS(引脚12)作为麦克风偏置,接了一个RC电路,保证能输出一个浮动电压给麦克风。

  双自由度云台有4 个控制转动方向的端口, 分别是水平左转、水平右转、上升、下降, 需要24 V 的交流电来驱动, 而语音识别结果的二进制序列经过解码后由单片机AT89S52 的I/O 口输出, 其端口电平是0 ~5 V 的直流。为了能使单片机根据语音识别结果驱动云台转动,在AT89S52 和云台之间放置一个电流放大器件ULN2003 。ULN2003 是大电流、高耐压达林顿阵列, 包括7 个达林顿管, 在5 V 的工作电压下, 能够与TTL 和CMOS 电路直接相连, 这样就可以直接处理原来需要标准逻辑缓冲器来处理的数据。将控制云台转动方向的4 个端口D_Right 、D_Left 、D_Up 、D_Down 分别与继电器K1、K2、K3、K4 相连, 单片机AT89S52 根据解码后的语音识别结果控制继电器的断开和闭合, 从而控制云台转动的方向和角度。云台转动电路图如图所示。

  语音识别播放电路主要由语音芯片LD3320、STC10L08XE 单片机及其他外围电路构成。语音芯片LD3320 内部固化有完整的非特定人语音识别特征库和高效的非特定人语音识别搜索引擎模块, 不需要事先训练和录音。只需要单片机把候选识别语句的拼音串传入芯片内部, 通过芯片内部的DSP 算法, 找出最佳识别结果。同时此芯片还支持MP3 播放功能, 此时需要外接Flash 芯片, 用来存储播放的声音素材等数据。STC10L08XE 单片机读取串行存储芯片的MP3 数据, 依次送入LD3320 芯片内部就可以从芯片的相应引脚输出声音。STC10L08XE 单片机与语音芯片LD3320 之间采用并行的通信方式, 故在硬件上需要使用8 根数据线 个控制信号将语音芯片与单片机并行连接。

  最小系统电路图如下图所示,在OSC0,OSC1 口接晶振以及谐振电容,在锁相环接入相应电容电阻,在电源端和接地端接上0.1UF 去耦电容,提高考干扰能力。

  在SPCE061A 主控芯片对语音信号进行A/D 转换具有专门的转换通道声音模-数转换通道。并且SPCE061A 内部置有麦克风放大电路和自动增益控制部分。自动增益控制部分可以自动调节所收到的麦克风音量,这样使得该系统不会受到发送命令的人所处位置的限制。 SPCE061A 内部的麦克风前置放大电路主要由输入级、中间级、输出级三部分组成,输入级采用的是差分放大电路,它是麦克风前置放大电路的主要组成部分,差分放大电路作为输入级有很大的优势,能够有效的抑制输入端输入的共模干扰,对于输入的有效差分信号则不会产生任何干扰。本系统的语音识别信号输入电路如下图所示。 C23,C24 是作为退偶电容用,减少噪音信号对语音识别的干扰。

  在本系统中SPCE061A 所需要用到的3.3V 电源,采用AMS1117 芯片产生。AMS1117 是一个正向低压降稳压器,AMS1117 有两种:一种为固定输出电压,输出的电压值有:1.5V、1.8V、2.5V、2.85V、3.0V、3.3V;另一种为可调节输出电压。AMS1117 内部集成了过热保护电路和过流保护电路。为了保护AMS1117 的稳定性,在输出端要接一个至少22UF 的钽电容由AMS1117 构成的3.3V 电压产生电路图。

  L298 是专用驱动集成电路,可以驱动感性负载,例如:大功率直流电机和步进电机等,可驱动46V,2A 以下的电机。其输入端可以直接与单片机连接,并且可以实现电机的正转、反转、加速和减速等控制。L298 有两个电源,分别为逻辑电源和动力电源,6V 为逻辑电源。12V 为动力电源。电路图如下所示:

  总的来说,计还是比较简单的,对于语音识别技术更是有了全新的认识,完全掌握了SPCE061A的原理及其技术。还有,语音识别是一项很有应用前景的全新项目,可以应用于多种未来新新项目,应用范围广,可靠性高。是一个很有前途的创新项目!

  RSC-4x系列是新一代嵌入式语音识别处理器集成电路,它具有集成度高、外围电路简单、功耗低、不怕掉电、使用方便等特点。一个完整的语音识别系统仅由RSC-4x系列芯片及少量外部元器件(扬声器、麦克风、音频输入/输出电路、存储器和电池或整流稳压电源)等组成.R S C-4 x系列芯片适用7.0语音识别技术RSC-4x系列芯片通常采用48P/64P/100P-LQFP封装。

  工作原理:RSC-4x是一种交互式智能语音识别电路,通过执行内嵌的马尔可夫链和神经网络去处理语音识别。说话者需要在芯片的外部存储器(如 sRAM、EEPROM、闪存等)存储语音识别信息,识别过程中需要ROM去存储要被识别的字.RSC-4x有如下几个独创的识别特性:

  1、语音识别无须训练。在一个活动单元内可识别16个字(单元存储的字由内部ROM和外部存储器限制)。

  2、连续接收每一个特殊的字。由于这个功能,所以此产品可以用在一般的场合和对一些特殊的字时需要安静的环境。

  3、字定点测量允许芯片一次可连续接收达5个SI或10个SD,在该字定点方式下,无须保持安静的环境.RSC-4x系列可在芯片的sRAM中存储6个sD字或在外部存储器中存入更多的字。

  RSC-4x利用巧妙的频域规则提供高质量语音合成,典型的数据率小于5k/s.语音合成需要片内或片外ROM去存储所要合成的语音数据.RSC-4x 提供4种高质量音乐/语音合成手段.RSC-4x独到之处还有可使用计算机网络系统产生具有128种音色、47种真实乐器声的高档音乐 MIDI.。RSC-4x可以在不同的采样比率下对声音进行录音和重播,采样比取决于对语音时长和音质的要求,数据率在14k/s时,一般就可以获得较高音质的效果.RSC-4x还可以消除静差以提高声音质量和减少存储容量。