时辰:2023-03-25 11:26:28
序论:速颁发网连系其深挚的文秘履历,出格为您遴选了11篇语音辨认手艺范文。若是您须要更多首创材料,接待随时与咱们的客服教员接洽,但愿您能从中罗致灵感和常识!
该文首要尽力于处置通话中的语音辨认手艺,持久可推行至QQ语音谈天等立即谈天软件中,相较于今朝大大都语音辨认软件须要手动翻开加倍主动,让用户感受不到软件的存在,将该手艺深度整合到体系或QQ办事中在通话竣事后针对通话中触及的德律风号码、地址、时辰等关头信息停止信息的推送,大大前进了效力,并对听力有妨碍的人士有加倍首要的意思。
一、语音辨认根基道理
语音辨认体系本色上是一种情势辨认体系,包罗特色提取、情势婚配、参考情势库等三个根基单位,未知语音颠末麦克风变更成电旌旗灯号后加在辨认体系的输入端,起首颠末预处置,再根据人的语音特色成立语音模子,对输入的语音旌旗灯号停止阐发,并抽取所需的特色,在此底子上成立语音辨认所需的模板,而后根据此模板的界说,经由进程查表便能够或许或许或许或许或许或许或许给出计较机的辨认功效。 [1]
二、通话中语音辨认手艺
2.1手艺道理:
1、根基架构:Smartalk通话体系基于“云之讯”开放平台供给的语音视频通话办事和“科大讯飞”开放平台供给的语音辨认办事,并加以敌手机GPS地位、通讯录、交际软件信息的阐发,在“云”的赞助下对之停止处置和互换。Smartalk架构分为4个局部:客户端、语音视频办事、语音辨认办事、云数据处置阐发。支配“云之讯”开放平台供给的语音视频通话办事和“科大讯飞”开放平台供给的语音辨认办事可将用户在通话中触及的地址、人名、德律风号码等关头词提掏出来并加以阐发对路程和下一步支配供给赞助。
2、根基平台:本体系基于APIcloud开辟,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)支配,接纳标准的c++措辞完成。
2.2功效完成:
1、基于“云之讯”开放平台的通话体系:云之讯融会通讯开放平台为企业及小我开辟者供给各类通讯办事,包罗在线语音办事、短信办事、视频办事、集会办事等,开辟者经由进程嵌入云通讯API在支配中轻松完成各类通讯功效。
2、基于“科大讯飞”开放平台的语音辨认体系:。讯飞开放平台支配户可经由进程互联网、挪动互联网,支配任何装备便利的到场讯飞开放平台供给的“听、说、读、写”等全方位的野生智能办事。今朝开放平台向开辟者供给语音分化、语音辨认、语音叫醒、语义懂得、挪动支配阐发等多项办事。
3、语音辨认与云端大数据连系阐发:。支配基于“云之讯”通话体系和“科大讯飞”语音辨认体系完成了及时的语音辨认,加以云端大数据的连系,和及时的阐发用户今后的须要和题目,及时的跟用户发生交换反应,并根据用户持久的支配时辰阐发智能提早推送相干信息。
2.3未来瞻望:
基于大数据和互联网+手艺的日趋成长与完美,并跟着通讯传输速率的逐步前进,可在及时的前提下阐发与推送更多丰硕的内容,加以与立即谈天软件的连系,将该手艺深度整合到体系或QQ办事中在通话竣事后针对通话中触及的德律风号码、地址、时辰等关头信息停止信息的推送,并对听力有妨碍的人士有加倍首要的意思,未来的市场远景广漠。
三、语音辨认手艺支配
3.1 语音指令节制在汽车上的支配:
语音节制职员只须要用嘴说出号令节制字,便能够或许或许或许或许或许或许或许完成对体系的节制。在汽车上,可用于汽车导航、节制车载装备。如车灯、声响、天窗、座椅、雨刮器等。
3.2语音辨认手艺在医疗体系中的支配:
医疗语音辨认手艺,已有厂商开辟了基于云平台的语音辨认体系,可间接内嵌到病院电子病历体系中,让大夫经由进程语音输入病人信息,填写医疗记实,下达医嘱信息。
四、相干市场调研
1、国际外市场阐发:2015年环球智能语音财产规模到达61.2亿美圆,较2014年增添34.2%。此中,中国智能语音财产规模到达40.3亿元,较2014年增添增添41.0%,远高于环球语音财产增添速率估量到2016年,中国语音财产规模估量到达59亿元。[2]
2、相干支配成长:拉斯维加斯破费电子展(CES)上揭示的MindMeld。在通话中,若是到场者点击支配的一个按钮,那末MindMeld将支配Nuance的语音辨认手艺,阐发此前15至30秒对话。随后,MindMeld将肯定对话中的关头词,和其余多个信息来历,查找具备相干性的信息,并在屏幕上向用户供给图片和链接地址。[3]
参 考 文 献
语音辨认手艺成为21世纪“数字时代”的首要开辟范畴,在计较机的多媒体手艺支配和财产主动化节制支配等方面,功效令人属目。语音辨认手艺是指用电子装配来辨认某些人的某些特色语音,语音辨认的手腕通俗分为二大类,一类支配在计较机上开辟语音辨认体系,经由进程编程软件到达对语音的辨认,别的一类接纳特地的语音辨认芯片来停止简略的语音辨认。支配特地的语音辨认芯片支配在地铁车辆上,具备布局简略、支配便利,并且语音辨认器有较高的靠得住性、不变性的特色,是简略语音辨认在主动节制支配上的一种优先计划。
今朝上海地铁
一、
二、
三、
五、
六、八号线在车辆信息显现体系的设想上贫乏合用性和支配性,对搭客来讲贫乏在及时报站时的人道化。如:地铁车箱内的搭客信息显现体系和车箱外侧的列车信息显现体系。若是在每一个车门的上方装置车站站名静态显现舆图,及时显现与车箱播送同步的信息,和在每节车箱外侧显现列车的出发点站,精采的财产设想不只能给泛博的搭客带来很是大的赞助,并且能够或许或许或许或许或许或许或许晋升上海地铁办事的抽象。因为在设想以上地铁列车时,受科技成长的限定。此刻上海地铁4号线在车辆信息显现体系的设想上知足了泛博的搭客的须要,
增添了车站站名静态显现舆图。
若安在现有的地铁车辆上增添地铁车箱内的搭客信息显现体系和车箱外侧的列车信息显现体系,如图1、2,起首斟酌其合用性和性价比,同时装置、支配要便利,在不影响列车的机能的前提下,完本钱搭客信息显现体系的支配,设想计划的遴选极为首要,今朝的搭客信息显现体系比拟庞杂,比方:对支配在某条线路上的声响辨认体系,不只要点窜原语音文件,并且声响辨认器不轻易支配,
对支配者来讲仍然存在比拟多的题目。对支配在某条线路上数字传输显现体系,其支配体例不只给司机带来了使命,每站须要手动支配二次,同时显现的相干内容不及时性,总之搭客信息显现体系比拟掉队。
设想一种合适古代化请求的搭客信息显现体系是很是须要。
2.设想
地铁车辆搭客信息显现体系的设想,接纳CMOS语音辨认大规模集成电路,辨认呼合时辰小于300ms。HM2007芯片接纳单片布局,如图3。将语音辨认须要的全数电路:CPU、A/D、ROM、语音的AMP缩小器、紧缩器、滤波器、震动器和接口界面等集合在一片芯片内,如许电路就很是少,外接64K非易失性SRAM,最多能辨认40个车站站名语音(字长0.9秒),或(字长1.92秒)但辨认仅20个车站站名语音。按通俗人的发言速率,0.9秒通俗每秒吐字1到3个为好。
针对今朝上海地铁列车在车箱表里无LED静态站名显现而设想,经由进程将列车车箱播送的摹拟旌旗灯号转换成数字旌旗灯号,主动节制LED发光二极管,在列车在车箱内使得播送的内容(每一个车站站名)与发光二极管显现面板声光同步,将显现面板安排地铁车辆的每扇车门上方,并且显现面板以地铁经营线路为背景,到达列车进站和出站时能别离唆使。在列车车箱外让搭客很是直观地、一目明了地领会车辆的出发点站标的方针,从而便利搭客的凹凸车,前进了地铁办事水平。在外洋的地铁列车上支配已相称遍及。
语音辨认显现器①的输入端与车载播送功放器相毗连,完成播送摹拟旌旗灯号收回的语音停止车站名的主动辨认。不须要编程手艺和点窜文件等体例,全数接纳硬件体例设想。全数体系分为5局部:(1)输入节制局部;(2)乐音滤波局部;(3)措辞辨认局部;(4)履行显现局部;(5)灌音功效局部。
(1)输入节制局部:
经由进程麦克风或(连系器)毗连,如图4所示,请求摹拟语音输入点的电压必须节制在约莫20mv摆布,以确保前期语音辨认的切确性。在输入电路中增添了声响节制局部的电路,行将摹拟旌旗灯号改变成数字方波旌旗灯号,对语音输入停止开关量的节制,确保在T<0.9秒内的切确输入语音字长。
(2)语音辨认局部:
支配语音辨认芯片HM2007和外接6264SRAM存储器组成为首要局部,(HM2007中ROM已固化了语音语法手艺)对语音的存储及语音语法算法停止节制。HM2007的具体内容见产物申明书。
(3)乐音滤波局部:
滤波功效是主动辨认(反对)咱们在设想阶段设想好的各个工况的语音情况,比方:司机的发言及车辆杂音等(在麦克风的工况下),以确保输入语音的靠得住性、不变性,特接纳UM3758串行编译码一体化停止滤波电路。如图5。
(4)履行显现局部:
将车箱播送喇叭的摹拟信息经由进程语音辨认器改变成数字信息,终究颠末译码电路、4/16多路数据遴选器及RS485接口,去节制车箱内车门上十个LED显现面板,如图6。
(5)灌音功效局部:
在停止播送内容变动时,本名目最大的特色是:不须要任何手腕的手工软件编程的点窜,而是经由进程长途音频电路节制手艺停止按动相干按钮,遴选地址而后主动录入内容,如图6。
3.论断
语音辨认器及LED显现面板的设想,能支配到之前不LED显现面功效的地铁车辆上,与其余所设想的体例比拟拟,语音辨认节制简略、靠得住性好、装置便利、绝对投资最小和不修改车箱内任何电器为特色,仅供给110VDC电源和音频输入接口。
本名方针开辟具备必然社会效益,取得国际外搭客和残疾职员的接待,前进了地铁办事品质。
参考文献:
1.HUALONMICRELECTRONICSCORPORATIONTIWANPRODUCTNUMBER:HM2007
2.555集成电路合用大全上海科技前进出书社
3.①取得“2003年上海市优异发明提拔赛三等奖”
一、弁言
跟着我外洋语讲授的不时成长,各类外语白话讲授东西与进修体例也应运而生。可是外语白话的进修对进修者而言既是重点也是难点,今后的计较机赞助讲授只是偏重于外语单词影象讲授与语法讲授,并且因为外语白话进修者的进修水平不一,在进修进程中很难将自身的不切确发音找出来。是以,在外语白话进修中便能够或许或许或许或许或许或许或许支配措辞辨认手艺,该体系具备外语白话发音的更正功效,进修者经由进程该体系停止外语白话的进修与操练,就能够或许或许或许或许或许更正自身毛病的发音,防止因为屡次毛病发音而组成不良习气。是以,对外语白话练习中语音辨认手艺停止研讨,能够或许或许或许或许或许或许或许前进外语白话进修者的进修效力。
二、外语白话进修中语音辨认手艺支配的首要意思
跟着中国鼎新开放水平的深切和环球经济一体化的飞速成长,天下列国的来往愈来愈频仍,进修并把握一门外语,对人们的使命与糊口而言,已成为必不可少的东西。在进修外语的须要不时增添的情况下,呈现了各类外语讲授体例、讲授东西和措辞黉舍等,可是国人在外语进修进程中,外语的白话讲授与进修一向是较难冲破的坚苦,其首要缘由有以下几个方面:
(一)各类外语发音的特色与汉语发音的特色存在较大差别,是以能够或许或许或许或许或许或许致使国人在进修外语时因为遭到母语的深挚影响而犯下良多自身底子没法发觉或是很难发觉的发音毛病。
(二)今朝在国际及格的外语白话教员还是很少,自身发音标准又能够或许或许或许或许或许或许或许切确地指点别人停止白话进修的外语教员,即使是在一些大中城市的中小学中也相称缺少。同时,通俗的媒体讲授也不能够或许或许或许或许或许或许或许针对先生的特定情况,有用地让先生与教员互动停止白话练习,只能够或许或许或许或许或许或许或许双方面地停止教授,以是起到的感化也不是很有用。
外语白话练习中语音辨认手艺的支配,让软件具备了更正毛病发音的功效,能够或许或许或许或许或许或许或许为进修者及时更正毛病的发音供给赞助,从而有用防止毛病频频而变成一种恶性习气,并使外语进修者白话进修的效力与功效取得必然水平的前进,取得更大的市场价格与社会效益。
三、外语白话练习中语音辨认的关头手艺
(一)语音辨认
在语音辨认手艺中,语音辨认是第一步也是最首要的一步,接上去几个步骤的切确度城市受其影响,它能够或许或许或许或许或许或许或许在语法与音素模子的底子上,将输入的语音旌旗灯号翻译成单词串。同时,良多基于计较机的措辞练习勾当都能够或许或许或许或许或许或许或许支配这一局部,比方基于语音的遴选题或是与计较机的对话练习等等。
(二)语音评分
在基于语音辨认手艺的外语白话进修体系中,语音评分手艺是最根基也是最焦点的组成局部。语音评分手艺能够或许或许或许或许或许或许或许评估并反应进修者的白话发音情况,能够或许或许或许或许或许或许或许让进修者经由进程反应的功效对自身的进修功效停止查抄。凡是情况下,根据语音评分手艺,今朝的外语白话进修体系首要能够或许或许或许或许或许或许或许分为两种:一种是基于语音特色比拟的评分体例,它经由进程将进修者的发音与标准语音停止对照参考,从一个较为客观的角度对一段语音品质停止评估,凡是接纳静态时辰规整手艺完成,因为其具备运算量小的特色,是以在嵌入式体系与手持装备中操纵较多;别的一种是基于声学模子的评分体例,它能够或许或许或许或许或许或许或许经由进程语音辨认手艺将以计较发音品质所需的小单位切割出来,而后再经由进程事前练习好的声学模子与其停止对照,最初根据评分机制对其评分,因为该体例较为客观,今朝支流的外语白话进修体系中均接纳这类手艺,其首要是基于隐马尔可夫模子(HMM)手艺完成。
如图1,基于HMM的语音评分流程图所示,其语音评分的关头手艺分为以下几步:
图1 基于HMM的语音评分流程图
1.起首,对进修者所输入的语音停止特色提取;
2.其次,将已练习好的HMM作为模板,再接纳Viterbi算法将措辞以计较发音品质所需的小单位停止朋分,并强迫对齐;
3.最初,接纳差别的评分机制对差别的须要停止评分,将评分功效得出。同时,在某些情况下,要注重将措辞考证在语音评分起头时插手,从而将进修者发音内容与标准发音完整差别的局部挡下,保障全数白话进修体系的可托度更高。别的,因为一样的声响能够或许或许或许或许或许或许代表的意思差别,是以在这些加倍庞杂的支配中,须要将各类词发生几率的巨细、凹凸文的干系停止综合斟酌,并将措辞模子插手,从而为声学模子的判定供给更好的赞助。
(三)发音毛病检测与毛病更正
对外语进修者而言,固然晓得体系能够或许或许或许或许或许或许或许评估其发音品质,可是单凭非母语进修者自身对其自身毛病的地址还是不能清楚地领会到,对这个毛病也不晓得若何停止更正。是以,外语白话进修者须要经由进程体系对发音的毛病停止检测与定位,并将呼应的毛病更正倡议供给给进修者停止有用更正。
1.发音毛病的检测与定位
在外语白话练习中,致使毛病发音的身分有良多。比方进修者不会发某种声响,或是遭到其余措辞拼读体例的影响和不能切确体味到两种声响的差别等等。语音辨认器也是发音毛病检测中支配的一种体例,比方用母语练习的语音辨认器,可是因为在不支配自顺应手艺的情况下,进修者发音的辨认毛病也有能够或许或许或许或许或许或许会当做是发音毛病,是以这类体例就很难切确地检测到非母语进修者的发音是不是切确。以是,今朝对毛病发音的检测比拟公道的一种做法是:起首以发音专家的常识为根据,严酷将轻易犯错的发音停止公道的分类,而后以差别的毛病范例为根据,将其呼应的检测算法设想出来,最初用各类毛病检测算法对进修者的发音别离停止检测。
2.发音毛病的更正
体系将发音毛病检测出来后,同时就对进修者所犯的毛病根据专家对发音毛病的常识给出呼应的毛病提醒与毛病更正倡议。此中,对这些发音专家常识的构建而言,是经由进程事前搜集大批的履历数据而堆集而成的,比方差别进修者的发音特色等,而后经由进程数据发掘的聚类算法将差别进修者差别发音特色的聚类切确地计较出来,再由专家客观地评判分类的发音,最初将各聚类的改良倡议提出来。
(四)回馈揭示
在基于语音辨认手艺的外语白话进修体系中,这一局部是全数体系对用户的窗口,上述局部所发生的信息都能够或许或许或许或许或许或许或许经由进程分数条或是数字的情势为外语进修者揭示出来。同时只要经由进程这个模块,外语进修者才能够或许或许或许或许或许或许或许从基于语音辨认手艺的外语白话进修体系中获益,以是,全数体系的可用度都经由进程这一模块设想的黑白来决议。
四、结语
总而言之,跟着社会经济与迷信手艺的疾速成长,各类带有语音辨认手艺的便携式终端装备出此刻人们的平常糊口与进修中,为泛博外语喜好者与进修者供给了不受教员资本、地址和时辰等限定的智能外语进修体系,有用地前进了外语进修者的进修效力与进修功效,信任在未来,也能够或许或许或许或许或许或许或许为外语进修者们供给更快、更好的电子进修手腕。
【参考文献】
[1]卢永辉.语音辨认手艺在外语白话练习中的支配[J].电脑常识与手艺,2014(04):836-837,843.
[2]吴艳艳.伶仃词语音辨认的关头手艺研讨[D].青岛:青岛大学,2012.
中图分类号:TP316.9
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 弁言
跟着计较机的成长,智能家居在近几年也取得了大师的正视,智能家居支配各类通讯、搜集手艺完成家居装备集成,为用户供给了加倍温馨高效的情况。近几年人们对智能家居的便利水平提出了更高的请求,同时语音辨认手艺也进一步的成长,可是语音在智能家居中的支配还是绝对较少,通俗还要依托遥控、手机等中控装备。措辞是信息交换的首要手腕,语音辨认能够或许或许或许或许或许或许或许用声响来节制装备完成一些特定的号令,削减用户如手机,遥控等中控装备的依靠,使糊口加倍便利。
本文经由进程对语音辨认手艺与嵌入式节制手艺的研讨,用语音号令完成间接管控从而能够或许或许或许或许或许或许或许取代以往支配手机或遥控体例来节制的体例,便利支配而又能前进效力。本体系基于NL6621板与语音芯片VS1003完成语音收罗,并接纳现今语音辨认范畴的支流手艺一一隐马尔科夫模子(Hidden Markov Model,HMM)算法完成对人语音号令的辨认首要是停止模子练习和婚配。实考证实在多个语音样本对体系的练习辨认下,体系在非特定人、伶仃词语辨认上具备精采的功效。
1 语音辨认与智能家居
1.1 语音辨认手艺
语音辨认手艺本色上是一种情势婚配辨认的进程,是机器经由进程辨认和懂得进程把语音旌旗灯号改变成呼应的文本文件或号令的手艺。根据情势婚配进程语音辨认体系能够或许或许或许或许或许或许或许以下图表现。语音辨认体系能够或许或许或许或许或许或许或许分为:特定人和非特定人的辨认、自力词和持续词的辨认等,不管哪一种辨认体系辨认进程都首要包罗了语音旌旗灯号预处置、特色提取、练习等。别离经由进程对旌旗灯号的预处置阐发和计较成立模板,当对语音停止辨认时,须要将输入的语音与体系中寄放的语音停止比拟从而取得辨认功效。
1.2 语音辨认算法
人的措辞进程是一个两重随机进程。因为语音旌旗灯号自身是一个可察看的序列,而它又是由大脑里的不可察看的、根据措辞须要和语法常识状况遴选所收回的音素(词、句)的参数流,大批测验考试标明,隐马尔可夫模子(HMM)简直能够或许或许或许或许或许或许或许很是切确地描写语音旌旗灯号的发生进程。隐马尔可夫模子是对语音旌旗灯号的时辰序列布局成立统计模子,将之看作一个数学上的两重随机进程,接纳HMM停止语音辨认,本色上是一种几率运算,根据练习集数据计较得出模子参数后,测试集数据只要别离计较各模子的前提几率(Viterbi算法),取此几率最大者即为辨认功效。一阶团圆马尔可夫模子可表现为:有N个状况,Sl,S2... SN,存在一个团圆的时辰序列t=0,t=1…在每一个时辰t,体系只能处于唯一一个状况qt,下一个时辰所处的状况是随机呈现的,今后状况qt只与后面相邻的一个状况qt-l有关, 与其余状况有关,用抒发式
HMM语音辨认的普经由进程程:
1.前向后向算法计较
已知察看序列 和模子 ,若何有用的计较在给定模子前提下发生察看序列O的几率
2.Baum-Welch算法求出最优解 :
(1)初始化
(2)迭代计较
(3)最初计较
3.Viterbi算法解出最好状况转移序列:
已知察看序列 和模子 ,若何遴选在某种意思上最好的状况序列。
(1)初始化
(2)迭代计较:
4.根据最好状况序列对应的九给出候选音节或声韵母
5.经由进程措辞模子组成词和句子
2 基于NL6621嵌入式硬件设想
语音辨认的硬件平台首要包罗中间处置器NL6621,可读写存储器,声卡芯片vs1003和一些装备,硬件体系布局如图2所示。
主体系支配新岸线公司的NL6621。MCU接纳的最高主频为160MHz,撑持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi掩护设置和WMM-PS和WPA/WPA2宁静和谈。codec芯片是vs1003,它与焦点节制器NL6621的数据通讯是经由进程SPI总线体例停止的。它集成了麦克风输入接口,音频输入接口,对麦克风输入或线路输入停止IMA ADPCM编码,能有用的接管和播放音频信息。
硬件电路完成:VS1003经由进程xCS、xDCS引脚的置高或低来确认是哪个接口处于通报状况。经由进程串行号令接口(SCI)和串行数据接口(SDI)来领受NL6621的节制号令和数据,经由进程SCI HDAT1来取得语音流;VS1003的功效节制,如初始化、软复位、停息、音量节制、播放时辰的读取等,均是经由进程SCI口写入特定寄放器完成的。两条SCI指令之间要经由进程DREQ引脚旌旗灯号判定上一次处置是不是完成。
3 基于NL6621嵌入式软件设想
软件设想首要包罗两局部完成软件节制嵌入式体系和基于HMM手艺的语音辨认算法编写,根基的软件架构如图3所示。
针对嵌入式体系节制局部,包罗硬件初始化和收罗音频旌旗灯号。首要是支配NL6621供给的软件开辟包,支配SDK编写支配法式,包罗硬件管脚初始化,波特率婚配,灌音文件设置装备摆设,WiFi设置装备摆设,灌音,音频文件格局转化、法式编写完成后须要用烧写东西停止烧写。体系启动后,先初始化硬件模块。而后体系起头使命,经由进程语音输入装备MIC收罗语音,并经由进程声卡VS1003输入语音。当体系监听到语音输入,起头语音辨认,判定辨认是不是切确,若切确,将号令发送给履行装备,中听不切确,给出呼应
一、弁言
语音作为措辞的声学表现,也是人类停止信息交换最天然、协调的手腕。与机器设各停止语音的不异,让机器能够或许或许或许或许或许或许或许大白人类在说甚么,并懂得这是人类持久的胡想。语音辨认手艺,也被称为主动语音辨认Automatic Speech Recognition,(ASR),其方针是将人类的语音中的辞汇内容转换为计较机可读的输入,比方按键、二进制编码或字符序列。语音辨认手艺的支配包罗语音拨号、语音导航、室内装备节制、语音文档检索、简略的听写数据录入等。语音辨认手艺与其余天然措辞处置手艺如机器翻译及语音分化手艺相连系,能够或许或许或许或许或许或许或许构建出加倍庞杂的支配,语音辨认手艺所触及的范畴包罗:旌旗灯号处置、情势辨认、几率论和信息论、发声机理和听觉机理、野生智能等等。
二、语音旌旗灯号阐发与特色提取
1.基于发音模子的语音特色。(1)发音体系及其模子表征。其发声进程便是由肺部停止缩短,并停止紧缩气流由支气管经由进程声道和声门引发的音频振荡所发生的。气流经由进程声门时使得声带的张力恰好使声带发生比拟低的频次的振荡,从而组成准周期性的氛围脉冲,氛围脉冲鼓励声道便会发生一些清音;声道的某处面积比拟小,气流冲过期便会发生湍流,会取得一品种似噪声的鼓励,对应的则是磨擦音;声道完整闭合并成立起呼应的气压,俄然停止开释便是爆破音。(2)语音旌旗灯号线性展望倒谱系数。被普遍支配的特色参数提取手艺的便是线性展望阐发手艺,良多胜利的支配体系都是选用基于线性展望手艺进而提取的LPC倒谱系数作为支配体系的特色。LPC倒谱便是复倒谱。复倒谱便是旌旗灯号经由进程z停止变更今后再取其对数,求反z变更所取得的谱。线性展望阐发体例实在便是一种谱的估量体例,以是其声道模子体系函数H(z)反应的便是声道频次鼓励和旌旗灯号的谱包络,对IHg(z)作反z变更便能够或许或许或许或许或许或许或许得出其复倒谱系数。改复倒谱系数是根据线性展望模子间接取得的,而又被称为LPC倒谱系数(LPCC)。
2.基于听觉模子的语音特色。(1)听觉体系模子。一是人类的听觉体系对声响频次凹凸和声波现实的频次凹凸不是线性的干系,它对差别声响频次旌旗灯号的敏感度是不一样的,也可看成是对数干系。二是对遮掩效应指的便是声响A感知的闭值因为别的的身影的呈现呈现增大的景象。其心思根据首要是频次群,对频次群停止别离会呈现良多的很小的局部,每一个局部城市对应一个频次群,遮掩效应就发生在这些局部进程中。以是在停止呼应的声学丈量时,频次刻度通俗取非线性刻度。语音辨认方面,首要的非线性频次刻度有Mel刻度、对数刻度和Kon~nig刻度。此中Mel刻度被普遍的支配,其是最公道的频次刻度。(2)语音旌旗灯号Mcl频次倒谱系数。Mel频次倒谱系数支配人们耳朵的听觉特色,在频域将频次轴变加倍Mcl频次刻度,再变更到倒谱域取得倒谱系数。MFCC参数的计较进程:
1 语音辨认手艺道理
语音辨认是为了让机器“懂”咱们的措辞,切确无误地辨认出咱们收回语音内容,并且做出合适语音内容的一系列举措,履行咱们的企图。阐发人类措辞交换通讯的进程,能够或许或许或许或许或许或许或许开导咱们的研讨思绪。对人类语音通讯流程[1-2]阐发如图1。
由人类语音通讯流程框图能够或许或许或许或许或许或许或许看出,人类收回语音进程如图左半局部,语音懂得进程如图右半局部。语音辨认包罗两种寄义,一是:将人类说的话转换成笔墨,二是:在充实懂得口述语音的底子上,不只仅是将语音转换为笔墨信息,并且对语音内容也要作出切确呼应[3]。在此,本文以为语音辨认和语音懂得意思同等,以是可用图1右边局部流程可将语音辨认进程。
今朝语音辨认手艺支配中大局部都是小辞汇量,词语间彼此自力基于简略模板婚配使命道理的辨认情势。针对这类典范的语音辨认情势,道理流程线路图[4]如图2所示:
1.1 基于发音模子的语音旌旗灯号发生模子
语音旌旗灯号的发生是语音辨认手艺的基石,在语音旌旗灯号处置的大局部进程中对语音旌旗灯号发生模子有很强的依靠性。本文研讨进程中,起首对人类发音进程停止领会:人类发音流程是起首肺部缩短,迫使气流经由进程声门和声道引发音频震动发生[3]。根据人的声道三种差别鼓励体例,别离对应发生了三种被大师熟知的发音范例,别离是清音,磨擦音或清音,爆破音。
语音旌旗灯号可看作由线性体系遭到鼓励旌旗灯号的鼓励输入发生。如图3是基于发音模子的语音旌旗灯号发生模子流程图:
如图3成立的语音旌旗灯号发生模子中以为清音是周期为N0的冲激旌旗灯号,且N0=fs/F0(此中F0是基音频次,fs是采样频次)。清音以为是一个均值为0,幅值是正态散布的波形旌旗灯号。参数Av,Au别离用来调理清音和清音的幅值。
从已有语音辨认手艺研讨功效可知,窗函数范例浩繁,支配差别情势的窗函数对短时阐发处置语音旌旗灯号功效有很大的影响。已知今朝支配最普遍的窗函数是汉明窗,连系仿真测验考试阐发能够或许或许或许或许或许或许或许看出:高斯窗函数的横向主瓣宽度最小,但其纵向旁瓣高度最高;汉明窗函数的横向主瓣宽度最宽,纵向旁瓣高度是三种窗函数中最低的。
2.3 端点检测
语音旌旗灯号的肇端点是语音旌旗灯号处置的关头分界点,端点检测的方针便是找到持续语音旌旗灯号中的旌旗灯号肇端点。常常操纵的端点检测体例有两种,别离是短时均匀能量和短时过零率[6]。当下风行的端点检测体例是短时均匀能量和短时过零率两者的连系,称这类体例为双门限端点检测算法[7]。
在现实题目中凡是接纳两者连系处置题目。本文一样是接纳两者连系的体例,支配短时过零率体例检测语音旌旗灯号波形穿梭零电平的次数,既代表的是清音;用短时均匀能量体例计较第y帧语音旌旗灯号的短时均匀能量E(y),既代表的是清音,进而完成靠得住的端点检测。
3 特色提取
今朝特色是语音旌旗灯号预处置中的首要步骤。在现实特色提取中,较常接纳的参数是线性展望倒谱系数(LPCC)和Mel倒谱系数(MFCC)。两者接纳的均是时域转换到倒谱域上,可是动身思绪两者差别。线性展望倒谱系数(LPCC)以人类发声模子为底子,接纳线性展望编码(LPC)手艺求倒谱系数;Mel倒谱系数(MFCC)以人类听觉模子为底子,经由进程团圆傅利叶变更(DFT)停止变更阐发。
此中k表现第k个滤波器,Hm(k)表现第k个mel滤波器组,f(m)为中间频次,m=1,2,…K,K表现滤波器个数。
颠末仿真测验考试阐发比拟,能够或许或许或许或许或许或许或许阐发得出Mel倒谱系数(MFCC)参数较线性展望倒谱系数(LPCC)参数的长处,长处以下:
(1)语音低频旌旗灯号是语音信息的堆积区,高频旌旗灯号绝对低频语音旌旗灯号更轻易遭到四周情况等的搅扰。Mel倒谱系数(MFCC)将线性频标转化为Mel频标,夸大语音的低频信息,从而凸起了有益于辨认的信息,屏障了噪声的搅扰[8]。LPCC参数是基于线性频标的,以是不这一特色;
(2)MFCC参数无任何假定前提,在各类语音旌旗灯号预处置情况下都可支配,可是LPCC参数起首假定所处置的语音旌旗灯号是AR旌旗灯号,对静态特色较强的子音,这个假定并不严酷成立[8];
(3)MFCC参数提取进程中须要颠末FFT变更,咱们能够或许或许或许或许或许或许或许趁便取得语音旌旗灯号频域上的全数信息,不须要多破费时辰处置,有益于端点检测、语音分段等算法完成[8]。
4 练习与辨认
练习和辨认是语音辨认的中间内容,有良多专家学者研讨了一系列功效。语音辨认本色是情势婚配的进程,而对分类器和分类决议计划的设想[9]又是情势婚配的焦点。在现有的分类器设想[10-11]中,常常支配的有:静态时辰规整(Dynamic Time Warping,DTW)分类器、基于野生神经搜集(Artificial Neural Networks,ANN)分类器、基于高斯夹杂模子(GMM)分类器、基于Bayes法则的分类器、基于HMM分类器[12]等。
本文重点会商语音旌旗灯号预处置中手艺及完成,对练习和辨认手艺不再做研讨描写。
【参考文献】
[1]尹岩岩.基于语音辨认与分化的低速率语音编码研讨[D].上海师范大学,2013.
[2]伟伟.通讯体系中语音品质评估的研讨[D].北京邮电大学,2014.
[3]朱淑琴.语音辨认体系关头手艺研讨[D].西安电子科技大学,2004.
[4]王伟臻.基于神经搜集的语音辨认研讨[D].浙江大学,2008.
[5]钟林鹏.措辞人辨认体系中的语音旌旗灯号处置手艺研讨[D].电子科技大学,2013.
[6]周刚,周萍,杨青.一种简略的噪声鲁棒性语音端点检测体例[J].测控手艺,2015,(02):31-34.
[7]薛胜尧.基于改良型双门限语音端点检测算法的研讨[J].电子设想工程,2015,(04):78-81.
[8]惠博.语音辨认特色提取算法的研讨及完成[D].东南大学,2008.
[9]张宁.基于决议计划树分类器的迁徙进修研讨[D].西安电子科技大学,2014.
中图分类号:TN912.34 文献标识码:A
1语音辨认手艺
1.1语音辨认手艺简介
语音辨认手艺首要分为两类,一是语音意思的辨认,一种是方针声辨认。第一个被称为语音辨认,它是根据声响的成词特色对声响进一步阐发,首要支配在野生智能,人机对话和疾速输入等范畴。经由进程拜候声响的特色,从方针语音中停止提取,该项手艺能够或许或许或许或许或许或许或许辨别多方针语音的品种,肯定方针,首要用于疆场方针辨认范畴,海上窥伺体系,预警体系,军事声纳辨认,车辆声响辨认,火车预警体系,植物个别的语音辨认和家庭宁静体系等。
科技研讨职员经由进程对语音旌旗灯号处置手艺停止深切的研讨,功效发明:人的听觉体系的声响共同具备怪异的上风,它能切确地提取方针的声响特色,切确地辨别声响的标的方针和内容分类,以是基于仿生听觉体系的方针声辨认手艺备受古代前沿科技的存眷。针对方针声响辨认体系的研讨使命成了古代语音辨认手艺研讨的一个热点标的方针,不少科技研讨职员正在主动摸索前进前辈可行的仿生学现实,特色提取手艺和语音辨认手艺。
1.2语音辨认手艺的研讨近况
语音辨认手艺首要是经由进程对监测数据的声响特色阐发,取得声响特色的样本文件。语音辨认手艺是一种非打仗手艺,用户能够或许或许或许或许或许或许或许很天然地接管。但语音辨认手艺和其余行动辨认手艺具备共同的毛病谬误,即输入样本的变更太大,以是很难完成一些切确的婚配,声响也会伴跟着速率,音质的变更而影响到旌旗灯号的收罗和功效的比拟。
在语音辨认中,语音辨认是最早也是比拟成熟的范畴。跟着愈来愈多的支配须要,辨认声响并不规模于语音辨认,人们起头深切研讨方针辨认手艺的非语音辨认,该项手艺已参照了成熟的语音辨认手艺的一局部,但因为各自的支配情况和现实的音频特色之间的差别,该手艺还存在一些差别。
1.3语音辨认手艺的现实支配
在民用方面,方针声响辨认体系能够或许或许或许或许或许或许或许支配于门禁体系,搜集宁静,认证,智能机器人,植物语音辨认,电子商务和智能交通等范畴。在智能交通范畴,支配来自车辆辨认模子的勾当音频旌旗灯号,能够或许或许或许或许或许或许或许完成交通讯息的智能化办理。在智能机器人范畴,机器人方针声响辨认体系能够或许或许或许或许或许或许或许作为机器人的耳朵,经由进程情况声响辨认并肯定声响的方位,而后再反应外界的声响,是以能够或许或许或许或许或许或许或许将其看成家庭主动化办事体系和宁静体系。在植物的语音辨认范畴,能够或许或许或许或许或许或许或许根据益虫声特色来辨别益虫品种,根据差别的益虫接纳差别的体例。在搜集支配范畴,在对各类在线办事撑持的语音辨认手艺新名目开辟中,能够或许或许或许或许或许或许或许前进搜集的办事品质,给人们的糊口带来便利。此刻,美国,德国和日本都开了德律风银行,语音取代本来的暗码和支配印章,简化了使命办事流程,前进使命效力。
在军事上,方针声响辨认手艺来自于第二次天下大战,在探测仇敌的炮火和潜艇时,起着首要的辨认和定位感化。但因为计较机手艺,旌旗灯号处置手艺,光电检测和雷达检测手艺疾速的成长,使声探测手艺成长得很是迟缓。直到古代的战斗,研发了支配于战斗中的三维信息,全方位定向,反讹诈、棍骗、搅扰和反窥伺、监督,在隐身与反隐身的古代战斗中为国度的国防奇迹做出了不可消逝的精采进献。经由进程电,磁,光学和雷达探测手艺和主动检测手艺来完成窥伺使命已不能知足古代战斗的须要。在武装直升机手艺成熟确当代,隐形轰炸机和其余高科技兵器都有了反射功率,抗电磁搅扰,反辐射的功效,出格是疾速成长的数字手艺和计较机手艺,迫使列国为了完成对方针的定位跟踪和噪声辨认而从头起头研讨主动声探测手艺,存眷声检测手艺。在未来战斗中,兵器装备成长的一个首要趋向是智能化、小型化,一个首要的特色是具备方针辨认的才能,并根据差别的东西支配差别的进犯体例。
2听觉体系
为了设想一个更切确的方针声响辨认体系,愈来愈多的学者起头深切研讨仿生学范畴。经由进程研讨发明,人类的听觉体系在声响的物理方面具备怪异的上风,声响特色能够或许或许或许或许或许或许或许切确提取方针辨认中声响的标的方针,品种和含量,并且还能够或许或许或许或许或许或许或许前进抗噪声才能,以是基于人基于语音辨认手艺的听觉体系已成为今朝的研讨热点。
人类听觉仿生学是仿照人耳的听觉体系和心思功效,并经由进程成立数学模子,根据数学阐发道理取得的听觉体系。它触及声学,心思学,旌旗灯号处置,情势辨认和野生智能等学科,是一个跨学科研讨范畴的综合支配。该手艺已在军事,交通,银行,医疗医治的良多方面取得了首要支配,是人类完成智能性命的首要研讨课题之一。
人类听觉体系的处置才能大大跨越今朝的声响旌旗灯号处置水平。从人类听觉体系的心思和心思特色视角,良多研讨职员对接听进程中的语音辨认停止深切的研讨。今朝,良多学者提出了差别的听觉模子,这些模子大多是一些基于语音辨认和语音品质评估体系的听觉模子,摹拟人耳听觉功效的心思布局,这些支配处置体例大大前进了体系的机能。
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)29-0155-04
Research Status and Development Trend of Russian Speech Recognition Technology
MA Yan-zhou
(PLA University of Foreign Languages, Luoyang 471003, China)
Abstract: Abstract: Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition, this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition, speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition, it probes into possible way out strategies. Finally, it predicts future development direction and application prospects for Russian speech recognition technology.
Key words: speech recognition; hmm;russian acoustic models; russian language models
俄语(Русскийязык)[1]是俄罗斯和连系国的官方措辞,也是我国大都民族正式措辞。在前苏联和俄罗斯支配,俄语在苏联时代具备很首要的地位,直到此刻仍然有些独联体国度在普遍支配,固然这些国度已起头夸大本地措辞的首要性,但在这些国度之间仍然支配俄语停止交换。环球有跨越一亿四万万把俄语作为母语支配,有近四千五百万人以第二措辞支配,支配俄语媒体的有3亿多人。我国俄罗斯族支配俄语停止交换,堆积地散布在新疆地域的阿勒泰、伊犁、塔城及内蒙古呼伦贝尔市的额尔古纳、满洲里等地,
语音辨认(Speech Recognition)[2]是指在各类情况下,辨认出语音的内容,让机器听懂人说的话,根据其信息而履行人的差别企图。它是一门穿插学科,触及与计较机、语音措辞学、通讯、旌旗灯号处置、数理统计、神经心思学野生智能、和神经心思学等学科。能够或许或许或许或许或许或许或许能知足差别须要的语音辨认体系的完成已成为能够或许或许或许或许或许或许,它的前提是情势辨认、旌旗灯号处置手艺、计较机手艺和声学手艺等的成长。最近几年来,军事、交通等范畴,出格在计较机、野生智能等范畴取得普遍支配。
俄语语音辨认是一个有庞大潜力的研讨标的方针,不只能够或许或许或许或许或许或许或许为人们的生发糊口、平常来往供给极大的便利性和高效性,并且在政治、军事、经济等各个范畴都有着首要的研讨价格和支配远景。本文偏重先容语音辨认成长进程、论述俄语语音辨认关头手艺、阐发俄语语音辨认未来的成长趋向。
1 俄语语音辨认的近况
俄语持续语音辨认取得疾速成长,好处于手艺的前进。跟着语音辨认在手艺层面的不时冲破与立异,对英语的辨认渐渐成熟,而后逐步扩大到其余语种如汉语、俄语等。
1.1语音辨认手艺的成长
20世纪50年月,语音辨认的研讨起头借助机器来完成。1952年,一个特定人自力数字辨认体系[3]由贝尔(Bell)测验考试室的Davis、Diddulph和Balashelk初次研制,该体系胜利辨认10个英语数字。1959年,英格兰的Fry和Denes支配谱阐发手艺和模板婚配手艺,前进了音素的辨认精度,成立了一个能够或许或许或许或许或许或许或许辨认9个子音和4个元音的辨认体系。20世纪60年月,颠末Faut和Stevens的尽力,语音天生现实开端组成。静态计划体例[4]由苏联的Vintsyuk提出,并完成了对两段语音停止对齐。70年月取得一系列严重冲破,根基完成伶仃词辨认。俄罗斯鞭策了模板婚配思惟在语音辨认中的支配;支配静态计划体例完成语音辨认也由日本的迷信家测验考试胜利。20世纪80年月,语音辨认研讨的一个首要特色是由模板婚配体例向统计建模体例的改变,出格是隐马尔可夫模子[5-6]。固然HMM尽人皆知,可是直到20世纪80年月中期HMM模子才普遍被天下各地的语音辨认测验考试室熟习和接纳。别的一个新标的方针是支配神经搜集处置语音辨认题目,增进了该手艺在语音辨认范畴的支配[7-9]。20世纪80年月前期,在DAPRA的撑持下,对大辞汇持续语音辨认体系的研制也取得了较着的功效,研讨机构首要有CMU、BBN、林肯测验考试室、MIT、AT&T贝尔测验考试室。
20世纪90年月以来,语音辨认起头合用化研讨,并取得了冲破性的停顿。此中算法的研讨取得了很是较着的功效,并晋升了体系的机能,如最大似然线性回归(Maximum Likelihood Linear Regression, MLLR),最大后验几率准绳估量(MaximumA-Posteriori Estimation, MAP),和用于模子参数绑定的决议计划树状况聚类等算法,这些算法的不时优化,也使得支配于现实的语音辨认不时呈现。最具备有代表性的体系有:Dragon System公司的NaturallySpeaking,Nuance公司的Nuance Voice Platform语音平台,IBM公司推出的ViaVoice, Sun的VoiceTone,Microsoft的Whisper,等。在美国国度标准和手艺研讨所(Nationa lInstitute of standardsand Technology,NIST) 和DARPA的不时鞭策下,各个研讨机构不时测验考试语音辨认使命,方针是不时前进辨认的机能。进入21世纪,在向广度和深度两方面,主动语音辨认取得了加倍普遍的研讨。鲁棒性语音辨认,停止明晰详尽的调研,出格是在信任度和句子确认方面很是有用,出格对处置病句。在21世纪的前10年,信息手艺范畴最首要的十大科技成长手艺之一就有语音辨认手艺的一席之地,人机接口关头的语音辨认手艺,已成为一个具备协作性的新兴高手艺财产,它的合用化研讨将成为未来的标的方针。
1.2俄语语音辨认手艺的成长
语音手艺的研讨首要集合在几个首要的措辞,如英语,法语,西班牙语,汉语和西班牙语,一些其余措辞出格是东欧措辞很少遭到注重。可是近几年在俄罗斯,捷克,波兰,塞尔维亚,克罗地亚等俄语区对俄语语音手艺的研讨勾当正在稳步回升。
俄罗斯迷信院紧跟天下语音辨认手艺的成长,连系俄语自身的独占发音特色停止了卓有用果的研讨并取得了一系列的功效。在开辟声学,辞汇和措辞模子时接纳出格正视俄语的细节,对声学模子,接纳常识和基于统计的体例来成立几个差别的音素集10。对措辞模子(LM),从差别网站主动搜集消息文本语料,用统计阐发的体例将练习文本数据和语法相连系,计较差别情况下n-gram中单词的频次,优化n-gram模子,以成立更好的n-gram模子[11]。在根基语音辨认单位的题目上接纳间隔最小信息不婚配的准绳,成立语素级单位,较着削减偏差几率[12]。
语料库是语音辨认最根基的支持,文本语料和白话语料都是一个语料库不可或缺的组成局部,任缺其一则语料库就不能反应当措辞的完整信息,也不体例在此底子上停止大辞汇、非特定人持续俄语语音辨认的研讨[13]。俄罗斯对语料库的研讨起步比拟晚,在20世纪一向掉队于天下语料库的成长,缺少体系的现实研讨和前进前辈的现实功效。但近十年来,跟着俄罗斯国度语料库成立和不时完美,俄语语音手艺的研讨正在渐渐鼓起并取得了一些瞩方针成绩。
国际对俄语语音的研讨首要集合在讲授方面。支配统计的体例,基于HMM对俄语语音停止建模和辨认研讨,今朝还不发明相干的文献记实。
2 语音辨认手艺
语音辨认体系根据角度、规模、机能等差别,有以下的分类。
根据辞汇量的巨细分可为小辞汇量(10至100)、中辞汇量(100至500)和大辞汇量(大于500)。根据发音体例可分为伶仃词(isolated word)辨认、毗连词(connected word)辨认、持续语音(continuous word)辨认等。根据措辞人特色可分为特定(speaker-dependent)措辞人和非特定(speaker-independent)措辞人。根据语音辨认的体例差别停止了模板婚配、随机模子和几率语法阐发平分类体例。
2.1 语音辨认根基道理
经由进程计较机的赞助功效把输入的语音旌旗灯号变加倍对应的文本和号令,并且能够或许或许或许或许或许或许或许接管人类的语音、懂得人类的企图,是语音辨认手艺研讨的底子方针。语音辨认体系焦点是一套语音取样、辨认、婚配的情势婚配体系[2],根基道理如图1所示。
语音辨认体系由三个根基单位组成,它包罗特色提取、情势婚配和参考情势库,固然它是情势辨认体系,但它的布局要比通俗的情势辨认体系要庞杂,因为语音所包罗的信息是庞杂多样的措辞信息,布局也是多变的。起首对输入的语音旌旗灯号停止预处置,预处置包罗恰当缩小旌旗灯号功率并对增益停止有用节制,今后停止反混叠滤波以消弭旌旗灯号的搅扰;而后将摹拟旌旗灯号转化为数字旌旗灯号即数字化处置,便于存储和处置;而后停止特色提取,并支配一些参数来表现的语音旌旗灯号的特色;最初对其停止辨认。语音辨认又分为两阶段:练习和辨认。在练习阶段,支配特色参数表现语音旌旗灯号的呼应特色,取得标准数据即模板,将模板构建成一个数据库即模板库;在辨认阶段,将语音特色与模板库中的每一个模板停止比拟,找到了最类似的参考模板,这便是辨认的功效。
2.2 HMM模子手艺
语音辨认初期接纳的有矢量量化(Vector quantization, VQ)手艺、静态时辰规整(dynamic time warping, DTW)手艺等,从处置难度上看,最简略的是小辞汇量、特定人、伶仃词的语音辨认,最难处置的是大辞汇量、非特定人、持续语音辨认。现今语音辨认体系接纳的支流算法是HMM模子手艺。
HMM模子的状况不能被间接察看到,但能够或许或许或许或许或许或许或许经由进程察看向量序列来察看到,这些向量都是经由进程某些特定的几率密度散布来表现为各类状况的,每一个察看向量都是由一个状况序列发生的,这些状况序列具备呼应的几率密度散布。HMM是一个两重随机进程:具备必然状况数目标隐马尔可夫链和显现随机函数集。HMM的根基题目及处置算法6-9
1)评估题目(前向算法)。
现有察看序列O=O1O2O3…Ot和模子参数λ=(π,A,B),若何计较察看序列的几率,进一步可对该HMM做出相干评估。支配forward算法别离以每一个HMM发生给定察看序列O的几率停止计较,而后从此中选出最优异的HMM模子。
典范支配例子便是语音辨认。在HMM的语音辨认描写中,每一个单词对应一个HMM,每一个察看序列全数由一个单词的语音来组成,单词的辨认能够或许或许或许或许或许或许或许经由进程评估而选出最能够或许或许或许或许或许或许的HMM,此HMM由发生察看序列所代表的读音完成。
2)解码题目(Viterbi算法)
现有察看序列O=O1O2O3…Ot和模子参数λ=(π,A,B),若何寻觅最优的隐含状况序列。此类题目比拟存眷马尔科夫模子中的隐含状况,在这些状况中固然不能间接察看,但价格更大,能够或许或许或许或许或许或许或许支配Viterbi算法来处置。
现实例子是停止分词,分词题目能够或许或许或许或许或许或许或许用HMM来处置。这句话的朋分体例能够或许或许或许或许或许或许或许看作是一个隐式的状况,而这句话能够或许或许或许或许或许或许或许被视为一个给定的前提,从而找出基于HMM的能够或许或许或许或许或许或许切确的朋分体例。
3)练习题目(Baum-Welch算法即前向后向算法)
此时HMM的模子参数λ=(π,A,B)未知,对这些参数停止调剂,使得察看序列O=O1O2O3…Ot的几率最大,支配Reversed Viterbi算法和Baum-Welch算法能够或许或许或许或许或许或许或许处置。
2.3 大辞汇量持续措辞辨认
在语音辨认研讨中难度和挑衅性最大为课题应当是基于大辞汇量的、非特定人的持续语音辨认[13]。在辞汇量大于1000词的时辰,比拟轻易夹杂的词数目增添,误识率约为基于小辞汇量的、特定人的伶仃词辨认体系的50倍摆布。并且还带来两个首要的、不易处置的题目:语流的切分和持续语音的发音变更。此时接纳统一框架能够或许或许或许或许或许或许或许有用处置这个题目。大辞汇量持续语音辨认整体框架[14]如图2所示。
俄语语音旌旗灯号阐发后,组成特色向量,并经由进程字典辨认模子,而后,根据措辞模子的语法,将输入的语音与模板婚配,在句子层面停止组合。从俄语声学模子、俄语措辞模子论述大辞汇量持续语音辨认的进程。
2.3.1声学模子
设想俄语语音辨认体系底层呼应的HMM子词单位模子,须要充实斟酌俄语声学和语音学的特色。俄语根基声学单位的遴选是声学建模进程中一个根基而首要的题目。在俄语持续语音辨认中,可供遴选的根基单位包罗词、音节、元子音等。辨认根基单位的遴选通俗基于语音学常识。
俄语字母是语音的书面情势,每一个俄语字母都有自身的字母称号。元音字母的称号和读音不异,子音字母的称号是在该子音后加一个元音[15-16]。如字母с的称号为эс,字母б的称号为бэ等。字母称号凡是用于读某些缩写词。俄语字母共有33个字母如表1所示。
根据俄语词的发音特色、音节的发音特色和字母的发音特色,遴选音素作为子词单位,而后便能够或许或许或许或许或许或许或许停止HMM练习,起首用一种很粗糙的体例停止初始分段,而后向前向后算法或K-均值算法用于屡次迭代,主动收敛到一个最好的模子,并完成了一个公道的子词朋分。如许便能够或许或许或许或许或许或许或许开端完成俄语的声学建模,扶植一个俄语语音参考情势库。
2.3.2 统计措辞模子
天然措辞处置题目必然要乃至统计措辞模子[17],如语音辨认、机器翻译、分词、词性标注等等。统计措辞模子是计较几率的模子,即。支配措辞模子,能够或许或许或许或许或许或许或许肯定一个单词序列的几率,或给定一个单词的数目,它能够或许或许或许或许或许或许或许展望下一个最有能够或许或许或许或许或许或许的单词。
那末若何计较一个句子的几率呢?给定句子(词语序列),它的几率能够或许或许或许或许或许或许或许表现为:
因为上式中的参数过量,是以须要类似的计较体例。上面先容合用于俄语的n-gram统计措辞模子。
n-gram模子即n-1阶马尔科夫模子,起首假定:今后词的呈现几率仅仅与后面n-1个词相干。是以(1)式能够或许或许或许或许或许或许或许类似为:
当n值为1、2、3时,n-gram模子别离称为unigram、bigram和trigram措辞模子。n-gram模子的参数便是前提几率。N取值越大,模子越切确但计较越庞杂计较量越大。在俄语措辞模子的成立进程中,接纳最多是二元模子和三元模子。
2.3.3 持续语音辨认体系的机能评测
评定持续语音辨认体系的好坏,察看体系的机能,通俗都是针对差别的辨认使命,差别的使命单词库和使命语句库,须要差别的评估标准。若是要想大略地评估某个别系,能够或许或许或许或许或许或许或许从两个方面去斟酌,一是体系辨认使命的难易水平即庞杂性;别的一个是接纳该体系的辨认体系的辨认体例对该难度的辨认使命的辨认功效即辨认率。在持续语音辨认体系中,经由进程对音素、音节或词的辨认率停止辨认机能评估,常常操纵的体系参数是切确率(切确率),毛病率和辨认切确率。
此中的切确数、转换数、拔出数和零落数,接纳客观的体例来目测,马能够或许或许或许或许或许或许或许经由进程统计的体例来取得。
2.4 HTK东西
语音辨认进程触及的算法庞杂,此中最为闻名的HTK由剑桥大学研发,首要用来成立基于HMM的大规模持续语音辨认体系。该软件集为开放源代码,能够或许或许或许或许或许或许或许在UNIX/Linux和Windows情况下运转。HTK供给了一系列号令函数用于语音辨认,包罗一系列的运转库和东西,支配基于ASNIC模块化设想,能够或许或许或许或许或许或许或许完成语音录制、阐发、标示、HMM的练习、测试和功效阐发。全数HTK的使命进程包罗数据筹办、模子练习和辨认进程。
3 语音辨认的支配
跟着计较机手艺的前进、算法的不时优化、信息处置手艺的智能化,俄语语音辨认手艺的成长会愈来愈光亮。支配的规模也会愈来愈广,能够或许或许或许或许或许或许会呈现一些新的支配。
1)俄语语音信息检索
搜集手艺和多媒体手艺的敏捷成长,数据量急剧增添,若安在海量数据中遴选出有用的信息,并停止呼应的分类和检索,对公道地支配信息资本具备首要的意思。多媒体检索手艺应运而生。
2)俄语发音自学手艺
非母语措辞进修成为今朝教导范畴的一个热点,而自学是措辞进修的一个有用路子,它具备不受时辰和空间限定、矫捷便利的特色,一种称为计较机赞助措辞进修的手艺降生了。有几个通俗题目和关头手艺是必须要斟酌和处置的:标准发音语料库和非标准发音语料库、进修者发音的分级标准、语音对齐、权衡发音品质的评判标准和发音更正。
3)基于俄语语音感情处置
人与人的交换,除措辞信息外,非措辞信息也起着很是首要的感化,包罗在语音旌旗灯号中的感情身分[18],也反应了信息的一个方面。感情的阐发和辨认也是一个很是坚苦的研讨标的方针。
4)嵌入式俄语语音辨认手艺
后PC时代智能终真个飞速成长,为人机之间的天然、疾速交互供给了能够或许或许或许或许或许或许。今后嵌入式语音辨认的支配范畴还比拟无限,未来支配能够或许或许或许或许或许或许会加倍普遍。
4 总结
语音辨认手艺的合用研讨是一项极具挑衅性的使命,固然履历了近半个世纪的成长,取得了一些冲破性的停顿。语音辨认手艺在俄语方面的支配更是如斯,不只要处置语音辨认手艺自身的题目,还要处置高品质的俄语语音语料库和文本语料库的题目,同时还要处置各类算法与俄语顺应和婚配等其余题目,如俄语天然措辞的辨认与懂得、俄语语音信息的变更规模与幅度、俄语语音的清楚度、俄语语音发音与情况噪声及凹凸文的影响等等。固然面对诸多坚苦,可是跟着人类文化的不时成长与科技的不时前进,信任这些题目会在未几的未来一一取得处置,展此刻人们眼前的是加倍流利、加倍智能的人机交互界面。
参考文献
[1] 赵力.语音旌旗灯号处置 [M].北京:机器财产出书社,2011:191-215.
[2] 韩纪庆,张磊,郑铁然.语音旌旗灯号处置[M].北京:清华大学出书社,2013:241-255.
[3] Karpov,K. Markov,I. Kipyatkova, et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication,2014,56(1):213-228.
[4] Alex Waibel,ToshiyukiHanazawa,Geoffrey Hinton, et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics, Speech and Signal Processing, IEEE Transactions on,1989,37(3):328-339.
[5] KH Davis,RBiddulph,SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637-642.
[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE, 1989, 77(2):257-286.
[7] Leonard E Baum,JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc, 1967, 73(3):360-363.
[8] Leonard E Baum,TedPetrie,GeorgeSoules, et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics,1970(1):164-171.
[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities, 1972, 3(1):1-8.
[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект,2006(3):548-557.
[11] ВВ Савченко,ДЮ Акатьев,НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника,2007(4):35-42.
[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.CРадиоэлектроника,2011(3):9-19.
[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.CРадиоэ лектроника,2008(4):3-11.
[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков, 2007(1):65.
[15] ВЯ Чучупал,КА Маковкин,АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект,2002,4(1):575-579.
语音辨认手艺今朝在嵌入式体系中的支配首要为语音号令节制,它使得本来须要手工支配的使命用语音便能够或许或许或许或许或许或许或许便利地完成。语音号令节制可普遍用于家电语音遥控、玩具、智能仪器及挪动德律风等便携装备中。支配语音作为人机交互的路子对支配者来讲是最天然的一种体例,同时装备的小型化也请求省略键盘以节流体积。
嵌入式装备凡是针对特定支配而设想,只须要对几十个词的号令停止辨认,属于小辞汇量语音辨认体系。是以在语音辨认手艺的请求不在于大辞汇量和持续语音辨认,而在于辨认的切确性与妥当性。
对嵌入式体系而言,另有良多别的身分须要斟酌。起首是本钱,因为本钱的限定,通俗支配定点DSP,偶然乃至只能斟酌支配MPU,这象征着算法的庞杂度遭到限定;其次,嵌入式体系对体积有严酷的限定,这就须要一个高度集成的硬件平台,是以,SoC(System on Chip)起头在语音辨认范畴崭露锋芒。SoC布局的嵌入式体系大大削减了芯片数目,能够或许或许或许或许或许或许或许供给高集成度和绝对低本钱的处置计划,同时也使得体系的靠得住性大为前进。
语音辨认片上体系是体系级的集成芯片。它不只是把功效庞杂的多少个数字逻辑电路放入统一个芯片,做成一个完整的单片数字体系,并且在芯片中还应包罗别的范例的电子功效器件,如摹拟器件(如ADC/DAC)和存储器。
笔者支配SoC芯片完成了一个不变、靠得住、高机能的嵌入式语音辨认体系。包罗一套全定点的DHMM和CHMM嵌入式语音辨认算法和硬件体系。
1 硬件平台
本辨认体系是在与Infineon公司协作开辟的芯片UniSpeech上完成的。UniSpeech芯片是为语音旌旗灯号处置开辟的公用芯片,接纳0.18μm工艺出产。它将双核(DSP+MCU)、存储器、摹拟处置单位(ADC与DAC)集成在一个芯片中,组成了一种语音处置SoC芯片。这类芯片的设想思惟首要是为语音辨认和语音紧缩编码范畴供给一个低本钱、高靠得住性的硬件平台。
该芯片为语音辨认算法供给了呼应的存储量和运算才能。包罗一个内存节制单位MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速率可到达约100MIPS.MCU核是8位加强型8051,每两个时钟周期为一个指令周期,当时钟频次可到达50MHz。
UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片外部均按16bit格局保管和处置。对语音辨认范畴,如许精度的ADC/DAC已能够或许或许或许或许或许或许或许知足支配。ADC/DAC既能够或许或许或许或许或许或许或许由MCU核节制,也能够或许或许或许或许或许或许或许由DSP核节制。
2 嵌入式语音辨认体系比拟
以下就今朝基于整词模子的语音辨认的首要手艺作一比拟。
(1)基于DTW(Dynamic Time Warping)和摹拟婚配手艺的语音辨认体系。今朝,良多挪动德律风能够或许或许或许或许或许或许或许供给简略的语音辨认功效,几近都是乃至DTM和模板婚配手艺。
DTW和模板婚配手艺间接支配提取的语音特色作为模板,能较好地完成伶仃词辨认。因为DTW模版婚配的运算量不大,并且限于小词表,通俗的支配范畴伶仃数码、简略号令集、地名某人名集的语音辨认。为削减运算量大大都支配的特色是LPCC(Linear Predictive Cepstrum Coefficient)运算。
DTW和模板婚配手艺的毛病谬误是只对特定人语音辨认有较好的辨认机能,并且在支配前须要对一切词条停止练习。这一支配从20世纪90年月就进入成熟期。今朝的尽力标的方针是进一步下降本钱、前进妥当性(接纳双模板)和抗噪机能。
(2)基于隐含马尔科夫模子HMM(Hidden Markov Model)的辨认算法。这是Rabiner等人在20世纪80年月引入语音辨认范畴的一种语音辨认算法。该算法经由进程对大批语音数据停止数据统计,成立辨认条的统计模子,而后从待辨认语音中提取特色,与这些模子婚配,经由进程比拟婚配分数以取得辨认功效。经由进程大批的语音,便能够或许或许或许或许或许或许或许取得一个妥当的统计模子,能够或许或许或许或许或许或许或许顺应现实语音中的各类突况。是以,HMM算法具备精采的辨认机能和抗噪机能。
基于HMM手艺的辨认体系可用于非特定人,不须要用户事前练习。它的毛病谬误在于统计模子的成立须要依靠一个较大的语音库。这在现实使命中据有很大的使命量。且模子所须要的存储量和婚配计较(包罗特色矢量的输入几率计较)的运算量绝对较大,凡是须要具备必然容量SRAM的DSP才能完成。
在嵌入式语音辨认体系中,因为本钱和算法庞杂度的限定,HMM算法出格CHMM(Continuous density HMM)算法还没有取得普遍的支配。
(3)野生神经搜集ANN(Artificial Neural Network)。ANN在语音辨认范畴的支配是在20世纪80年月中前期成长起来的。其思惟是用大批简略的处置单位并行毗连组成一种信息处置体系。这类体系能够或许或许或许或许或许或许或许停止自我更新,且有高度的并行处置及容错才能,是以在认知使命中很是吸收人。可是ANN绝对情势婚配而言,在反应语音的静态特色上存在严重错误谬误。零丁支配ANN的体系辨认机能不高,以是今朝ANN凡是在多阶段辨认中与HMM算法共同支配。
3 基于HMM的语音辨认体系
上面具体先容基于HMM的语音辨认体系。起首在UniSpeech芯片上完成了基于DHMM的辨认体系,而后又在统一平台上完成了基于CHMM的辨认体系。
3.1 前端处置
语音的前端处置首要包罗对语音的采样、A/D变更、分帧、特片提取和端点检测。
摹拟语音旌旗灯号的数字化由A/D变更器完成。ADC集成在片内,它的采样频次牢固为8kHz。
特色提取基于语音帧,行将语音旌旗灯号分为有堆叠的多少帧,对每帧提取一次语音特片。因为语音特色的短时安稳性,帧长通俗拔取20ms摆布。在分帧时,前一帧和后一帧的一局部是堆叠的,用来表现相邻两帧数据之间的相干性,凡是帧移为帧长的1/2。对本片上体系,为了便利做FFT,接纳的帧长为256点(32ms),帧移为128点(16ms)。
特色的遴选须要综合斟酌存储量的限定和辨认机能的请求。在DHMM体系中,支配24维特色矢量,包罗12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM体系中,在DHMM体系的底子上增添了归一化能量、一阶差分能量和二阶差分能量3维特色,组成27维特色矢量。对MFCC和能量别离支配了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处置体例前进特色的妥当性。
3.2 声学模子
在HMM模子中,起首界说了一系列无限的状况S1…SN,体系在每一个团圆时辰n只能处在这些状况傍边的某一个Xn。在时辰出发点n=0时辰,体系依初始几率矢量π处在某一个状况中,即:
πi=P{X0=Si},i=1..N
今后的每一个时辰n,体系所处的状况Xn仅与前临时辰体系的状况有关,并且依转移几率矩阵A跳转,即:
体系在任何时辰n所处的状况Xn埋没在体系外部,并不为外界所见,外界只能取得体系在该状况下供给的一个Rq空间随机察看矢量On。On的散布B称为输入几率矩阵,只取决于Xn所处状况:
Pxn=Si{On}=P{On|Si}
因为该体系的状况不为外界所见,是以称之为“稳含马尔科夫模子”,简称HMM。
在辨认中支配的随机察看矢量便是从旌旗灯号中提取的特色矢量。根据随机矢量Qn的几率散布形时,其几率密度函数通俗支配夹杂高斯散布拟合。
此中,M为支配的夹杂高斯散布的阶数,Cm为各阶高期散布的加权系数。此时的HMM模子为持续HMM模子(Continuous density HMM),简称CHMM模子。在本辨认体系中,接纳整词模子,每一个词条7个状况同,包罗首尾各一个静音状况;每一个状况支配7阶夹杂高斯散布拟合。CHMM辨认流程如图1所示。
因为CHMM模子的庞杂性,也能够或许或许或许或许或许或许或许假定On的散布是团圆的。凡是接纳割裂式K-Mean算法取得码本,而后对提取的特色矢量根据码本做一次矢量量化VQ(Vector Quantization)。如许特色矢量的几率散布上就简化为一个团圆的几率散布矩阵,此时的HMM模子称为团圆HMM模子(Discrete density HMM),简称DHMM模子。本DHMM辨认体系支配的码本巨细为128。DHMM辨认流程如图2所示。
DHMM固然增添了矢量量化这一步骤,可是因为简化了模子的庞杂度,从而削减了占用计较量最大的婚配计较。固然,这是以就义必然的辨认机能为价格。
笔者前后自身的硬件平台上完成了基于DHMM和CHMM的辨认体系。经由进程比拟发明,对嵌入式平台而言,完成CHMM辨认体系的关头在于芯片有充足运算太多的增添。因为词条模子存储在ROM中,在婚配计较时是按条读取的。
3.3 辨认机能
笔者支配自身的辨认算法别离对11词的汉语数码和一个59词的号令词集作了现实辨认测试,辨认率很是令人对劲,如表1所示。
表1 汉语数码辨认率
DHMMCHMM特色矢量维数2427辨认率93.40%98.28%辨认速率(11词)10ms50ms模子巨细(1个词条)1.5KB<5.5KB码本6KB无对59词号令词集的辨认,还增添了静音模子。因为基线的辨认率已很高,以是静音模子的插手对辨认率的进一步前进感化不大,如表2所示。但静音模子的插手能够或许或许或许或许或许或许或许下降对端点判定的依靠。这在现实支配中对体系的妥当性有很大的前进。
表2 59词号令词集辨认率
DOIDOI:10.11907/rjdk.162740
中图分类号:TP319
文献标识码:A文章编号文章编号:16727800(2017)005005703
0弁言
跟着智能主动化手艺的敏捷成长[14],智能化研讨愈来愈遭到人们存眷,在平常糊口中的支配须要也日趋增添[56]。在书房、办公室等场合中,册本通俗是由野生查找并掏出的,在必然水平上影响了人们查阅册本的时效性。若是能设想一种辨认语音查找并推出册本的书架,将处置人们在书房中对册本定位难、查找耗时长等题目。
在图书查阅进程中,册本定位是较为罕见的题目之一。针对这类题目,张郁松等[7]以物联网藏书楼智能书架的布局化、通用化设想为方针,支配超高频(UHF)射频辨认(RFID)手艺,设想了一种具备及时检测与定位功效的智能书架,较好地前进了书架使命效力;舒远仲等[8]基于改良的RFID室内定位手艺设想了一款支配于藏书楼中的智能书架体系,将书架定位到每层,切确到书架的最小单位格,并且下降了体系的庞杂度和本钱,较为有用地前进了读者借阅效力和馆员使命效力。
跟着射频手艺的不时成长,藏书楼等场合中对图书的定位体例有很大改良,可是因为前提限定,语音辨认定位书架在藏书楼等制止鼓噪场合制止支配。在可鼓噪情况下,如家庭、办公室等场合中,语音辨认可作为简略易用、无需打仗、无需照顾外部装备的定位体例,具备较好的支配远景。本体系起首将册本信息存储到可扩大标记措辞(XML)中,而后经由进程语音辨认将语音信息与文本信息停止婚配,最初将定位功效发送至节制中间,经由进程机电履行举措完成推出册本功效。
1硬件平台架构
本体系接纳UPAtom510平台作为体系的语音辨认终端,同时接纳STC89C52单片机[9]作为体系的节制中间。因为体系功效须要,开辟平台须要扩大外部装备。是以,除选用UPAtom510平台和STC89C52单片机外,还需外接麦克风、TB6600步进机电驱动模块与42BYGH47401A步进机电,作为全数体系的硬件平台架构。
体系接纳UPAtom510平台作为辨认终端,该平台是北京博创科技无限公司针对嵌入式体系和微机道理课程研发的讲授与测验考试平台。今朝在UPAtom510上已胜利移植了Ubuntu、WinCE和Windows XP等支配体系。根据体系功效须要,在该平台上搭建了Ubuntu支配体系,并支配QT开辟东西完成了人机交互界面的开辟。UPAtom510平台底板如图1所示。
机电选用42BYGH47401A步进机电[1011],该机电为两项四线步进机电,电流1.5A,输入力矩0.55Nm。此模块有两种用处:册本定位和将册本从书架中推出,便支配户取书。
本体系接纳TB6600步进机电驱动器,它具备以下特色:输入电压为DC9~42V,能够或许或许或许或许或许或许或许驱动42BYGH47401A步进机电通俗动弹;含有拨码开关,针对差别电流请求,具备差别遴选;模块上集成大面积散热片,具备较好的散热功效,可知足现实支配须要。
智能书架的硬件毗连仿真功效如图2所示,智能书架的摹拟三视功效如图3所示。
2体系框架设想
本体系的框架设想首要支配麦克风收罗语音信息,并将语音通报给UPAtom510平台,UPAtom510平台颠末语音辨认后,将册本位信任息发送给STC89C52单片机,单片机根据册本位信任息给机电驱动器发送节制号令,机电驱动器节制机电动弹,动员全数智能书架运转。书架在册本定位后将册本推出,使得该书架具备智能化、人道化的特色。体系框架如图4所示。
3语音辨认体例设想
今朝,罕见的电子产物中的语音辨认均由单片机(MCU)或数字旌旗灯号处置(DSP)作为硬件平台来完成。这一类语音辨认[1217]产物首要接纳伶仃词辨认,通俗有以下两种计划:一种是支配隐马尔科夫统计模子(HMM)框架设想的非特定人群辨认,别的一种是基于静态计划(DP)道理的特定人群辨认。这两种体例在支配上各有优毛病谬误。
1.弁言
语音辨认的研讨使命始于20世纪50年月,1952年Bell测验考试室开辟的Audry体系是第一个能够或许或许或许或许或许或许或许辨认10个英文数字的语音辨认体系。隐马尔可夫模子是20世纪70年月引入语音辨认现实的,它的呈现使得天然语音辨认体系取得了本色性的冲破。今朝大大都持续语音的非特定人语音辨认体系都是基于HMM模子的。[1]
通俗来讲,语音辨认的体例有三种:基于声道模子和语音常识的体例、模板婚配的体例和支配野生神经搜集的体例。语音辨认一个底子的题目是公道的选用特色。特色参数提取的方针是对语音旌旗灯号停止阐发处置,去掉与语音辨认有关的冗余信息,取得影响语音辨认的首要信息,同时对语音旌旗灯号停止紧缩。非特定人语音辨认体系通俗偏重提取反应语义的特色参数,尽可能去除措辞人的小我信息;而特定人语音辨认体系则但愿在提取反应语义的特色参数的同时,尽可能也包罗措辞人的小我信息。
而跟着时频手艺的研讨成长,令人们在停止旌旗灯号处置时,能够或许或许或许或许或许或许或许将语音旌旗灯号分化在一组完整的正交基上。从而,语音旌旗灯号的能量在分化今后将分手散布在差别的基上。可是,语音旌旗灯号是一种典范的非安稳旌旗灯号,其性子随时辰疾速变更,在两个差别的时辰刹时,在统一个频次邻域内,旌旗灯号能够或许或许或许或许或许或许或许有完整差别的能量散布。是以,有须要找到一种切确表现语音旌旗灯号时频布局,便于特色提取的体例。[2]
安身于此,本文提出,经由进程平移窗口,用余弦基乘以窗口函数,机关出局部余弦基,分手差别时辰区间,很合适于迫近语音旌旗灯号。本文支配这类具备勾当窗口特色的局部余弦基表现语音旌旗灯号。为了削减计较量,并进一步前进局部余弦基原子时频散布的分辩率,接纳婚配追踪(MP)算法分化旌旗灯号,并连系时频阐发手艺取得最优局部余弦基原子的魏格纳-维利散布(WVD)[2],从而取得旌旗灯号切确的时频布局[3],停止特色提取。别的,连系语音旌旗灯号的美尔频次倒谱系数(MFCC)一路作为该旌旗灯号的特色向量,经由进程隐马尔科夫(HMM)模子停止辨认。实考证实。这类多参数语音辨认算法前进了辨认的切确度和速率。
2.局部余弦基建模
经由进程滑腻地别离时辰序列为肆意长度的子区间(如图1),能够使每一个时辰段别离由堆叠正交基表现,而全数时辰序列的基函数又组成时频立体的正交铺叠,是以局部余弦变更对在差别时辰段有差别的波形的语音旌旗灯号有很强的针对性。
图1 堆叠窗口别离时辰轴
Figure1 lapped window divides time axis
图1中为堆叠窗口函数[3]:
(1)
式中为枯燥递增的表面函数,界说为[3]:
(2)
局部余弦函数族组成了实数轴上平方可积函数空间的标准正交基:
(3)
式中为窗口支集伸缩参数;为第P段时辰出发点;n()表现正交基序列号。
语音旌旗灯号可表现为:
(4)
是余弦基原子,。此中是窗口支集边境参数,为窗口支集伸缩参数,是表面函数的标准参数,这保障了窗口支集只与相邻的具备恰当对称性的窗口重合,到达局部余弦基切确笼盖全数时频立体的方针。
3.婚配追踪法拔取最好基
由Mallat和Zhang引入的婚配追踪算法操纵贪心技能削减了计较的庞杂性。它从局部余弦基组成的冗余字典中一个一个遴选向量,每步都使旌旗灯号的迫近加倍优化。
MP算法将旌旗灯号分化成一簇时频原子的线性抒发,这些原子选自高冗余度的函数字典中,且最好地合适内涵布局。假定函数集是Hilbert空间中一个完整字典,知足,最优的M阶类似为:
(5)
设由M个时频函数类似的旌旗灯号与的偏差最小,抒发式以下:
(6)
此中代表所选函数的索引。
起首根据某个遴选函数(与的内积最大)逐一遴选出时频函数,分化为:,设初始输入旌旗灯号为初始残差旌旗灯号,表现f(t)在标的方针上类似后的冗余局部。
假定已有表现颠末前M-1次迭代后,中未抒发局部:选定为最婚配的时频函数,按以下公式分化为:
(7)
因为每步中与正交,若是字典是完整的,则迭代收敛于f,知足:
(8)
如许,可预算出(4)式中局部余弦基原子的参数。
文献[4]中提出,选出最婚配旌旗灯号的基,对每一个基求出其WVD散布,旌旗灯号的WVD散布就表现其最优基的WVD的线性组合,如许就消弭了穿插项的影响。由此取得的WVD散布:
(9)
是局部余弦基字典中当选中的最优基的WVD散布。将等式左侧第二项穿插项组合去除,如许在时频面上就取得了清洁的时频表现:
(10)
在语音旌旗灯号稀少分化进程中,每步分化都要从过完整原子库中选出与待分化语音旌旗灯号或语音旌旗灯号分化剩余最为婚配的原子,原子是由参数公式(4)决议的。是以语音旌旗灯号稀少分化所得原子的参数可作为语音旌旗灯号的特色。别的,根据公式(10),支配婚配追踪法拔取的最好基的WVD散布,含有该语音旌旗灯号首要且怪异的信息,也可作为该语音旌旗灯号的特色。
4.基于HMM的语音辨认算法
特色提取基于语音帧,行将语音旌旗灯号分为有堆叠的多少帧,对每帧提取一次语音特片。因为语音特色的短时安稳性,帧长通俗拔取20ms摆布。在分帧时,前一帧和后一帧的一局部是堆叠的,用来表现相邻两帧数据之间的相干性,凡是帧移为帧长1/2。本文为了便利做MP,接纳的帧长为512点(32ms),帧移为256点(16ms)。特色的遴选须要综合斟酌存储量的限定和辨认机能的请求。凡是的语音辨认体系支配24维特色矢量,包罗12维MFCC和12维一阶差分MFCC。本文提出的多参数语音辨认算法,在此底子上增添了原子参数公式(4)和最好基的WVD散布公式(10),这两维特色,组成26维特色矢量。对MFCC和语音旌旗灯号能量的WVD散布别离支配了倒谱均值减CMS(Ceps-trum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处置体例前进特色的妥当性[5]。
在HMM模子中,起首界说了一系列无限的状况S1,…,SN,体系在每一个团圆时辰n只能处在这些状况傍边的某一个Xn。在时辰出发点n=0时辰,体系依初始几率矢量π处在某一个状况中,即:
(11)
今后的每一个时辰n,体系所处的状况Xn仅与前临时辰体系的状况有关,并且依转移几率矩阵A跳转,即:
(12)
且知足:
(13)
体系在任何时辰n所处的状况Xn埋没在体系外部,并不为外界所见,外界只能取得体系在该状况下供给的一个Rq空间随机察看矢量On。On的散布P称为输入几率矩阵,只取决于On所处状况:
(14)
因为该体系的状况不为外界所见,是以称之为“隐含马尔科夫模子”,简称HMM。在辨认中支配的随机察看矢量便是从旌旗灯号中提取的特色矢量。根据随机矢量Qn的几率散布形时,其几率密度函数通俗支配夹杂高斯散布拟合。
(15)
此中,M为支配的夹杂高斯散布的阶数;Cm为各阶高斯散布的加权系数。此时的HMM模子为持续HMM模子(Continuous density HMM),简称CHMM模子[6]。在本辨认体系中,接纳伶仃词模子,每一个词条7个状况,同时包罗首尾各一个静音状况;每一个状况支配3阶夹杂高斯散布拟合。
5.仿真测验考试
5.1 提取最好基的WVD散布特色矢量
构建局部余弦基字典,支配MP算法拔取语音旌旗灯号“A”的最好基。如图2所示。取得的时频图既保留了余弦基原子高时频堆积性的长处,又减弱了WVD作为二次型时频表现所固有的穿插项的影响,取得了清洁的时频面。其功效更切确的反应出语音旌旗灯号在频次、音强方面的特色,具备精采的时频堆积性。
图2 “A“旌旗灯号的WVD散布
Figure2 WVD of“A”
5.2 伶仃词辨认
在语音辨认测验考试中,接纳旌旗灯号长度为1024的200个现实语音旌旗灯号样本,此中100个用于练习,100个用于测试。该测验考试用以辨认出语音旌旗灯号”A”。测验考试支配WaveCN2.0灌音体系停止样本收罗,采样率为8kHz。取得语音旌旗灯号的有用局部后,提取样本旌旗灯号的MFCC参数作为语音旌旗灯号的特色参数之一。Mel滤波器的阶数为24,fft变更的长度为256,采样频次为8kHz。MFCC的相干波形见图3。
图3 “A“旌旗灯号的MFCC波形
Figure3 MFCC Waveform of“A”
而后支配MP算法将样本旌旗灯号分化为300个原子,将所得原子的参数和最好基的WVD散布,作为该语音旌旗灯号的特色参数之二。见图2。经由进程HMM停止辨认。
在测验考试中,设语音”A”类值为1,其余的语音类值为-1。HMM模子的状况数为7,高斯夹杂数为3。由第4节HMM练习的界说可知,重估进程中的输入几率是跟偏重估次数的递增而增添的,图4列出了“A”模子练习时代重估次数与总和输入几率的log值之间的干系。由图能够或许或许或许或许或许或许或许看出,“A”模子重估20次算法收敛,并且,输入几率与重估次数成反比趋向。
图4 重估次数与总和输入几率
Figure4 Iterations of EM and output like lihood
对语音停止上述HMM练习今后,将其模子参数存贮,取得了辨认的HMM模子库。在辨认阶段,对100个测试用数据停止语音辨认,以查验本文体系的辨认功效。如表1所示辨认精度为89%,均匀辨认时辰约为1.313秒,测验考试功效标明,体系辨认率和运算速率都比拟抱负。
表1 辨认功效
语音范例 辨认次数 辨认功效 辨认精度
A 别的
A 100 92 8 92%
增添结局部余弦基原子的参数和最好基的WVD散布作为特色参数,较纯真的支配MFCC作为特色参数停止HMM模子练习,辨认率有必然前进,见表2。
表2 功效比拟
特色参数 辨认率%
MFCC、和特色参数 92
MFCC 89.5
6.结语
本文在传统基于HMM模子的语音辨认底子上,经由进程婚配追踪算法,提掏出最好基的原子参数和WVD散布。两者与MFCC一路,作为本文提出的多参数语音辨认算法的特色向量。而后遴选了大批伶仃词样本停止仿真测验考试,针对非特定人伶仃词停止语音辨认。功效标明,基于HMM和婚配追踪的多参数语音辨认算法,可前进语音辨认的速率和切确度,有必然的合用性。可是,因为算法的庞杂性增添,运算量呼应增大,简化算法运算量还是须要深切研讨的课题。
参考文献
[1]何方伟,青木由直.DP静态婚配算法完成语音的及时辨认[J].数据收罗与处置,vol.4,no.1,Mar,1989.
[2]R.R.Coifman,M.V.Wickerhauser.Entropy-based algorithms for best basis selection[J].IEEE Trans.Info.Theory,38(2):713-718,March 1992.
[3]S Mallat,Z Zhang.Matching Pursuit with Time-Frequency Dictionaries[J].IEEE Trans.Signal Processing,1993,41(12):3397-3415.