500字范文,内容丰富有趣,生活中的好帮手!
500字范文 > 基于网格偏移方法的联合宽带源定位和获取与流程

基于网格偏移方法的联合宽带源定位和获取与流程

时间:2019-06-25 16:53:41

相关推荐

基于网格偏移方法的联合宽带源定位和获取与流程

相关申请的交叉引用本申请要求10月10日提交的第62/570,235号美国临时申请的权益,所述申请的公开内容以引用方式全文并入本文中。在以下附图和具体实施方式中阐述一个或多个实施方案的细节。其它特征将从说明书、附图和权利要求书变得显而易见。

背景技术:

:通过使用特定尺寸的网格离散化声学场景,将一些源定位问题投射为稀疏恢复问题。在这种情况下,可以假设被称为网格点的每个网格单元的中心对应于导致问题的稀疏化的可能源位置,因为仅几个网格点由于源的存在而为非零的/活动的。还可以假设声源对应于语音信号,因此可以采用时频不相交特性,即,源在每个时频频谱区域中不重叠。传统压缩感测(cs)技术指定条件,例如受限等距特性,在此条件下可以有效地解决基于稀疏性的定位问题。此框架中使用的假设指出,在网格结构中反映的在真实物理模型与假设物理模型之间存在精确匹配。这意味着声源正好位于网格点上。技术实现要素:在一个总体方面,方法可以包括:通过计算机的处理电路获得多个相应的麦克风位置处的多个声学声场测量,所述多个声学声场测量从指定数目个声源产生;生成多个网格系统,所述多个网格系统中的每一个具有相应的多个网格点;识别所述多个网格系统中的每一个的所述多个网格点中的指定数目个网格点;基于所述多个网格系统中的每一个的相应的指定数目个网格点来生成网格位置数据结构;以及基于所述网格位置数据结构来确定所述指定数目个声源的位置。在以下附图和说明书中阐述一个或多个实施方案的细节。其它特征将从说明书、附图和权利要求书变得显而易见。附图说明图1是说明用于实施本文所描述的改进技术的示例电子环境的图式。图2a是说明根据本文所描述的改进技术的示例偏移网格的图式。图2b是说明在嘈杂的混响环境中使用偏移网格来确定源定位和获取的示例结果的图式。图3是说明在图1中所示的电子环境内执行改进技术的示例方法的流程图。图4说明可以用于本文所描述电路的计算机装置和移动计算机装置的实例。具体实施方式在一些情况下,网格点不会与实际源位置相符合。在这种情况下,声能可能会从偏离网格的源位置泄露到相邻的网格点,从而导致稀疏解中的预期误差。不允许任意地增加网格尺寸以更好地覆盖声学场景,因为这将导致违反cs中定义的受限等距特性。与网格点与源位置不对准可能会导致能量泄露到相邻网格点的上述传统cs技术相比,改进技术涉及根据基于正交匹配追踪的网格偏移过程,鉴于稀疏优化框架的带宽联合声源定位和获取方法。沿着这些线,与网格上情况相比,用相同数目的网格点构造特定网格结构,但是所述网格结构在声学场景上“偏移”。更具体来说,预期每个源将位于偏移网格集合中的至少一个的网格点附近。将对应于所述偏移网格集合的稀疏解组合以获得源位置估计。估计的源位置被用作获得原始源信号的边信息。预期每个源将位于偏移网格集合中的至少一个的网格点附近。有利地,在网格点与实际源位置之间不对准的情况下,改进技术可以用于确定以与源获取联合的方式估计声源位置的效果。通过假设源与网格点相隔一定距离定位,而不是假设网格点足够靠近真实源位置,此类技术产生更真实的解决方案。此外,基于正交匹配追踪的网格偏移过程是计算复杂度较低的贪婪稀疏恢复算法。在继续描述改进技术之前,提供稀疏恢复框架的简短概述。假设信号可以表示为x=ψs,其中是变换基并且表示变换系数向量。如果s仅具有k<<n个非零分量,则x被称为k-稀疏。还考虑对应于信号x的测量过程的m×n矩阵φ,m<n,其中φ的行与ψ的列不相干。如果信号x在ψ中稀疏,则可以如下直接地获得一组压缩的测量y其中对应于传感矩阵。在现实世界应用中,压缩测量可能会因噪声而受损,从而导致形式y=as+n的错误测量。如下给定压缩测量y和传感矩阵a,可以解决l1-最小化问题以恢复稀疏向量s这样提供与观测到的测量一致的恢复,其中近似误差y-as高达噪声级ε。如果k阶的受限等距特性(rip)满足足够小的值δk>0,则保证问题(2)以高概率提供准确的稀疏解。然而,尤其对于大尺寸矩阵,明确地验证如(3)中表示的rip是计算上的难题,因此优选地使用易于计算以提供恢复保证的传感矩阵本身的特性。矩阵的相干性是如下定义的一个此种特性其中ai和aj分别表示传感矩阵a的第i和第j列。应注意,相干性越低,则获得稀疏向量s的正确估计的可能性就越高,这将转化成的a的列之间的线性独立性。然而,在稀疏恢复准确度与相干性违背之间存在折衷。换句话说,如果通过增加向量s的大小来增加稀疏度(导致a中的列数更多),则由于较大的列间线性相关性,稀疏恢复估计倾向于提供恶化的性能。另外,如先前所述,由于连续物理模型与a中反映的离散化的假设模型之间的所谓的基础不匹配,声学场景的不充分的离散化可能导致频谱泄露现象。通过引入网格偏移的概念,可以有效地解决上述问题。作为朝向联合宽带声源定位和获取的第一步骤,重点是计算源位置。根据稀疏恢复问题来公式化位置估计问题。假设m个麦克风和k个声源任意地放置于声学场景内,其中k<m,所述声学场景对应于任意大小的箱形房间。基于图像源模型估计每个源-麦克风对的声学传递函数。将第m个麦克风和第i个源的位置分别表示为和考虑到墙壁上的反射,源i与麦克风m之间的信号传播的物理模型可以如下通过格林传递函数表示其中c是声速,并且α是取决于传播性质的衰减因子(如果α=1,则假设球形传播)。具有相应的反射能量比ρv(反射总数目等于v)的对应于位于pi处的真实源的第v个图像源的位置被表示为pi,v,并且ω=2πf是角频率(f是以hz为单位的频率)。在无回声环境的情况下,(5)折叠成将感兴趣区域离散化为n>>k个网格点,其中每个声源可能位于n个网格点中的一个,则宽带声源定位问题可以如下公式化为时频域中的线性模型:对于全部m=1…,m,其中t=1,…,t和l=1,…,f分别是时间帧和角频率索引。分析帧的总数和频率组(frequencybin)的数目分别表示为t和f。使用矩阵形式符号,(7)可以写成y(t,ωl)=a(ωl)s(t,ωl)+n(t,ωl),(8)其中表示来自m个麦克风处的观测值的复数数据向量,是在感兴趣网格的所有n个网格点处的复源振幅的未知向量,并且是加法噪声误差项。传感矩阵用作源向量s(t,ωl)到观测值y(t,ωl)的映射,这些观测值的列是所有n个网格点处的传播向量。声源定位的问题是在给定观测向量y(t,ωl)和传感矩阵a(ωl)的情况下恢复源向量s(t,ωl)。原则上,仅几个源产生声场,因此可以假设k<m<<n,这意味着问题(8)是未确定的。应用前一节中描述的稀疏恢复框架,可以通过求解优化问题(2)来实现声源定位,可以将其写为其中ε是噪声阈值。此处,我们采用正交匹配追踪(omp)算法来求解(10)。作为通用联合声源定位和获取系统的一部分,宽带声源定位涉及在实时框架下并入并利用稀疏恢复模型。因此,不应通过大量网格点n违反rip,同时假设实际声源的位置很少靠近网格点,尤其在现实生活场景中(即,将观察到从实际源位置到相邻网格点的能量泄露)。为了减轻这些问题,引入网格偏移的概念。具体来说,假设传感矩阵对应于第r个网格其中是对应于第r个网格的网格点的坐标。推理地定义网格尺寸n,随后执行偏移过程以“扫描”整个箱形房间。所述过程是迭代的,并且在每次迭代(10)期间,针对每个网格gr以及针对每个时频点(t,ωl)求解。算法1总结宽带声源定位过程,其使用网格偏移概念求解(10)中定义的l1-范数优化问题以补偿偏离网格的源位置。在第6行,对于固定t和ωl,lr(t,ωl,:)表示三维矩阵lr中的n维向量,而在第13行,符号对应于矩阵gr的第列。为了降低源定位复杂性,在网格偏移过程期间,应用峰值拾取算法来估计每个时间帧的十个最大频谱分量。最后,在源获取方法期间,通过k均值聚类提供的源位置估计用作输入参数。在估计源位置之后,执行原始源的获取。为了完成此任务,构建位于房间中心的相同尺寸n的网格。用相应估计位置的三维坐标来替代最接近所估计源位置的网格点。随后,求解优化问题(10)以获得每个源的所估计的短时傅里叶变换(stft)表示。随后,将逆stft应用于每个源以计算相应的时域信号。算法2总结源获取过程。符号l(:,:,gk)表示三维矩阵l的第gk页。图1是说明可以实施上述改进技术的示例电子环境100的图式。如图1所示,示例电子环境100包括计算机120。计算机120被配置成执行源定位和获取。计算机120包括网络接口122、一个或多个处理单元124和存储器126。例如,网络接口122包括以太网适配器等,用于将从网络接收的电子和/或光学信号转换成电子形式,以供计算机120使用。处理单元124的集合包括一个或多个处理芯片和/或组件。存储器126包括易失性存储器(例如,ram)和非易失性存储器两者,例如,一个或多个rom、磁盘驱动器、固态驱动器等。处理单元124的集合以及存储器126一起形成控制电路,所述控制电路被配置和布置成执行本文所描述的各种方法和功能。在一些实施例中,计算机120的一个或多个部件可以是或可以包括处理器(例如,处理单元124),所述处理器被配置成处理存储于存储器126中的指令。图1中所描绘的这些指令的示例包括声音获取管理器130、网格生成管理器140、网格点识别管理器150、网格位置数据结构生成管理器160和源位置确定管理器170。此外,如图1中所示,存储器126被配置成存储各种数据,关于使用此数据的相应的管理器描述这些数据。声音获取管理器130被配置成获取声场数据y132和麦克风位置数据qm134。在一些实施方案中,声音获取管理器130通过网络接口122获取声场数据132和麦克风位置数据134。在一些实施方案中,声音获取管理器130经由通过有线接口连接到计算机120的存储装置获取声场数据132和麦克风位置数据134。网格生成管理器140被配置成生成主网格(即,n个网格点)和偏移网格数据在一些实施方案中,网格生成管理器基于指定的房间大小和偏移尺寸,例如,基于网格点数目n的网格尺寸的分数来生成主网格和偏移网格数据142。图2a是说明声学环境200内的示例偏移网格220的图式。在一些实施方案中,声学环境可以是箱形房间。此种示例房间可以具有例如6×3.5×3米的大小。在一些实施方案中,网格210可以对应于房间的一部分,例如房间的中心。例如,网格210可以对应于具有大小1.2×0.7×0.6米的区域。应注意,尽管在图2a中在两个维度上示出网格210,但是实际上网格210包含空间维度。如图2a中所示,网格210基于区域尺寸,但是在一些实施方案中,网格可以基于房间尺寸。在建立网格210之后,可以由网格生成管理器140生成偏移网格220(1,2,…,r)。如图2a中所示,偏移网格220(1,2,…,r)仅在水平方向上偏移。然而,在一些实施方案中,网格可以在所有三个维度上关于主网格偏移。返回到图1,网格点识别管理器150被配置成在每个偏移网格r上产生识别的网格点数据156,作为上述算法1的一部分,源误差在所述偏移网格处被最小化。为了识别这些点,网格点识别管理器150包括传感矩阵生成管理器152和信号最小化管理器154。传感矩阵生成管理器152被配置成生成上文关于等式(5)或(6)描述的传感矩阵数据a(ωl)157。在一些实施方案中,传感矩阵数据157取决于频率ωl。信号最小化管理器154被配置成产生如上文通过等式(10)定义的离散信号数据158。在一些实施方案中,离散信号数据158取决于频率ωl。在一些实施方案中,离散信号数据取决于时间t。网格位置数据结构生成管理器160被配置成生成如上文在算法1中描述的网格位置数据结构源位置确定管理器170被配置成估计如上文在算法1中定义的源位置数据p172。例如,源位置确定管理器170使用k均值聚类算法产生源位置数据172。在一些实施方案中,源位置确定管理器170进一步被配置成通过如上文在算法2中描述的stft算法来从量l(t,ωl,:)生成源场数据174。结合源获取质量检查所提出方法的示例定位性能。图像源方法用于模拟大小6×3.5×3米的箱形房间并且在253毫秒的混响时间产生全向语音源信号。考虑使用位于房间中心的大小1.2×0.7×0.6米的所有空间随机均匀分布的10个麦克风。在每个模拟中,声源是以8khz采样的3秒语音记录并且具有相等功率。语音记录是从voices语料库中随机选择的,所述voices语料库可从ogiscslu获得,由12位演讲者(7位男性和5位女性)组成。为了模拟不同的snr值,我们在每个麦克风处添加高斯白噪声。在定位/获取过程期间,使用尺寸7×5×6的网格。每对相邻网格点之间的步长沿着x轴、y轴和z轴分别等于δp=[0.75,0.58,0.42]米。这种特定步长满足对房间的适当覆盖范围的需求,以及在不违背相干性的情况下实现低计算复杂度。朝着这个三重方向,在定位期间网格偏移的数目设定成八。考虑随机均匀地置于声学场景内的两个、三个和四个源的三种情形。为了进行处理,使用640个采样的帧,其中重叠率是50%且fft大小是1024。首先,目标是示出在偏离网格的cs假设下,与扰动omp(pomp)方法相比,所提出的网格偏移(gs)方法在定位准确度方面的有效性。通过执行控制信号字典的参数的扰动,pomp使信号字典适应实际测量。此处,pomp被扩展为无回声声源定位的宽带版本。在这些假设下,在本实验中,允许每个源的偏离网格的偏移具有较大偏差,其中每个偏离网格的距离从范围[0.05δp,0.5δp]内的均匀分布中提取。表1描绘在无回声环境的情况下gs和所比较的pomp方法两者的定位均方根误差(rmse),其中在麦克风处添加5、10、15、20和25dbsnr的高斯白噪声。从结果显而易见,所提出的gs方法在大多数情况下性能较好。表1:在无回声环境的情况下网格偏移(gs)和扰动opm(pomp)的rmse定位误差。在第二实验中,相对于基于mvdr的波束成形器,在混响条件下检查所提出gs方法的定位效率。波束成型器基于应用于每个麦克风对的局部角频谱的计算,并且随后在合并过程之后汇总(所有麦克风对的)所得贡献。预期在混响情形下出现虚拟源(参看(5))。因此,结合虚拟源的出现,从偏离网格的源位置到相邻网格点的能量泄露使我们在出现较大偏离网格距离时更仔细地分析偏离网格的稀疏恢复问题,因此我们选择从范围[0.05δp,0.2δp]内的均匀分布中提取每个源的偏离网格的偏移。gs可以提供对每个估计源位置的半径的估计,而mvdr波束成形器仅估计每个源的方位角和仰角水平。表2描绘所提出的gs方法在到达角误差方面相对于mvdr波束成形器的定位效率,所述gs方法在所有嘈杂和混响情况下均实现更佳结果。表2:在混响环境的情况下网格偏移(gs)和mvdr的到达角误差。通过bsseval工具箱使用分离信号的信号与失真比率(sdr)、信号与干扰比率(sir)和信号与伪影比率(sar)来评估源获取性能。此处,假设混响框架,因此从范围[0.05δp,0.2δp]内的均匀分布中提取每个源的偏离网格的偏移。表3示出在嘈杂和无回声环境的情况下尤其在sir方面取得良好结果的分离质量结果。表3:分离性能:无噪声、无混响。度量(db)两个源三个源四个源sdr5.70172.92242.1949sir18.600113.727311.0495sar6.31634.39163.9460图2b是说明在嘈杂的混响环境中使用偏移网格来确定源定位和获取的示例结果的图式。图2b中所说明的图式描绘在嘈杂和混响环境情况下的bsseval度量(添加的白噪声(snr5、10、15、20db),混响时间259毫秒)。从图2b中可以看出,即使在不利的声学条件下,改进技术也有望在偏离网格的稀疏恢复假设下进行源分离。图3是说明执行源定位的示例方法300的流程图。可以通过结合图1描述的软件构造执行方法300,所述软件构造驻留在声音渲染计算机120的存储器126中并且由处理单元124的集合执行。在302处,声音获取管理器在多个相应的麦克风位置(例如,麦克风位置数据134)处获得多个声学声场测量(例如,声场数据132),所述多个声学声场测量从指定数目个声源产生。在304处,网格生成管理器140生成多个网格系统(例如,偏移网格数据142),所述多个网格系统中的每一个具有相应的多个网格点。在306处,网格点识别管理器150识别多个网格系统中的每一个的多个网格点中的指定数目个网格点(例如,识别的网格点数据156)。在308处,网格位置数据结构生成管理器160基于多个网格系统中的每一个的相应的、指定数目个网格点来生成网格位置数据结构(例如,网格位置数据结构162)。在310处,源位置确定管理器170基于网格位置数据结构来确定指定数目个声源的位置(例如,源位置数据172)。在一些实施方案中,存储器126可以是任何类型的存储器,例如,随机存取存储器、磁盘驱动存储器、闪存存储器等等。在一些实施方案中,存储器126可以实施为与声音渲染计算机120的部件相关联的多于一个的存储器部件(例如,多于一个的ram部件或磁盘驱动存储器)。在一些实施方案中,存储器126可以是数据库存储器。在一些实施方案中,存储器126可以是,或可以包括非本地存储器。例如,存储器126可以是,或可以包括由多个装置(未示出)共享的存储器。在一些实施方案中,存储器126可以与网络内的服务器装置(未示出)相关联,并且被配置成服务声音渲染计算机120的部件。声音渲染计算机120的部件(例如,管理器、处理单元124)可以被配置成基于一个或多个平台(例如,一个或多个类似或不同平台)来操作,所述一个或多个平台可以包括一种或多种类型的硬件、软件、固件、操作系统、运行时库等。声音渲染计算机120的部件可以是,或可以包括被配置成处理属性的任何类型的硬件和/或软件。在一些实施方案中,在图1中的声音渲染计算机120的部件中所示的部件的一个或多个部分可以是,或可以包括基于硬件的模块(例如,数字信号处理器(dsp)、现场可编程门阵列(fpga)、存储器)、固件模块和/或基于软件的模块(例如,计算机代码模块、可以在计算机处执行的计算机可读指令集)。例如,在一些实施方案中,声音渲染计算机120的部件的一个或多个部分可以是,或可以包括被配置用于由至少一个处理器(未示出)执行的软件模块。在一些实施方案中,部件的功能可以被包括在与图1中所示的不同的模块和/或不同的部件中。在一些实施方案中,声音渲染计算机120的部件(或其部分)可以被配置成在网络内操作。因此,声音渲染计算机120的部件(或其部分)可以被配置成在各种类型的网络环境内运行,所述网络环境可以包括一个或多个装置和/或一个或多个服务器装置。例如,网络可以是,或可以包括局域网(lan)、广域网(wan)等等。网络可以是,或可以包括无线网络和/或使用例如网关装置、网桥、交换机等等实施的无线网络。网络可以包括一个或多个网段和/或可以具有基于各种协议,例如因特网协议(ip)和/或专用协议的部分。网络可以包括因特网的至少一部分。在一些实施例中,声音渲染计算机120的部件中的一个或多个可以是,或可以包括处理器,所述处理器被配置成处理存储于存储器中的指令。例如,声音获取管理器130(和/或其部分)、网格生成管理器140(和/或其部分)、网格点识别管理器150(和/或其部分)、网格位置数据结构生成管理器160(和/或其部分),以及源位置确定管理器170(和/或其部分)可以包括存储器的组合,所述存储器存储与实施一个或多个功能的过程相关的指令并且被配置成执行指令。在这项工作中,考虑在稀疏恢复框架下随机布置的麦克风阵列中的宽带声源定位和获取的联合问题。引入网格偏移的概念,以补偿实际源位置相对于假设网格点位置的移位。采用基于正交匹配追踪的方法来加速位置估计过程。随后,基于麦克风数据和估计的稀疏位置向量来获取每个声源。通过对真实语音数据的实验评估表明,所提出的方法实现有效的联合源定位和获取。图4示出可以使用本文所描述的技术的通用计算机装置400和通用移动计算机装置450的示例。计算装置400预期表示各种形式的数字计算机,例如,膝上型计算机、台式计算机、平板计算机、工作站、个人数字助理、电视机、服务器、刀片式服务器、大型机和其它合适的计算装置。计算装置450预期表示各种形式的移动装置,例如,个人数字助理、蜂窝电话、智能电话,以及其它类似的计算装置。此处所示的部件、它们的连接和关系,以及它们的功能意味着仅仅是示例性的,并且并不意味着限制本文档中描述和/或主张的发明的实施方案。计算装置400包括处理器402、存储器404、存储装置406、连接到存储器404以及高速扩展端口410的高速接口408,以及连接到低速总线414和存储装置406的低速接口412。处理器402可以是基于半导体的处理器。存储器404可以是基于半导体的存储器。部件402、404、406、408、410和412中的每一个使用各种总线互连,并且可以安装在共同母板上或视情况以其它方式安装。处理器402可以处理用于在计算装置400内执行的指令,包括存储于存储器404中或存储装置406上的指令以将gui的图形信息显示在外部输入/输出装置,例如耦合到高速接口408的显示器416上。在其它实施方案中,多个处理器和/或多个总线可以视情况与多个存储器以及多种类型的存储器一起使用。而且,可以连接多个计算装置400,其中每个装置提供必要操作的部分(例如,作为服务器阵列、刀片式服务器组,或多处理器系统)。存储器404将信息存储在计算装置400内。在一个实施方案中,存储器404是一个或多个易失性存储器单元。在另一实施方案中,存储器404是一个或多个非易失性存储器单元。存储器404还可以是另一形式的计算机可读介质,例如,磁盘或光盘。存储装置406能够为计算装置400提供大容量存储。在一个实施方案中,存储装置406可以是或可以包含计算机可读介质,例如,软盘装置、硬盘装置、光盘装置,或磁带装置、闪存存储器或其它类似的固态存储器装置,或装置的阵列,包括存储区域网络或其它配置中的装置。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令,所述指令在执行时执行一个或多个方法,例如,上述那些方法。信息载体是计算机或机器可读介质,例如,存储器404、存储装置406,或处理器402上的存储器。高速控制器408管理计算装置400的带宽密集型操作,而低速控制器412管理较低带宽密集型操作。这种功能的分配仅仅是示例性的。在一个实施方案中,高速控制器408被耦合到存储器404、显示器416(例如,通过图形处理器或加速计),以及可以接受各种扩展卡(未示出)的高速扩展端口410。在实施方案中,低速控制器412被耦合到存储装置406和低速扩展端口414。可以包括各种通信端口(例如,usb、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器被耦合到一个或多个输入/输出装置,例如,键盘、指点装置、扫描仪,或例如交换机或路由器的联网装置。如图所示,计算装置400可以通过多种不同形式实施。例如,所述计算装置可以实施为标准服务器420,或多次实施于此类服务器组中。所述计算装置还可以实施为机架式服务器系统424的一部分。另外,所述计算装置可以实施于例如膝上型计算机422的个人计算机中。替选地,来自计算装置400的部件可以与例如装置450的移动装置(未示出)中的其它部件组合。此类装置中的每一个可以包含计算装置400、450中的一个或多个,并且整个系统可以由彼此通信的多个计算装置400、450组成。计算装置450包括处理器452、存储器464、例如显示器454的输入/输出装置、通信接口466和收发器468,以及其它部件。装置450还可以被设置有例如微驱动器或其它装置的存储装置,以提供附加的存储。部件450、452、464、454、466和468中的每一个使用各种总线互连,并且若干部件可以安装在共同母板上或视情况以其它方式安装。处理器452可以执行计算装置450内的指令,包括存储于存储器464中的指令。处理器可以实施为包括分离的以及多个模拟和数字处理器的芯片的芯片组。例如,处理器可以提供装置450的其它部件的协调,例如,用户界面、装置450运行的应用程序,以及装置450进行的无线通信的控制。处理器452可以通过控制接口458和耦合到显示器454的显示器接口456与用户通信。例如,显示器454可以是tftlcd(薄膜晶体管液晶显示器),或oled(有机发光二极管)显示器,或其它合适的显示器技术。显示器接口456可以包括用于驱动显示器454向用户呈现图形和其它信息的合适电路。控制接口458可以从用户接收命令并且转换所述命令以提交给处理器452。另外,可以提供与处理器452通信的外部接口462,以便使装置450能与其它装置进行近区域通信。例如,外部接口462可以在一些实施方案中提供有线通信,或在其它实施方案中提供无线通信,并且还可以使用多个接口。存储器464将信息存储在计算装置450内。存储器464可以实施为一个或多个计算机可读介质、一个或多个易失性存储器单元,或一个或多个非易失性存储器单元中的一个或多个。扩展存储器474还可以被提供并且通过扩展接口472被连接到装置450,所述扩展接口可以包括例如,simm(单列直插式存储器模块)卡接口。此种扩展存储器474可以为装置450提供额外存储空间,或者还可以为装置450存储应用程序或其它信息。具体来说,扩展存储器474可以包括用于执行或补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器474可以被提供为装置450的安全模块,并且可以用允许安全地使用装置450的指令来编程。另外,可以通过simm卡与附加信息一起提供安全应用程序,例如,以不可侵入的方式将识别信息置于simm卡上。如下所述,存储器可以例如包括闪存存储器和/或nvram存储器。在一个实施方案中,计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令,所述指令在执行时执行一个或多个方法,例如,上述那些方法。信息载体是可以例如通过收发器468或外部接口462接收的计算机或机器可读介质,例如,存储器464、扩展存储器474,或处理器452上的存储器。装置450可以通过通信接口466无线地通信,所述通信接口在必要时可以包括数字信号处理电路。通信接口466可以提供各种模式或协议下的通信,例如,gsm语音呼叫、sms、ems,或mms消息传递、cdma、tdma、pdc、wcdma、cdma2000或gprs等等。例如,这种通信可以通过射频收发器468发生。另外,短程通信可以例如使用蓝牙、wi-fi,或其它此种收发器(未示出)发生。另外,gps(全球定位系统)接收器模块470可以向装置450提供附加的与导航和位置相关的无线数据,所述无线数据视情况可以由装置450上运行的应用程序使用。装置450还可以使用音频编解码器460以听觉方式通信,所述音频编解码可以从用户接收语音信息并且将所述语音信息转换成可用的数字信息。音频编解码器460同样可以例如通过扬声器在例如装置450的听筒中为用户生成可听声音。这种声音可以包括来自语音电话的声音,可以包括录音(例如,语音消息、音乐文件等),并且还可以包括在装置450上运行的应用程序所生成的声音。如图所示,计算装置450可以通过多种不同形式实施。例如,所述计算装置可以实施为蜂窝电话480。所述计算装置还可以实施为智能电话482、个人数字助理,或其它类似移动装置的一部分。本文描述的系统和技术的各种实施方案可以在数字电子电路、集成电路、专门设计的asic(专用集成电路)、计算机硬件、固件、软件,和/或其组合中实现。这些各种实施方案可以包括在一个或多个计算机程序中的实施方案,所述计算机程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释,所述可编程处理器可以用于专用或通用目的,且耦合以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令,并将数据和指令传输到存储系统、至少一个输入装置和至少一个输出装置。这些计算机程序(还被称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以用高级程序化和/或面向对象的编程语言,和/或用汇编/机器语言实施。如本文所使用,术语“机器可读介质”、“计算机可读介质”指代用于将机器指令和/或数据提供到可编程处理器的任何计算机程序产品、设备和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用于将机器指令和/或数据提供到可编程处理器的任何信号。为了提供与用户的交互,本文描述的系统和技术可以在具有显示装置(例如,crt(阴极射线管)或lcd(液晶显示器)监视器)的计算机上实施,以将信息显示给用户以及键盘和指点装置(例如,鼠标或轨迹球),用户可以通过所述键盘和所述指点装置将输入提供到计算机。其它种类的装置也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈(例如,视觉反馈、听觉反馈,或触觉反馈);以及来自用户的输入可以通过任何形式接收,包括声音、语音或触觉输入。本文描述的系统和技术可以在计算系统中实施,所述计算系统包括后端部件(例如,作为数据服务器),或包括中间件部件(例如,应用程序服务器),或包括前端部件(例如,具有图形用户界面或网络浏览器的客户端计算机,用户可以通过其与本文描述的系统和技术的实施方案交互),或此后端、中间件或前端部件的任何组合。系统的部件可以通过数字数据通信(例如,通信网络)的任何形式或介质互连。通信网络的示例包括局域网(“lan“)、广域网(”wan“)和因特网。计算系统可以包括客户端和服务器。客户端和服务器通常远离彼此并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行以及彼此具有客户端-服务器关系的计算机程序产生。在本说明书和所附权利要求书中,单数形式“一”、“一个”和“所述”不排除复数形式,除非上下文另外明确指出。此外,例如“和”、“或”以及“和/或”的连词是包括性的,除非上下文另外明确指出。例如,“a和/或b”包括单独a、单独b,以及a与b。此外,在所呈现的各个附图中示出的连接线或连接器预期表示各种元件之间的示例性功能关系和/或物理或逻辑耦合。实际装置中可能存在许多替代或附加的功能关系、物理连接或逻辑连接。此外,除非将元件具体描述为“必要”或“关键”,否则没有项目或部件对于实践本文公开的实施例是必不可少的。本文使用例如但不限于大致、基本上、大概等术语来指示不要求精确值或精确值的范围且不需要指定精确值或精确值的范围。如本文所使用,上述术语对于本领域的普通技术人员将具有现成的并且即时的含义。此外,本文中参考当前考虑或图示的定向来使用例如“上”、“下”、“顶部”、“底部”、“侧面”、“端部”、“前”、“后”等术语。如果相对于另一定向考虑这些术语,则应理解,必须相应地修改这些术语。此外,在本说明书和所附权利要求书中,单数形式“一”、“一个”和“所述”不排除复数形式,除非上下文另外明确指出。此外,例如“和”、“或”以及“和/或”的连词是包括性的,除非上下文另外明确指出。例如,“a和/或b”包括单独a、单独b,以及a与b。尽管本文已描述某些实例方法、设备和制品,但是本专利的覆盖范围不限于此。应理解,本文使用的术语出于描述具体方面的目的并且不意图为限制性的。相反,此专利涵盖完全落入本专利的权利要求的范围内的所有方法、设备和制品。当前第1页1 2 3 

技术特征:

1.一种方法,包括:

通过计算机的处理电路获得多个相应的麦克风位置处的多个声学声场测量,所述多个声学声场测量从指定数目个声源产生;

生成多个网格系统,所述多个网格系统中的每一个具有相应的多个网格点;

识别所述多个网格系统中的每一个的所述多个网格点中的指定数目个网格点;

基于所述多个网格系统中的每一个的相应的指定数目个网格点来生成网格位置数据结构;以及

基于所述网格位置数据结构来确定所述指定数目个声源的位置。

2.根据权利要求1所述的方法,其中,识别所述指定数目个网格点包括对于所述多个网格系统中的每一个:

基于所述网格系统的所述多个网格点来生成用于所述网格系统的相应的传感矩阵;

基于所述网格系统的相应的传感矩阵来执行信号最小化操作,以产生相应的离散信号;以及

基于所述相应的离散信号来获得所述网格系统的所述多个网格点中的所述指定数目个网格点。

3.根据权利要求2所述的方法,其中,基于网格系统的所述多个网格点来生成所述网格系统的相应的传感矩阵包括:

对于所述网格系统的所述多个网格点中的每一个以及对于所述多个麦克风位置中的麦克风位置:

形成所述网格点与所述麦克风位置之间的差;以及

计算所述差的范数。

4.根据权利要求2所述的方法,其中,对于所述多个网格系统中的网格系统,所述相应的传感矩阵取决于频率,并且

其中,获得所述网格系统的所述多个网格点中的所述指定数目个网格点包括:

在频率范围内生成所述相应的离散信号的平均值,以产生频率平均的离散信号;以及

获得与所述网格系统的所述多个点上的所述频率平均的离散信号中的指定数目个最高值相对应的所述网格系统的所述多个网格点中的网格点作为所述指定数目个网格点。

5.根据权利要求2所述的方法,其中,对于所述多个网格系统中的网格系统,所述相应的传感矩阵取决于时间,以及

其中,获得所述网格系统的所述多个网格点中的所述指定数目个网格点包括:

跨时间窗生成所述相应的离散信号的平均值,以产生频率平均的离散信号;以及

获得与所述网格系统的所述多个点上的时间平均的离散信号中的指定数目个最高值相对应的所述网格系统的所述多个网格点中的网格点作为所述指定数目个网格点。

6.根据权利要求1所述的方法,其中,基于所述多个网格系统中的网格系统的所述指定数目个网格点来生成所述网格位置数据结构包括:

连接所述网格系统的所述指定数目个网格点,以产生用于所述网格系统的所述网格位置数据结构。

7.根据权利要求6所述的方法,其中,基于所述网格位置数据结构来确定所述声源的所述位置包括:

连接所述多个网格系统中的每一个的所述网格位置数据结构,以产生全局数据结构;以及

对所述全局数据结构执行k均值聚类,以产生所述声源的所述位置。

8.根据权利要求1所述的方法,进一步包括:

执行获取操作,以获取所述指定数目个声源的所确定的位置处的所述声场的估计。

9.根据权利要求8所述的方法,其中,执行所述获取操作包括:

基于所述指定数目个声源的所确定的位置来生成网格;

生成用于所生成的网格的传感矩阵;

基于用于所生成的网格的所述传感矩阵来执行信号最小化操作,以产生离散信号;以及

对所述离散信号执行短时傅里叶逆变换操作,以产生所述声场的所述估计。

10.根据权利要求9所述的方法,其中,基于所述指定数目个声源的所确定的位置来生成所述网格包括:

生成第一网格,所述第一网格包括多个网格点;

定位所述第一网格的所述多个网格点中最接近所述指定数目个声源的所确定的位置的网格点;

用所述指定数目个声源的所确定的位置替代所述第一网格的所述多个网格点中的所述网格点,以产生所述网格。

11.一种包括非暂时性存储介质的计算机程序产品,所述计算机程序产品包括在由计算机的处理电路执行时使所述处理电路执行方法的代码,所述方法包括:

获得多个相应的麦克风位置处的多个声学声场测量,所述多个声学声场测量从指定数目个声源产生;

生成多个网格系统,所述多个网格系统中的每一个具有相应的多个网格点;

识别所述多个网格系统中的每一个的所述多个网格点中的指定数目个网格点;

基于所述多个网格系统中的每一个的相应的指定数目个网格点来生成网格位置数据结构;以及

基于所述网格位置数据结构来确定所述指定数目个声源的位置。

12.根据权利要求11所述的计算机程序产品,其中,识别所述指定数目个网格点包括对于所述多个网格系统中的每一个:

基于所述网格系统的所述多个网格点来生成用于所述网格系统的相应的传感矩阵;

基于所述网格系统的相应的传感矩阵来执行信号最小化操作,以产生相应的离散信号;以及

基于所述相应的离散信号来获得所述网格系统的所述多个网格点中的所述指定数目个网格点。

13.根据权利要求12所述的计算机程序产品,其中,基于网格系统的所述多个网格点来生成所述网格系统的相应的传感矩阵包括:

对于所述网格系统的所述多个网格点中的每一个以及对于所述多个麦克风位置中的麦克风位置:

形成所述网格点与所述麦克风位置之间的差;以及

计算所述差的范数。

14.根据权利要求12所述的计算机程序产品,其中,对于所述多个网格系统中的网格系统,所述相应的传感矩阵取决于频率,并且

其中,获得所述网格系统的所述多个网格点中的所述指定数目个网格点包括:

在频率范围内生成所述相应的离散信号的平均值,以产生频率平均的离散信号;以及

获得与所述网格系统的所述多个点上的所述频率平均的离散信号中的指定数目个最高值相对应的所述网格系统的所述多个网格点中的网格点作为所述指定数目个网格点。

15.根据权利要求12所述的计算机程序产品,其中,对于所述多个网格系统中的网格系统,所述相应的传感矩阵取决于时间,以及

其中,获得所述网格系统的所述多个网格点中的所述指定数目个网格点包括:

跨时间窗生成所述相应的离散信号的平均值,以产生频率平均的离散信号;以及

获得与所述网格系统的所述多个点上的时间平均的离散信号中的指定数目个最高值相对应的所述网格系统的所述多个网格点中的网格点作为所述指定数目个网格点。

16.根据权利要求11所述的计算机程序产品,其中,基于所述多个网格系统中的网格系统的所述指定数目个网格点来生成所述网格位置数据结构包括:

连接所述网格系统的所述指定数目个网格点,以产生用于所述网格系统的所述网格位置数据结构。

17.根据权利要求16所述的计算机程序产品,其中,基于所述网格位置数据结构来确定所述声源的所述位置包括:

连接所述多个网格系统中的每一个的所述网格位置数据结构,以产生全局数据结构;以及

对所述全局数据结构执行k均值聚类,以产生所述声源的所述位置。

18.根据权利要求11所述的计算机程序产品,进一步包括:

执行获取操作,以获取所述指定数目个声源的所确定的位置处的所述声场的估计。

19.根据权利要求18所述的计算机程序产品,其中,执行所述获取操作包括:

基于所述指定数目个声源的所确定的位置来生成网格;

生成用于所生成的网格的传感矩阵;

基于用于所生成的网格的所述传感矩阵来执行信号最小化操作,以产生离散信号;以及

对所述离散信号执行短时傅里叶逆变换操作,以产生所述声场的所述估计。

20.根据权利要求19所述的计算机程序产品,其中,基于所述指定数目个声源的所确定的位置来生成所述网格包括:

生成第一网格,所述第一网格包括多个网格点;

定位所述第一网格的所述多个网格点中最接近所述指定数目个声源的所确定的位置的网格点;

用所述指定数目个声源的所确定的位置替代所述第一网格的所述多个网格点中的所述网格点,以产生所述网格。

技术总结

源定位和获取的技术涉及根据基于正交匹配追踪的网格偏移过程的鉴于稀疏优化框架的带宽联合声源定位和获取方法。沿着这些线,与网格上情况相比,用相同数目的网格点构造特定网格结构,但是所述网格结构在声学场景上“偏移”。更具体来说,预期每个源将位于偏移网格集合中的至少一个的网格点附近。将对应于所述偏移网格集合的稀疏解组合以获得源位置估计。估计的源位置被用作获得原始源信号的边信息。

技术研发人员:威廉·巴斯蒂安·克雷杰;简·斯科格隆;克里斯托斯·察格卡拉基斯

受保护的技术使用者:谷歌有限责任公司

技术研发日:.10.10

技术公布日:.01.07

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。