引言
可听化(Auralization)是我从博士第一天开始,就天天能听到N次的词汇。由于可听化为在虚拟环境中重现声场,所以从下生以来就和虚拟现实(VR)密不可分。2013年博士刚开始的时候,大家还不知道什么是VR;两年过后VR开始大热,概念炒到大街小巷妇孺皆知;再过了两年投资热潮一过,变成了冷饭,一切又归于平静。其实工业界炒来炒去,学术界似乎并没有受到什么影响。这几年作可听化+声学虚拟现实(AVR,Acoustic Virtual Reality)的越来越多,做这一块申请欧盟基金机会也比较大,虽然各个组水平良莠不齐,作成什么样的都有,但是这个行业整体还是上行的。需要做的是尽快发掘在工业界的应用前景,找到真正的用武之地,才能让这么有意思的方向继续发展下去。
【注】:由于本文的大部分视频播放的声音都是双耳信号,所以建议大家戴上耳机听3D音效。
一、可听化的概念和意义
可听化的概念很抽象,每次跟人解释,都要花一定的篇幅。联想可视化,解释起来可能会省力很多:
看抗日神剧,我们看到几十年前的场景,这就是把我们没有经历过的场景,让我们再次用眼睛看见。如果在电影院看,戴上3D眼镜,在视觉上会给人更真实的感受;
但是如果声音的感受还原的不到位,即使视觉做的再好,人不会感觉真实。比如炸弹在前方爆炸,听到的确实在后方,视觉和听觉无法匹配,人就会产生如下反应↓
Kleiner在1993年提出的可听化定义[1]:
“和可视化对应,可听化是把一个已知/未知的环境,在声学上变得已知的过程”
Auralization is the term used to describe the process of making a known or unknown environment acoustically known in analogy with visualization.
Vorländer教授在2007年的定义[2]:
“可听化是将仿真、测量或者合成的数据转化成可听的声音文件的技术”
我自己的总结:可听化的过程,是把现实世界的声环境挪到虚拟世界。
因此,可听化和虚拟现实结合紧密。不管是用电脑、VR/AR眼镜还是虚拟现实环境,可听化还原声环境的过程总是和“虚拟”二字相关。
那么问题来了,这东西有啥用?
还是Kleiner在他1993年发表的那篇综述文章《Auralization — An overview》里面极具前瞻性地提出了可听化的各种用途。在有些点下面我放上了自己的理解和解释,其他的点我也不太知道作者想说啥,毕竟90年代的事情我并不太懂-_-
- 训练建筑师、声学和音频专家
比如在音乐厅设计的初期,建筑方面的3D模型已经有了,那么可以通过可听化来让建筑声学专家评价声环境,在建筑初期就把建筑声学考虑在内。参考我建筑声学的文章
声学发展史之——建筑声学 (Architectural Acoustics)
- 训练音乐家
博士所在研究所几个师兄的创业公司在做的3D入耳监听(in-ear monitoring),可以在舞台上/下自由切换乐器的位置,从立体声升级到3D声。
3D入耳混音监听 [klang.com/en/home]
-
训练盲人
盲人回声定位。可以通过舌头打响对周围空间进行判断——虽然没有蝙蝠那么精确。通过在虚拟环境中的可听化,模拟现实中的各种真实(声)环境,更高校地训练盲人回声定位的能力。荷兰埃因霍温理工大学的Maarten Hornikx教授在作这方面的研究[3]。
盲人通过回声定位骑自行车 [Youtube channel: Inside Edition]
- 工厂噪声预测
- 噪声质量评估
- 心理声学的研究
这个研究面太广了。比如通过双耳技术,在虚拟现实环境还原教室的声环境,研究房间声学对听力有障碍的儿童的影响。
再比如(不知道现在有没有人作),最近欧盟刚刚规定的电动车声音预警系统AVAS(Acoustic Vehicle Alerting Systems),由于电动车在低速噪音太低,行人可能完全察觉不到,所以欧盟规定电动车在低速行驶时,必须由外置扬声器播放声音作为预警。播放什么声音呢?有人说噪声,有人说交响乐,有人说人说话声——可以想象高速堵车或者红灯前路上会是多么一派生机!这个就完全可以放到虚拟环境里面,通过可听化来看行人对AVAS的反应,通过人的主观评价来定最终方案——毕竟这个鸡肋是以人为本给人服务的嘛。
下面是奔驰的AVAS设计方案,一会飞机一会跑车声音也是醉了。
奔驰的AVAS设计方案 [mercedes-fans.de/]
我在心理声学专题里也提到过可以通过可听化作汽车声学的设计。
声学发展史之——心理声学(Psychoacoustics) · 下
- 研究房间和音响
参考前面第一点
- 研究混响增强系统
- 研究麦克风接收模式和放置特点
- 增强虚拟现实系统的真实性
这个和可听化是相辅相成的
- 游戏特效
仿佛是现在Auralization+虚拟现实商业化最成功的一块……各大商场宣传VR的时候大家可能都见过。可听化在这里面的重要性是不言而喻的。假如打CS,本来敌人在左边打你一枪你把头转到后边,不挂才怪。现在好多游戏也都加入了HRTF双耳效果,游戏体验更美好。
- 增强飞行娱乐的双耳音效
- 增强汽车立体声回放效果
- 表达非声音数据,比如在视觉信息饱和的时候,把雷达信号通过声音传递给飞行员
之前去荷兰Arup的时候他们给我讲了一个工业方面的例子:
一段铁路附近居民抱怨火车经过噪声太大, 希望政府治理一下。政府找到Arup。Arup模拟了加上不同隔音屏障之后和之前的经过噪声效果,通过可听化,让25000个居民和决策者都去听,来最终决定采用哪套隔音方案(下面链接第一个视频)。和居民和决策者谈dB谈分贝,他们完全不买账的好吗!
https://www.arup.com/perspectives/soundlab
二、不太长的历史
1913年
Jason E. Summers在JASA的“What exactly is meant by the term ‘auralization?’ ”[4] 一文中提到,可听化最早在1913年被T. Matthay提出[5] :
ability keenly to visualize, or auralize things apart from their actual physical happening.
他说可听化是“提前听到的能力”(power of pre-hearing)。
1929年
Vorländer教授书中说到,Spandöck和同事在慕尼黑,尝试在桌子上的一个模型房间里面,重现房间里面测得的声音信号。这个概念形成的很快,然而现实很残酷,实现起来非常困难[6]。
1949年
这时候磁带出现了。Spandöck等人终于梦想成真,通过超声信号,模型和录音机在房间模型里实现了可听化。其技术已经有了现代可听化技术的雏形:声场建模,任意声源信号,声音重建。
60年代
随着电脑的发展,声学仿真出现,Schröder对可听化进行重新定义。1968年,Krokstad让第一款室内声学仿真软件问世。
1990年
随着处理器速度,内存空间和卷积机器发展到了一定程度,在个人PC上面就可以做室内声学的仿真。
1993年
Kleiner再次定义了可听化,这个概念沿用至今。他的那篇综述也成了可听化历史上的名篇。
2007年
如果说Kleiner的综述是名篇,那么Vorländer教授的Auralization就是可听化的集大成之作。他也成功地从室内声学转型到虚拟声学,算是声学这一派系的祖师爷级别的人物。
目前在世界上作可听化+虚拟声学比较出名的高校和教授有:
德国亚琛工业大学,Michael Vorländer
芬兰阿尔托,Tapio Lokki。这里面放上他们实验室三篇比较重要的文章
- Savioja, L., Huopaniemi, J., Lokki, T., & Väänänen, R. (1999). Creating interactive virtual acoustic environments.Journal of the Audio Engineering Society,47(9), 675-705.
- Savioja, L. (1999). Modeling techniques for virtual acoustics.Simulation,45(10), 10.
- Lokki, T. (2002).Physically-based auralization: design, implementation, and evaluation. Helsinki University of Technology.
法国索邦大学,Brian Katz
瑞士Empa,Reto Pieren
企业方面,领头羊当属Facebook Reality Lab,也就是前Oculus,在这方面投入很大。去年那边主动接触过我,只可惜还没深入沟通之前,就因为希望入职时间和签证时间的冲突,不了了之了。其他企业涉及到可听化的凤毛麟角,像之前提到的Arup,以及荷兰的NLR都涉及到一些。德国的各大汽车主机厂和大型供应商,比如博世,有的部门也会有虚拟现实实验室,做一些可听化和汽车声学相关的内容,不过都不大。另外美国的NASA也做得比较久。国内听说过时代拓灵在做。
像我之前提过的,在工业方面可听化的应用似乎只停留在了游戏行业。在VR热潮退去之后,学术圈的研究一直没停,还在平稳地前进中。因此如何找到合适的工业切入点,是可听化商业化的关键所在。
三、可听化技术
可听化的实现/,需要满足三个要素:
声源,声传播,声回放。
如下图所示。
其过程简单概括,就是把声源信号和传播环境的响应做卷积,通过适当的回放手段让人听到。
我在下面简单介绍一下每个要素,让大家有个大概印象。之后我会单独写三篇文章详细讲。
声源
我个人认为,可听化三要素里面被研究的最少的。然而作为可听化链的第一环,其地位至关重要,如果声源模型不准,传播模型再准,回放的再精确也是徒劳。
借用我在TUE做的课件里面的一页来看一下声源的分类
人类想听或者可以接受的声音,可以有乐音,人的说话,鸟叫,水流等等,不想听到的声音通通归为噪声。不过这个规定也是因人而异,比如有的人觉得摇滚乐好听,有的人觉得就是狼哭鬼嚎的噪声。
从可听化声源建模的难易程度看,可以从声源大小来分,比如点声源,线声源和面生源;从运动角度来分,又可以分为静止声源和移动声源。这两种分类方式里边,点声源和静止声源是比较好建模的。
声源建模也有三个关键点:信号,空间位置和指向性。其中空间位置获取不难,信号和指向性的获取是难点。
声源(信号)建模的获取方式大概有三种:
- 直接录音。为了得到“纯净”的声源声音,最好要在消声室录dry sound。问题是很多声源没有办法在消声室环境下录,比如汽车的空气动力噪声,飞机火车这种大型交通工具移动过程中产生的噪声等;
- 正向模型。通过物理模型或者数学经验公式等直接合成声源,过程中的某些参数可能也需要实验获取。这方面做得比较成功的就是前面提到的瑞士Empa的Reto Pieren博士,以及NASA的Stephen A. Rizzi。在会议上见过他们,也参加过几次他们组织的VASTCON–Auralization活动。
- 反向模型。简单说,当正向模型无法获取的时候,就需要通过实验实测数据,通过recording还原声源信号。这也是我博士期间主要研究的内容。之前在一个知乎回答里面介绍过一些我博士的研究:
https://www.zhihu.com/question/309785896/answer/587792267
指向性的获取一般都是通过消音室测量得到。对于不太容易在实验室测得的,比如发动机或者轮胎噪声,也有一些经验公式可以粗略计算指向性。
传播模型
可听化发展的前几十年,主要以几何声学模型为主;计算机能力快速提升的近二十年,数值声学模型开始大行其道。不过对于交互性的可听化,数值模型还没有办法做到实时计算。
数值声学模型:BEM, FEM, FDTD, DG等;
几何声学模型:声源镜像(image source), 射线追踪(ray tracing )
几何声学模型忽略了声音作为波的特性,把声音当做射线来处理,一些重要的传播现象,例如衍射、散射等并没有考虑在内,所以简化了声传播,因而计算速度快,但是准确性差;
数值模型准确性大大提升,可以计算复杂环境下的声音传播。代价也很明显,计算速度大打折扣,目前还无法做到实时计算。不过随着计算机速度的提升,未来可期。
信号处理+重建
显然,在回放之前,信号处理是关键。如何把声源信号和响应做卷积,通过检测接受者和声源的位置,加上声源指向性和接受者的指向性——也就是HRTF(头部相关传递函数),然后“清清楚楚地送到每个人的耳朵里”。对于有实时交互要求的可听化,要求延迟不能超过人能听出区别的阈值——20毫秒。因此,在实时可听化里面,对信号处理的速度要求很高。
实时可听化什么意思呢?就是人在可听化的过程中可以自由移动,声场随之实时更新。tracker追踪人头部的空间位置和方向,主要更新的信息有听到声音的大小随距离的衰减1/r,和空间位置有关;和头部方向相关的是声源指向性和HRTF。
声音重建的途径主要有两种:耳机和扬声器。
耳机。相对简单,只要有人的HRTF,把声源和响应卷积出来的信号在和HRTF卷积即可。然而不是individualized HRTF带来的问题也有很多,比如In-head localization,front-back confusion等。
扬声器。更自然的重建方式。然而并不能处处都有消声室,所以回放房间的影响是主要问题。现在常用的方法有ambisonics,CTC,VBAP等。
后记
越是熟悉的东西,越是难以下笔。写了建筑、心理和可视化的发展史之后,终于下决心写可听化。虽然博士毕业之后不再做可听化,但是始终对这个方向很感兴趣。希望这篇文章和后面要写的三篇或多或少能让可听化在国内被更多人了解,有后来人把这个方向发展起来。
封面图来自于:cs.utexas.edu/~bajaj/cv
欢迎关注我的公众号:子鱼说声学
- ^Kleiner, Mendel, Bengt-Inge Dalenbäck, and Peter Svensson. “Auralization-an overview.” Journal of the Audio Engineering Society 41.11 (1993): 861-875.
- ^Vorländer, Michael. Auralization: fundamentals of acoustics, modelling, simulation, algorithms and acoustic virtual reality. Springer Science & Business Media, 2007.
- ^de Vos, R., & Hornikx, M. (2017). Acoustic properties of tongue clicks used for human echolocation. Acta Acustica United With Acustica, 103(6), 1106-1115.
- ^Summers, J. E. (2008). What exactly is meant by the term “auralization?”. The Journal of the Acoustical Society of America, 124(2), 697-697.
- ^T. Matthay, Musical Interpretation, its Laws and Principles, and their Application in Teaching and Performing The Boston Music Company, Boston, MA, 1913, p. 10.
- ^Vorländer, Michael. Auralization: fundamentals of acoustics, modelling, simulation, algorithms and acoustic virtual reality. Springer Science & Business Media, 2007.