心理声学
心理声学 一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如,如果我扯着嗓子喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我踏脚的声音。通过去掉踏脚声,就会减少信息量,减小文件的大小,但听起来却没有区别。
心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。
心理声学模型可以在主观听感劣化不多的条件下,大大降低数字音频信号传输的带宽。它主要基于人的听觉器官的生理结构和感知模式,通过对数字音频信号的相应处理,去除不可闻的信号成分及引入不可闻的畸变,达到普通熵编码无法达到的压缩比率。
由于人耳听觉系统复杂,人类迄今为止对它的机理和听觉特性的某些问题总是还不能从生理解剖角度完全解释清楚。所以,对人耳听觉特性的研究目前仅限于在心理声学和语言声学内进行。人耳对不同强度和不同频率声音的一定听觉范围称为
声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位三个物理是的任何复杂的声音,故又称为声音“三要素”;而对于多种音源场合的人的耳掩蔽效应等特性尤为重要,它是心理声学的基础。
心理声学的几个基本概念
1、等响度曲线
人的听觉的灵敏度随着频率而改变。即通常两个功率一样但频率不同的音调听起来并不一样响。通过等响度曲线,我们可以看出,人耳对4KHz的频率最灵敏,即在4KHz下能被察觉出来的声音压力水平(响度),在其他频率下并不能被察觉。这就给在一些不太灵敏的频率下失真提供了条件。
2、屏蔽
我们上高中物理时学过屏蔽。就是强的声音信号把弱的声音信号覆盖,导致我们无法察觉。而且,当两个声音在时间和频率上很接近时,屏蔽效应就会很强。因此,我们可以在编码时对被屏蔽的部分不编码、不传送。这样,音质依然没有大的损失,人耳也不易察觉。
3、临界频带
对于人类的听觉来说,对声音的感知特性并不是以线形频率为尺度来变化的(人的听觉还没那么好),而是可以用被称为临界频带的一系列有限的频段来表达。简单的说,把整个频带划分成几段,在这每个频段里,人耳的听觉感知是相同的,即心理声学特性都是一样的。