摘要

人耳对声音的感知并非线性，不同频率、响度和时长的声音对人耳的感知影响各异。理解听觉心理学原理对于设计高质量音频产品至关重要。本文系统介绍听觉心理学的基本原理，包括等响曲线、临界频带、掩蔽效应和时间感知，为音频工程师和音响设计师提供理解人耳感知的完整参考。数据参考心理声学经典理论和行业研究，不确定处另行注明。

一、听觉系统基础

1.1 人耳结构

结构	功能	频率敏感范围
外耳	声音收集/放大	2k-5kHz放大
中耳	阻抗匹配/保护	传导声音
内耳（耳蜗）	频率分析	20Hz-20kHz
毛细胞	机械-电转换	听觉感受器

1.2 声音感知的基本参数

参数	物理量	心理感知	说明
响度	声压级（dB SPL）	响度（宋）	非线性关系
音高	频率（Hz）	音高（美）	与频率对数相关
音色	谐波结构	音色感知	谐波组成决定
时长	持续时间	主观时长	受掩蔽影响

1.3 人耳频率响应

频率范围	灵敏度	说明
2k-5kHz	最灵敏	人耳敏感区
1kHz	基准点	0dB HL参考
100Hz以下	逐渐降低	低频感知弱
10kHz以上	快速下降	高频感知衰退

二、等响曲线与响度感知

2.1 弗莱彻-蒙顿等响曲线

特点	说明
定义	不同频率产生相同响度所需的声压级
基准	1kHz纯音为参考
趋势	低频需要更高声压才能达到相同响度
应用	响度补偿和音效设计

2.2 响度级与响度

量	单位	说明
响度级	方（phon）	以1kHz为参考的dB值
响度	宋（sone）	线性响度标度
转换	1 sone = 40 phon	近似线性关系

2.3 响度计算

公式	说明
Stevens定律	S = k x I^a
近似	10dB增量约2倍响度
音质评价	A计权用于综合评价

三、临界频带与频率感知

3.1 临界频带定义

定义	说明
临界频带	人耳对频率的最小分辨带宽
变化范围	低频约100Hz，高频约2kHz
测量方法	噪声掩蔽纯音的实验

3.2 临界频带表

中心频率	临界频带宽度
100Hz	100Hz
500Hz	100Hz
1kHz	160Hz
2kHz	300Hz
4kHz	500Hz
8kHz	1kHz

3.3 Bark尺度

公式	说明
z = 13arctan(0.00076f) + 3.5arctan((f/7500)^2)	近似公式
用途	计算临界频带数
范围	约24个Bark覆盖20Hz-16kHz

四、掩蔽效应

4.1 频域掩蔽

类型	条件	掩蔽量
纯音掩蔽噪声	噪声在临界频带内	强
噪声掩蔽纯音	纯音在临界频带内	中等
纯音掩蔽纯音	同频率或相近频率	强

4.2 时域掩蔽

类型	时间关系	说明
前掩蔽	强信号之前的弱信号被掩蔽	约20ms
同时掩蔽	同时存在的声音	依赖频率
后掩蔽	强信号之后的弱信号被掩蔽	约100ms

4.3 掩蔽阈值应用

应用	原理
MP3编码	丢弃掩蔽阈值以下的声音
心理声学模型	决定比特分配
助听器压缩	利用掩蔽效应

五、声音时间感知

5.1 时间辨别阈值

参数	阈值	说明
持续时间	约10-50ms	感知独立事件
时间间隔	约1-2ms	分辨两个事件
延迟感知	约1-3ms	声像定位

5.2 Haas效应（优先效应）

效应	条件	感知
Haas效应	延迟小于30ms	声源来自先到达的方向
反射增强	延迟小于15ms	声音增强感
回声感知	延迟大于30ms	感知为独立回声

六、双耳听觉与空间感知

6.1 双耳时间差（ITD）

频率范围	机制	定位精度
低于1.5kHz	ITD机制	约1度
高于1.5kHz	ILD机制	约5度

6.2 双耳强度差（ILD）

频率	头部遮蔽	ILD增大
低频	衍射为主	ILD小
高频	遮蔽为主	ILD大

6.3 头部相关传输函数（HRTF）

内容	包含信息
频率响应	耳廓/头部滤波
时间信息	ITD/ILD
个体差异	每个人独特

6.4 空间感知应用

应用	技术
立体声	双声道时间差
环绕声	多声道HRTF
空间音频	个性化HRTF

七、失真与音质感知

7.1 失真类型

类型	感知阈值	可察觉程度
谐波失真	约0.5-1%	与频率相关
互调失真	约0.1-0.3%	更易察觉
瞬态互调	约0.01%	非常敏感
相位失真	约5-10度	感知不明显

7.2 音质评价术语

术语	含义
解析力	细节还原能力
声场	空间感表现
动态	大小声对比
音色	声音特色

八、设计应用指南

8.1 音响系统设计

设计点	心理学原理
低频补偿	等响曲线补偿
空间感增强	双耳时间差
瞬态增强	起始感知利用

8.2 耳机设计

设计点	心理学原理
主动降噪	掩蔽效应利用
个性化音效	HRTF个性化
3D音频	空间感知原理

8.3 语音通信

设计点	心理学原理
语音编码	掩蔽效应利用
回声消除	时域掩蔽
噪声抑制	语音保真度

九、总结

听觉心理学是音频产品设计的重要理论基础。等响曲线揭示了人耳对不同频率声音敏感度的差异，理解这一特性有助于设计响度补偿和频率响应曲线。临界频带理论解释了人耳的频率分辨力，是音频压缩和心理声学模型的核心。掩蔽效应使得在某些声音存在时另一些声音变得不可闻，这被广泛应用于音频压缩算法。空间感知原理（ITD、ILD、HRTF）则是环绕声、空间音频和3D音频技术的基础。音频工程师在设计产品时应充分考虑人耳的感知特性，通过科学的测试方法验证主观音质效果。

常见问题（FAQ）

Q1：为什么音响系统在小音量时听起来低频不足？ 这是等响曲线导致的正常感知现象。在低响度时，人耳对低频和高频的灵敏度比对1-4kHz中频段低很多。当音量降低时，低频感知会不成比例地减弱。响度补偿功能通过在低音量时提升低频和高频来补偿这一感知偏差，恢复平坦的响度感觉。

Q2：MP3等压缩格式是如何利用掩蔽效应的？ MP3编码使用心理声学模型来计算每个临界频带内的掩蔽阈值。在每个临界频带内，如果某个声音成分的能量低于掩蔽阈值，它就可以被完全丢弃而不会被感知。对于高于阈值但接近阈值的成分，可以使用更少的比特来编码。

Q3：为什么主动降噪耳机对持续性的低频噪声效果最好？ 主动降噪利用反相声波叠加的原理。对于低频噪声（100Hz-1kHz），噪声波长较长，空间均匀性较好，降噪麦克风捕捉到的噪声与实际到达人耳的噪声差别不大，反相声波可以有效抵消。但对于高频噪声，波长短且容易产生衍射，干涉效果不稳定。另外，低频噪声的掩蔽效应强，稍微降低一点就能显著改善感知舒适度。

Q4：人类对音频延迟的感知有什么特点？ 人类对延迟的感知有三个重要阈值：1）1-3毫秒内可以感知声像位置偏移（用于双耳定位）；2）15-30毫秒内感知不到延迟但会增强响度（Haas效应）；3）超过30毫秒会感知到独立回声。设计语音通话系统时，往返延迟应控制在150毫秒以内以保证对话流畅。

Q5：为什么有些耳机听起来比别的耳机解析力更高？ 解析力感知主要与以下因素相关：1）高频延伸和响应（影响泛音和空间信息的还原）；2）瞬态响应速度（影响起始和释放的清晰度）；3）互调失真（影响复杂信号的分离度）；4）声场宽度和深度（影响空间信息的丰富程度）。两个看似频率响应相似的耳机可能因为上述细节差异而有截然不同的解析力表现。