- 过零率
零率体现的是信号过零点的次数,体现的是频率特性。因为需要过零点,所以信号处理之前需要中心化处理。 - 短时能量
短时能量体现的是信号在不同时刻的强弱程度。 - 短时自相关函数
学过信号处理的都应该知道,信号A与信号B翻转的卷积,就是二者的相关函数。 - 短时平均幅度差
音频具有周期特性,平稳噪声情况下利用短时平均幅度差可以更好地观察周期特性。 - 语谱图 ~ 频谱图(基于FFT)
语音分帧→每一帧分别FFT→求取FFT之后的幅度/能量,这些数值都是正值,类似图像的像素点,显示出来就是语谱图。 - 短时功率谱密度
音频信号可以看作短时间的平似平稳(如一帧信号),对每一帧利用周期图法分析,这个就是短时功率谱密度的思路。 - 谱熵
熵体现的是不确定性,例如抛骰子一无所知,每一面的概率都是1/6,信息量最大,也就是熵最大。 - 基频
也就是基频周期。人在发音时,声带振动产生浊音(voiced),没有声带振动产生清音(Unvoiced)。浊音的发音过程是:来自肺部的气流冲击声门,造成声门的一张一合,形成一系列准周期的气流脉冲,经过声道(含口腔、鼻腔)的谐振及唇齿的辐射形成最终的语音信号。故浊音波形呈现一定的准周期性。所谓基音周期,就是对这种准周期而言的,它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。 - 共振峰
当声门处准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,这一组共振频率称为共振峰频率或简称共振峰。 - 梅尔倒谱系数(MFCC)
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。
All articles in this blog are licensed under CC BY-NC-SA 4.0anime unless stating additionally.
Comment