1. 过零率
    零率体现的是信号过零点的次数,体现的是频率特性。因为需要过零点,所以信号处理之前需要中心化处理。
  2. 短时能量
    短时能量体现的是信号在不同时刻强弱程度
  3. 短时自相关函数
    学过信号处理的都应该知道,信号A信号B翻转卷积,就是二者的相关函数。
  4. 短时平均幅度差
    音频具有周期特性,平稳噪声情况下利用短时平均幅度差可以更好地观察周期特性
  5. 语谱图 ~ 频谱图(基于FFT)
    语音分帧每一帧分别FFT求取FFT之后的幅度/能量,这些数值都是正值,类似图像的像素点,显示出来就是语谱图。
  6. 短时功率谱密度
    音频信号可以看作短时间的平似平稳(如一帧信号),对每一帧利用周期图法分析,这个就是短时功率谱密度的思路。
  7. 谱熵
    熵体现的是不确定性,例如抛骰子一无所知,每一面的概率都是1/6,信息量最大,也就是熵最大。
  8. 基频
    也就是基频周期。人在发音时,声带振动产生浊音(voiced),没有声带振动产生清音(Unvoiced)。浊音的发音过程是:来自肺部的气流冲击声门,造成声门的一张一合,形成一系列准周期的气流脉冲,经过声道(含口腔、鼻腔)的谐振及唇齿的辐射形成最终的语音信号。故浊音波形呈现一定的准周期性。所谓基音周期,就是对这种准周期而言的,它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。
  9. 共振峰
    当声门处准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,这一组共振频率称为共振峰频率或简称共振峰。
  10. 梅尔倒谱系数(MFCC)
    梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。

参考:音频特征提取——常用音频特征
参考:【声学特征】梅尔频率倒谱系数(MFCC)