这几个函数在 Python 里面被称为高阶函数,本文主要学习它们的用法。
成都创新互联IDC提供业务:四川雅安服务器托管,成都服务器租用,四川雅安服务器托管,重庆服务器租用等四川省内主机托管与主机租用业务;数据中心含:双线机房,BGP机房,电信机房,移动机房,联通机房。
filter 函数原型如下:
第一个参数是判断函数(返回结果需要是 True 或者 False),第二个为序列,该函数将对 iterable 序列依次执行 function(item) 操作,返回结果是过滤之后结果组成的序列。
简单记忆:对序列中的元素进行筛选,获取符合条件的序列。
返回结果为: ,使用 list 函数可以输入序列内容。
map 函数原型如下:
该函数运行之后生成一个 list,第一个参数是函数、第二个参数是一个或多个序列;
下述代码是一个简单的测试案例:
上述代码运行完毕,得到的结果是: 。使用 print(list(my_new_list)) 可以得到结果。
map 函数的第一个参数,可以有多个参数,当这种情况出现后,后面的第二个参数需要是多个序列。
map 函数解决的问题:
reduce 函数原型如下:
第一个参数是函数,第二个参数是序列,返回计算结果之后的值。该函数价值在于滚动计算应用于列表中的连续值。
测试代码如下:
最终的结果是 6,如果设置第三个参数为 4,可以运行代码查看结果,最后得到的结论是,第三个参数表示初始值,即累加操作初始的数值。
简单记忆:对序列内所有元素进行累计操作。
zip 函数原型如下:
zip 函数将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。
如果各个迭代器的元素个数不一样,则返回列表长度与最短的对象相同,利用星号( * )操作符,可以将元组解压为列表。
测试代码如下:
展示如何利用 * 操作符:
输出结果如下:
简单记忆:zip 的功能是映射多个容器的相似索引,可以方便用于来构造字典。
enumerate 函数原型如下:
参数说明:
该函数用于将一个可遍历的数据对象组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
测试代码如下:
返回结果为: 。
本文涉及的函数可以与 lambda 表达式进行结合,能大幅度提高编码效率。最好的学习资料永远是官方手册
噪声能获取吗?好吧。你可以试试减一减。不过你的测试用例不太对。 尽量用有规律的数据去做。
比如你可以做一个正弦函数,再人为的加上一点点扰动。再做小波变换看看。另外数据要多些。太短的数据看不出效果来。
至于变换后是两个4,我想等你数据弄多些就明白了。 数据多些,就容易做图。你把变换后的数据变成图形,画出来。可以用EXCEL来画。
这样一对比就明白变换后的两个4数组是什么数据。 然后你就可以针对性的处理。取得噪声也是可以的。
通常来讲噪声是没有规律的。 但是不排除它是另外一种规律迭加上去的。 试试看。
数字信号是通过对连续的模拟信号采样得到的离散的函数。它可以简单看作一个以时间为下标的数组。比如,x[n],n为整数。比如下图是一个正弦信号(n=0,1, ..., 9):
对于任何的音频文件,实际上都是用这种存储方式,比如,下面是对应英文单词“skip”的一段信号(只不过由于点太多,笔者把点用直线连接了起来):
衡量数字信号的 能量(强度) ,只要简单的求振幅平方和即可:
我们知道,声音可以看作是不同频率的正弦信号叠加。那么给定一个声音信号(如上图),怎么能够知道这个信号在不同频率区段上的强度呢?答案是使用离散傅里叶变换。对信号x[n], n=0, ..., N-1,通常记它的离散傅里叶变换为X[n],它是一个复值函数。
比如,对上述英文单词“skip”对应的信号做离散傅里叶变换,得到它在频域中的图像是:
可以看到能量主要集中在中低音部分(约16000Hz以下)。
在频域上,也可以计算信号的强度,因为根据Plancherel定理,有:
对于一般的语音信号,长度都至少在1秒以上,有时候我们需要把其中比如25毫秒的一小部分单独拿出来研究。将一个信号依次取小段的操作,就称作分帧。技术上,音频分帧是通过给信号加一系列的 窗 函数 实现的。
我们把一种特殊的函数w[n],称作窗函数,如果对所有的n,有0=w[n]=1,且只有有限个n使得w[n]0。比如去噪要用到的汉宁窗,三角窗。
汉宁窗
三角窗
我们将平移的窗函数与原始信号相乘,便得到信号的“一帧”:
w[n+d]*x[n]
比如用长22.6毫秒的汉宁窗加到“skip”信号大约中间部位上,得到一帧的信号:
可见除一有限区间之外,加窗后的信号其他部分都是0。
对一帧信号可以施加离散傅里叶变换(也叫短时离散傅里叶变换),来获取信号在这一帧内(通常是很短时间内),有关频率-能量的分布信息。
如果我们把信号按照上述方法分成一帧一帧,又将每一帧用离散傅里叶变换转换到频域中去,最后将各帧在频域的图像拼接起来,用横坐标代表时间,纵坐标代表频率,颜色代表能量强度(比如红色代表高能,蓝色代表低能),那么我们就构造出所谓 频谱图 。比如上述“skip”发音对应的信号的频谱图是:
(使用5.8毫秒的汉宁窗)
从若干帧信号中,我们又可以恢复出原始信号。只要我们适当选取窗口大小,以及窗口之间的平移距离L,得到 ..., w[n+2L], w[n+L], w[n], w[n-L], w[n-2L], ...,使得对k求和有:
从而简单的叠加各帧信号便可以恢复出原始信号:
最后,注意窗函数也可以在频域作用到信号上,从而可以起到取出信号的某一频段的作用。
下面简单介绍一下3种音效。
1. 扩音
要扩大信号的强度,只要简单的增大信号的“振幅”。比如给定一个信号x[n],用a1去乘,便得到声音更大的增强信号:
同理,用系数0a1去乘,便得到声音变小的减弱信号。
2. 去噪(降噪)
对于白噪音,我们可以简单的用“移动平均滤波器”来去除,虽然这也会一定程度降低声音的强度,但效果的确不错。但是,对于成分较为复杂,特别是频段能量分布不均匀的噪声,则需要使用下面的 噪声门 技术,它可以看作是一种“多带通滤波器”。
这个特效的基本思路是:对一段噪声样本建模,然后降低待降噪信号中噪声的分贝。
更加细节的说,是在信号的若干频段f[1], ..., f[M]上,分别设置噪声门g[1], ..., g[M],每个门都有一个对应的阈值,分别是t[1], ..., t[M]。这些阈值时根据噪声样本确定的。比如当通过门g[m]的信号强度超过阈值t[m]时,门就会关闭,反之,则会重新打开。最后通过的信号便会只保留下来比噪声强度更大的声音,通常也就是我们想要的声音。
为了避免噪声门的开合造成信号的剧烈变动,笔者使用了sigmoid函数做平滑处理,即噪声门在开-关2个状态之间是连续变化的,信号通过的比率也是在1.0-0.0之间均匀变化的。
实现中,我们用汉宁窗对信号进行分帧。然后对每一帧,又用三角窗将信号分成若干频段。对噪声样本做这样的处理后,可以求出信号每一频段对应的阈值。然后,又对原始信号做这样的处理(分帧+分频),根据每一帧每一频段的信号强度和对应阈值的差(diff = energy-threshold),来计算对应噪声门的开合程度,即通过信号的强度。最后,简单的将各频段,各帧的通过信号叠加起来,便得到了降噪信号。
比如原先的“skip”语音信号频谱图如下:
可以看到有较多杂音(在高频,低频段,蓝色部分)。采集0.25秒之前的声音作为噪声样本,对信号作降噪处理,得到降噪后信号的频谱图如下:
可以明显的看到大部分噪音都被清除了,而语音部分仍完好无损,强度也没有减弱,这是“移动平均滤波器”所做不到的。
3. 静音剪切
在对音频进行上述降噪处理后,我们还可以进一步把多余的静音去除掉。
剪切的原理十分简单。首先用汉宁窗对信号做分帧。如果该帧信号强度过小,则舍去该帧。最后将保留的帧叠加起来,便得到了剪切掉静音部分的信号。
比如,对降噪处理后的“skip”语音信号做静音剪切,得到的新信号的频谱图为:
使用opencv-python的内置函数,对图片进行降噪处理。
8Fourier变换的应用——图像去噪
给出的图片是RGB图片,也就是需要有三个通道。
下面的函数用来去噪。
img=np.uint8(cv2.fastNlMeansDenoisingColored(img,None,10,10,7,21))
对这个图片进行局部自适应二值化处理:
img=hui(img)
th1 = cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_MEAN_C,cv2.THRESH_BINARY,31,5)
另一种局部自适应二值化处理:
th2 = cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_GAUSSIAN_C,cv2.THRESH_BINARY,31,5)
在第一步连续执行两次去噪,得到的三幅图片是:
执行三次降噪。
连续10次降噪。