WAP手机版 RSS订阅 加入收藏  设为首页
皇冠比分
当前位置:首页 > 皇冠比分

皇冠比分:CGANet 根据音频预测交配成功率

时间:2020/1/14 11:59:19   作者:   来源:   阅读:0   评论:0
内容摘要:在本文中,大熊猫在复制过程中的音频序列是双轨的。在给定原始音频序列的情况下,作者首先对其进行预处理:切出大熊猫的啼叫声,然后根据预设的最大值对其进行归一化,将每个序列的长度设置为2秒,然后每秒提取43个声学特征。他们不是直接使用提取的声音特征进行预测,而是先使用深度网络来学习更多...
在本文中,大熊猫在复制过程中的音频序列是双轨的。在给定原始音频序列的情况下,作者首先对其进行预处理:切出大熊猫的啼叫声,然后根据预设的最大值对其进行归一化,将每个序列的长度设置为2秒,然后每秒提取43个声学特征。
他们不是直接使用提取的声音特征进行预测,而是先使用深度网络来学习更多区分声音的特征,然后根据每个帧上的特征预测交配成功或失败的概率。对于输入的音频序列,通过对所有帧上的概率求和来获得最终的预测结果。如果成功的总体可能性更大,则将交配结果分类为成功。
预处理
首先,基于人工标记的起点和终点,从输入音频序列中提取熊猫的啼声。然后,基于预设的最大值,对音频幅度进行归一化,并且将音频的每个片段的长度归一化为2秒,以剪切长音频序列或通过复制部分短音频来填充短音频序列。最后,在归一化音频段的86帧中的每帧(2秒)上提取其mel频率倒谱系数(MFCC),并将其用作深度网络的输入。
请注意,输入音频序列是双轨的,即有两个通道,每个通道的采样频率是44 100 Hz。计算MFCC时,傅里叶变换的窗口大小为2048。因此,对于音频段的每个通道,可以获得MFCC的43个声学特征,每个特征的维数为40。最后,提取的声学特征的大小(表示为F_in)是

相关评论

本类更新

本类推荐

本类排行

本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下 (皇冠比分网)