语音识别语音采集工作指导书
语音识别&语音唤醒处理是语音学与数字信号处理技术相结合的交叉学科,首先我们将语音当做一种特殊的信号,即一种“复杂向量”来看待。也就是说语音识别更多的还是体现了数字信号处理技术。
客户希望将语音识别技术应用于某一实际领域,并对语音做语音唤醒&语音识别处理。我们需要在实际语音与数字信号的理论之间搭了一座桥。
语音识别采集工作内容及任务:
采集150---300人的语音样本
语音识别采集工具:
元趣便携式语音识别采集卡
语音识别采集环境要求:
1:安静环境
2:非空旷房间 3:非全玻璃隔断环境
每录制二三十个人,{zh0}切换一下录制环境,
比如不同的房间,或者同一个房间不同的方位
语音识别采集人群要求:
1:男女比例尽量达到 1:1
2:人群年龄在18---60岁之间,尽量均匀分布,20~50岁可以多一点
3:人群地域来源尽可能广泛
语音识别采集标准规范:
语音识别录制的时候必须两块录音板同时进行,
一方面可以增加语音识别数据,
另外一方面可以防止一块录制的数据出问题。
语音识别采集步骤:
语音识别采集人麦距离:1米,3米,5米
{dy}步: 采样人在确认元趣便携式语音识别采集卡在正常上电工作的前提下,要求说话人在距离语音识别采样设备1米距离,用普通话,以正常语速,正常的语音语调,按照提供的唤醒词及指令词清单,说出清单上的所有文字,要求每个词说完后,停顿1秒以上。
第二步: 要求说话人在距离语音识别采样设备1米距离,用普通话,以稍快一点的语速,正常的语音语调,按照提供的唤醒词及指令词清单,说出清单上的所有文字,要求每个词说完后,停顿1秒以上。
第三步:
要求说话人在距离语音识别采样设备1米距离,用普通话,以稍慢一点的语速,正常的语音语调,按照提供的唤醒词及指令词清单,说出清单上的所有文字,要求每个词说完后,停顿1秒以上。
第四步: 要求说话人在距离语音识别采样设备3米距离,重复以上{dy},第二,第三步。
第五步: 要求说话人在距离语音识别采样设备5米距离,重复以上{dy},第二,第三步。
第六步:
语音采集人将采集到的语音文件,命名并标注好说话人性别及年龄,籍贯信息
第七步:
开始采集下一个人员声音样本。
第八步:
汇总语音提供者的信息,生成EXCEL表。将所有采集到的语音样本,以***格式保存成包文件,上交给上海元趣
技术部评估采样的样本质量是否符合要求。
附文:语音识别采集原理
在进行模拟/数字信号的转换过程中,
当采样频率fs.max大于信号中{zg}频率fmax的2倍时,
即:fs.max>=2fmax,
则采样之后的数字信号完整地保留了原始信号中的信息,
一般实际应用中保证采样频率为信号{zg}频率的5~10倍;
采样定理又称奈奎斯特定理。
语音识别采样频率
语音识别采样频率,也称为采样速度或者采样率,
定义了每秒从连续信号中提取并组成离散信号的采样个数,
它用赫兹(Hz)来表示。
采样频率的数是采样周期或者叫作采样时间,
它是采样之间的时间间隔。
通俗的讲采样频率是指计算机每秒钟采集多少个声音样本,
是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。
语音识别采样频率只能用于周期性采样的采样器,
对于非周期性采样的采样器没有规则限制。
采样频率的常用的表示符号是 fs。
语音识别采样频率越高,即采样的间隔时间越短,
则在单位时间内计算机得到的声音样本数据就越多,
对声音波形的表示也越xx。
语音识别采样频率与声音频率之间有一定的关系,根据采样定理,
只有采样频率高于声音信号{zg}频率的两倍时,
才能把数字信号表示的声音还原成为原来的声音。
这就是说采样频率是衡量声卡采集、记录
和还原声音文件的质量标准。
语音识别采样位数和采样率对于音频接口来说是最为重要的两个指标,也是选择音频接口的两个重要标准。
无论语音识别采样频率如何,
理论上来说语音识别采样的位数决定了音频数据{zd0}的力度范围。
每增加一个语音识别采样位数相当于力度范围增加了6dB。
语音识别采样位数越多则捕捉到的信号越xx。
对于语音识别采样率来说你可以想象它类似于一个照相机,
16KHz意味着音频流进入计算机时计算机每秒
会对其拍照达16000次。
显然语音识别采样率越高,计算机摄取的图片越多,
对于原始音频的还原也越加xx .
不同需求,不同市场,总有一款
高xxx芯片方案适合您!
http:///
肖先生 微信:dao91123