- 前言
- 一. 工程实现
- 二. 结果
- 三. 小结
语音识别相关算法一般在MATLAB上进行仿真验证与实验,在工程上一般还是在VS中进行实现落地,本系列将介绍语音信号处理在C语言中的一系列应用,后期将以此为基础,再落地移植到嵌入式平台。
语音文件的格式多种多样都存在不同的标准,在WAV格式的语音文件中主要包含两个部分:文件头与语音数据,本文将介绍读取WAV语音文件的文件头数据。WAV格式语音文件数据标准如下图所示。
即前44位位文件头数据,44位之后为语音数据。
一. 工程实现// ExtractData.h // 读取wav格式语音文件文件头数据 // date:2022-4-27 22:44:36 // author : C.S #ifndef _EXTRACTDATA_H_ #define _EXTRACTDATA_H_ #includetypedef struct tagWAVHEADER { uint8_t ChunkID[4]; // 文档标识。 大写字符串"RIFF",标明该文件为有效的 RIFF 格式文档。 uint32_t ChunkSize; // 文件数据长度。 从下一个字段首地址开始到文件末尾的总字节数。该字段的数值加 8 为当前文件的实际长度。 uint8_t Format[4]; // 文件格式类型。 所有 WAV 格式的文件此处为字符串"WAVE",标明该文件是 WAV 格式文件。 uint8_t FmtChunkID[4]; // 格式块标识。 小写字符串,"fmt "。 uint32_t FmtChunkSize; // 格式块长度。 其数值不确定,取决于编码格式。可以是 16、 18 、20、40 等。 uint16_t AudioFormat; // 编码格式代码。 常见的 WAV 文件使用 PCM 脉冲编码调制格式,该数值通常为 1。 uint16_t NumChannels; // 声道个数。 单声道为 1,立体声或双声道为 2。 uint32_t SampleRate; // 采样频率。 每个声道单位时间采样次数。常用的采样频率有 11025, 22050 和 44100 kHz。 uint32_t ByteRate; // 数据传输速率。 该数值为:声道数×采样频率×每样本的数据位数/8。播放软件利用此值可以估计缓冲区的大小。 uint16_t BlockAlign; // 数据块对齐单位。 采样帧大小。该数值为:声道数×位数/8。播放软件需要一次处理多个该值大小的字节数据,用该数值调整缓冲区。 uint16_t BitsPerSample; // 采样位数。 存储每个采样值所用的二进制数位数。常见的位数有 4、8、12、16、24、32。 uint8_t DataChunkID[4]; uint32_t DataChunkSize; } WAVHEADER; #endif // #ifndef _EXTRACTDATA_H_
// ExtractData.cpp // 读取wav格式语音文件文件头数据 // date:2022-4-27 22:44:36 // author : C.S #include二. 结果 三. 小结#include #include #include #include "ExtractData.h" #define W 128 //每次读写文件的数据量 int FileSet = 0; //定义一个整型变量, 用于保存fseek函数的返回值 int FileEnd = 0; //整个文件的字节数 int FileLength = 0; //文件的数据长度。(注:每2个字节作为一个数据 ) short InputData[W]; //文件读写数据缓冲区 WAVHEADER FileHeader; //存文件头的结构体 void showWavHead(WAVHEADER Header) { printf("ChunkID: %c%c%c%ct", Header.ChunkID[0], Header.ChunkID[1], Header.ChunkID[2], Header.ChunkID[3]); printf("ChunkSize: %ut", Header.ChunkSize); printf("Format: %c%c%c%cn", Header.Format[0], Header.Format[1], Header.Format[2], Header.Format[3]); printf("FmtChunkID: %c%c%c%ct", Header.FmtChunkID[0], Header.FmtChunkID[1], Header.FmtChunkID[2], Header.FmtChunkID[3]); printf("FmtChunkSize: %ut", Header.FmtChunkSize); printf("AudioFormat: %dt", Header.AudioFormat); printf("NumChannels: %dt", Header.NumChannels); printf("SampleRate: %ut", Header.SampleRate); printf("ByteRate: %ut", Header.ByteRate); printf("BlockAlign: %dt", Header.BlockAlign); printf("BitsPerSample: %dn", Header.BitsPerSample); printf("DataChunkID: %c%c%c%ct", Header.DataChunkID[0], Header.DataChunkID[1], Header.DataChunkID[2], Header.DataChunkID[3]); printf("DataChunkSize: %un", Header.DataChunkSize); } int main() { FILE *Ifp, *txt; //定义文件读写指针 Ifp = fopen("456.wav", "rb"); txt = fopen("456.txt", "w"); fseek(Ifp, 0L, SEEK_END); FileEnd = ftell(Ifp); printf("total file size: %d bytes n", FileEnd); rewind(Ifp); // 读取文件头,并打印部分信息,wav格式的文件头一般是44个字节,后面是音频数据 fread(&FileHeader, 1, sizeof(WAVHEADER), Ifp); showWavHead(FileHeader); // 读取数据。这里的数据大小是2字节,按照实际格式改。while循环每次读写 W 个数据量,for循环写最后剩余的 FileLength = FileEnd / 2; while (FileLength >= W) { fread(InputData, sizeof(short), W, Ifp); for (int i = 0; i < W; i++) { fprintf(txt, "%dn", InputData[i]); } FileLength -= W; } fread(InputData, sizeof(short), FileLength, Ifp); for (int i = 0; i < FileLength; i++) { fprintf(txt, "%dn", InputData[i]); } char *buf; long filesize; filesize = ftell(Ifp);//ftell求文件指针相对于0的便宜字节数,就求出了文件字节数 buf = (char *)malloc(sizeof(char)*filesize);//开辟空间给缓存数组 fread(buf, 1, (filesize - 44), Ifp);//每次读一个字节到buf,同时求读的次数 return 0; }
WAV格式语音数据文件头数据中包含许多关键的语音文件信息如:
// 文档标识。 大写字符串"RIFF",标明该文件为有效的 RIFF 格式文档。
// 文件数据长度。 从下一个字段首地址开始到文件末尾的总字节数。该字段的数值加 8 为当前文件的实际长度。
// 文件格式类型。 所有 WAV 格式的文件此处为字符串"WAVE",标明该文件是 WAV 格式文件。
// 格式块标识。 小写字符串,"fmt "。
// 格式块长度。 其数值不确定,取决于编码格式。可以是 16、 18 、20、40 等。
// 编码格式代码。 常见的 WAV 文件使用 PCM 脉冲编码调制格式,该数值通常为 1。
// 声道个数。 单声道为 1,立体声或双声道为 2。
// 采样频率。 每个声道单位时间采样次数。常用的采样频率有11025,16000 , 22050 和 44100 Hz。
// 数据传输速率。 该数值为:声道数×采样频率×每样本的数据位数/8。播放软件利用此值可以估计缓冲区的大小。
// 数据块对齐单位。 采样帧大小。该数值为:声道数×位数/8。播放软件需要一次处理多个该值大小的字节数据,用该数值调整缓冲区。
// 采样位数。 存储每个采样值所用的二进制数位数。常见的位数有 4、8、12、16、24、32。
通过读取文件头数据信息,就可以得知语音文件数据的大多数格式信息,下一篇将介绍分段读取WAV语音文件中语音数据部分的实例。



