栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

关于语音会议自动记录的大概设计思路

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

关于语音会议自动记录的大概设计思路

关于语音会议的大概设计草图如下:

根据流程图可以看出,我一共分了六个模块分别命名为:

A_preprocessor(预处理器):用来对音频进行预处理A_file_store(文件存储):用来管理录音的文件以及记录的文件A_recognizer(识别器):用来进行识别说话人是谁A_recorder(录音器):用来获取音频文件A_translator(翻译器):用来将录音转化为文字记录A_windows(窗口):与用户交互,对该系统进行各种命令操作

下面为每个模块主要使用的python第三方库

A_preprocessor(预处理器):librosa、waveA_file_store(文件存储):shutil、functoolsA_recognizer(识别器):tensorflowA_recorder(录音器):puaudioA_translator(翻译器):tensorflowA_windows(窗口):pyqt5

当然这些只不过是主要使用的,其中应该还有其他的工具类的第三方库需要使用,只不过现在还不清楚都需要哪些,由于技术有限,只有等到真正编码的时候才会知道

可以看出,这里最主要的两个模块就是识别器和翻译器,也是最难的,想要实现准确识别说话人并且可以将语音转化成文字这两个功能,对我来说还是比较困难的,单靠我自己一个人想,肯定是不行的,这里我主要参考了两位大佬的代码

第一个大佬是AI柠檬开发的基于深度学习的中文语音识别系统,参考这个应用到翻译器中我想应该不成问题。

第二个大佬是夜雨飘零开发的基于Tensorflow实现简单的声纹识别模型,参考这个应用到识别器中。

窗口模块已经使用Qt designer开发完成,主要效果如下

 目前的开发进程就是到这里了,还没有一个详细的开发流程,后面的打算就是先理解两位大佬的源码,然后结合他们的源码做出我自己的东西,这里再次感谢两位大佬的源码分享,万分感谢!

        这就是我目前的思路,如果有不对的或者不好的,欢迎各位大佬能够指点迷津。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/766874.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号