栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

史上最详细LRW数据集、LRW-1000数据集、LRS2数据集、LRS3-TED数据集、OuluVS2数据集介绍及百度云下载链接

史上最详细LRW数据集、LRW-1000数据集、LRS2数据集、LRS3-TED数据集、OuluVS2数据集介绍及百度云下载链接

本文将介绍唇语识别领域使用最多的几个数据集。

一、本文将详细的介绍数据集的格式以及处理方法,欢迎在评论区或私信讨论,博主将持续更新。
二、本文提供的LRW、LRW-1000、LRS2,LRS3-TED数据集的百度云链接,将全部分区文件下载后拼接解压即可得到完整数据集。

文章目录
  • 0 分区文件拼接方法
  • 1 LRW
    • 1.1 LRW 下载链接
    • 1.2 数据集格式
    • 1.3 数据集处理
  • 2 LRW-1000
    • 2.1 LRW-1000下载链接
    • 2.2 数据集格式
  • 3 LRS2
    • 3.1 LRS2下载链接
    • 3.2 数据集格式
  • 4 LRS3-TED
    • 4.1 LRS3-TED下载链接
    • 4.2 数据集格式
  • 5 OuluVS2
    • 5.1 OuluVS2下载链接
    • 5.2 数据集格式
    • 5.3 数据集处理

0 分区文件拼接方法

针对数据集中的分区文件,LRW-1000,LRS2,LRS3等均可参考LRW数据集的解压方法。首先用cat命令拼接文件,之后用tar命令解压文件,即可得到完整数据集。linux直接使用即可,windows安装git bash再进行解压,可参考windows下Git BASH安装。进入分区文件所在的目录,使用此命令进行拼接(注意将名改为对应的数据集名)。
下图为官网关于LRW数据集解压方法的示例。

cat 数据集名前n-1个字母(最后一个用于排序) > 数据集名.tar
tar -xvf 数据集名
1 LRW 1.1 LRW 下载链接

LRW/
LRW/lrw-v1-partaa
LRW/lrw-v1-partab
LRW/lrw-v1-partac
LRW/lrw-v1-partad
LRW/lrw-v1-partae
LRW/lrw-v1-partaf
LRW/lrw-v1-partag

1.2 数据集格式

如图所示,格式为标准的分类任务数据集。
LRW/

LRW/EXAMPLE/

LRW/EXAMPLE/test/
LRW/EXAMPLE/test/EXAMPLE_00001.txt

1.3 数据集处理

LRW数据集经过人脸定位和预裁切,嘴唇区域位于视频正中心,一般会再次中心裁切出一个96×96的区域,转换为灰度图,npz存储或pkl存储均可。LRW提供每一个样本的属性,记录在对应的txt文件中,有用的是最后一行duration属性,可依据此推断出word boundary,可参考以下代码:

def load_duration(self, file):
    with open(file, 'r') as f:
        lines = f.readlines()
        for line in lines:
            if line.find('Duration') != -1:
                duration = float(line.split(' ')[1])

    tensor = np.zeros(29)
    mid = 29 / 2
    start = int(mid - duration / 2 * 25)
    end = int(mid + duration / 2 * 25)
    tensor[start:end] = 1.0
    return tensor
2 LRW-1000 2.1 LRW-1000下载链接

LRW-1000/
LRW-1000/info
LRW-1000/images/images.part.tar.00
LRW-1000/images/images.part.tar.01
LRW-1000/images/images.part.tar.02
LRW-1000/images/images.part.tar.03
LRW-1000/images/images.part.tar.04
LRW-1000/images/images.part.tar.05
LRW-1000/images/images.part.tar.06
LRW-1000/audio

2.2 数据集格式

LRW-1000/
LRW-1000/audio/

LRW-1000/image/

LRW-1000/image/0003529debd6745763c7b6dbfff9b4d3/

LRW-1000/Data_Annotation.txt

LRW-1000/info/

LRW-1000/info/length/

LRW-1000/info/length/tst_1000_length_easy.txt

LRW-1000/info/resolution/

LRW-1000/info/resolution/tst_1000_resolution_easy.txt

LRW-1000/info/yaw/

LRW-1000/info/yaw/tst_1000_yaw_easy.txt

LRW-1000/info/all_audio_video.txt

LRW-1000/info/tst_1000.txt

3 LRS2 3.1 LRS2下载链接

LRS2/
LRS2/lrs2_v1_partaa
LRS2/lrs2_v1_partab
LRS2/lrs2_v1_partac
LRS2/lrs2_v1_partad
LRS2/lrs2_v1_partae

3.2 数据集格式

LRS2/

LRS2/main/

LRS2/main/5535415699068794046/

LRS2/main/5535415699068794046/00001

LRS2/pretrain/

LRS2/pretrain/5535415699068794046/

LRS2/pretrain/5535415699068794046/00001

4 LRS3-TED 4.1 LRS3-TED下载链接

LRS3-TED/
lrs3_pretrain_partaa
lrs3_pretrain_partab
lrs3_pretrain_partac
lrs3_pretrain_partad
lrs3_pretrain_partae
lrs3_pretrain_partaf
lrs3_pretrain_partag
lrs3_test_v0.4.zip
lrs3_trainval.zip

4.2 数据集格式

参考LRS2数据集,train不提供单词的起止时间

5 OuluVS2 5.1 OuluVS2下载链接

OuluVS2/
OuluVS2/s1~10
OuluVS2/s11~20
OuluVS2/s21~30
OuluVS2/s31~40
OuluVS2/s41~50
OuluVS2/s51~53

5.2 数据集格式

按speaker分成52个压缩包
OuluVS2/

包含这个说话者的所有样本,s表示speaker,v表示view,u表示utter
OuluVS2/orig_orgs01/

5.3 数据集处理

后续更新OuluVS2数据集裁切和转换为LRW分类格式的python代码

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/308345.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号