栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

《基于条件Wasserstein GAN的表格式数据过采样的不平衡学习》代码运行

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

《基于条件Wasserstein GAN的表格式数据过采样的不平衡学习》代码运行

标题:Conditional Wasserstein GAN-based Oversampling of Tabular Data for Imbalanced Learning
论文:链接
代码:链接
作者信息:

  • 贾斯汀-恩格尔曼

    • 柏林洪堡大学商业和经济学院
  • 斯蒂芬-莱斯曼

    • 柏林洪堡大学商业和经济学院

文章摘要(机翻修改):

类的不平衡是监督学习中常见的问题,阻碍了分类模型的预测性能。流行的分类策略包括对少数类进行过量采样,例如SMOTE这样依赖于寻找最近的邻和线性插值的标准方法,这在高维、复杂数据分布的情况下是有问题的。生成对抗网络(GANs)已经被提出来作为生成艺术性少数群体例子的替代方法,因为它们可以对复杂分布进行建模。然而,先前关于基于GAN的超采样研究并没有纳入最近关于用GAN生成现实表格数据的文献进展。以前的研究还集中在变量上,而分类特征在许多商业应用的分类方法中是很常见的,如信用评分。本文提出了一种基于条件Wasserstein GAN的超采样方法,该方法可以有效地对具有数字和分类变量的表格数据集进行建模,并通过辅助分类器损失对下游分类任务给予特别关注。我们在七个真实的数据集上将我们的方法与标准的过采样方法和不平衡基线进行比较。实证结果证明了基于GAN的超量采样的竞争力。

复现环境

anaconda - python3.7

requirements.txt

attrs19.3.0
backcall
0.1.0
bleach3.1.5
certifi
colorama
0.4.3
cycler0.10.0
decorator
4.4.2
defusedxml0.6.0
entrypoints
0.3
imbalanced-learn0.6.2
imblearn
ipykernel
5.2.1
ipython7.14.0
ipython-genutils
0.2.0
ipywidgets7.5.1
jedi
Jinja2
2.11.2
joblib0.14.1
jsonschema
3.2.0
jupyter
jupyter-client
jupyter-console
jupyter-core
kiwisolver1.2.0
MarkupSafe
1.1.1
matplotlib3.2.1
mistune
0.8.4
mkl-fft1.0.15
mkl_random
mkl-service
2.3.0
nbconvert5.6.1
nbformat
5.0.6
notebook6.0.3
numpy
1.18.4
olefile0.46
packaging
20.3
pandas1.0.3
pandocfilters
1.4.2
parso0.7.0
patsy
0.5.1
pickleshare0.7.5
Pillow
7.1.2
prometheus-client
prompt-toolkit3.0.5
Pygments
2.6.1
pyparsing2.4.7
pyrsistent
0.16.0
python-dateutil2.8.1
pytz
2020.1
pywin32227
pywinpty
0.5.7
pyzmq19.0.0
qtconsole
4.7.3
QtPy1.9.0
scikit-learn
0.22.2.post1
scipy1.4.1
seaborn
0.10.1
Send2Trash1.5.0
six
1.14.0
sklearn
statsmodels0.11.1
terminado
0.8.3
testpath0.4.4
torch
1.5.0
torchvision0.6.0
tornado
6.0.4
tqdm4.46.0
traitlets
4.3.3
wcwidth0.1.9
webencodings
0.5.1
widgetsnbextension3.5.1
wincertstore
0.2

环境搭建:

如果遇到安装失败的包
使用命令

pip install package

或者在anaconda官网上搜索相关的包进行安装

比较特殊的是mkl_fft==1.0.15

conda install -c intel mkl_fft==1.0.15

下载相关数据集,放置在Datasets/Raw各自目录下,将DataSets目录移动到Tutorial目录下,也可将Datasets目录标记为root。
直接打开ipynb文件运行即可

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/829282.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号