标题:Conditional Wasserstein GAN-based Oversampling of Tabular Data for Imbalanced Learning
论文:链接
代码:链接
作者信息:
贾斯汀-恩格尔曼
- 柏林洪堡大学商业和经济学院
斯蒂芬-莱斯曼
- 柏林洪堡大学商业和经济学院
文章摘要(机翻修改):
类的不平衡是监督学习中常见的问题,阻碍了分类模型的预测性能。流行的分类策略包括对少数类进行过量采样,例如SMOTE这样依赖于寻找最近的邻和线性插值的标准方法,这在高维、复杂数据分布的情况下是有问题的。生成对抗网络(GANs)已经被提出来作为生成艺术性少数群体例子的替代方法,因为它们可以对复杂分布进行建模。然而,先前关于基于GAN的超采样研究并没有纳入最近关于用GAN生成现实表格数据的文献进展。以前的研究还集中在变量上,而分类特征在许多商业应用的分类方法中是很常见的,如信用评分。本文提出了一种基于条件Wasserstein GAN的超采样方法,该方法可以有效地对具有数字和分类变量的表格数据集进行建模,并通过辅助分类器损失对下游分类任务给予特别关注。我们在七个真实的数据集上将我们的方法与标准的过采样方法和不平衡基线进行比较。实证结果证明了基于GAN的超量采样的竞争力。
复现环境
anaconda - python3.7
requirements.txt
attrs19.3.0
backcall0.1.0
bleach3.1.5
certifi
colorama0.4.3
cycler0.10.0
decorator4.4.2
defusedxml0.6.0
entrypoints0.3
imbalanced-learn0.6.2
imblearn
ipykernel5.2.1
ipython7.14.0
ipython-genutils0.2.0
ipywidgets7.5.1
jedi
Jinja22.11.2
joblib0.14.1
jsonschema3.2.0
jupyter
jupyter-client
jupyter-console
jupyter-core
kiwisolver1.2.0
MarkupSafe1.1.1
matplotlib3.2.1
mistune0.8.4
mkl-fft1.0.15
mkl_random
mkl-service2.3.0
nbconvert5.6.1
nbformat5.0.6
notebook6.0.3
numpy1.18.4
olefile0.46
packaging20.3
pandas1.0.3
pandocfilters1.4.2
parso0.7.0
patsy0.5.1
pickleshare0.7.5
Pillow7.1.2
prometheus-client
prompt-toolkit3.0.5
Pygments2.6.1
pyparsing2.4.7
pyrsistent0.16.0
python-dateutil2.8.1
pytz2020.1
pywin32227
pywinpty0.5.7
pyzmq19.0.0
qtconsole4.7.3
QtPy1.9.0
scikit-learn0.22.2.post1
scipy1.4.1
seaborn0.10.1
Send2Trash1.5.0
six1.14.0
sklearn
statsmodels0.11.1
terminado0.8.3
testpath0.4.4
torch1.5.0
torchvision0.6.0
tornado6.0.4
tqdm4.46.0
traitlets4.3.3
wcwidth0.1.9
webencodings0.5.1
widgetsnbextension3.5.1
wincertstore0.2
环境搭建:
如果遇到安装失败的包
使用命令pip install package或者在anaconda官网上搜索相关的包进行安装
比较特殊的是mkl_fft==1.0.15
conda install -c intel mkl_fft==1.0.15
下载相关数据集,放置在Datasets/Raw各自目录下,将DataSets目录移动到Tutorial目录下,也可将Datasets目录标记为root。
直接打开ipynb文件运行即可



