介绍 动机
- 题目:HGDom: Heterogeneous Graph Convolutional Networks for Malicious Domain Detection
- 链接:https://ieeexplore.ieee.org/document/9110462
- 源码:-
- 会议:NOMS 2020
- 时间:2020-04
- 机构:清华大学
- 摘要:本文设计了一种基于异构图卷积网络方法的HGDom。首先,分析了域的特征以及域、客户端和IP地址之间的复杂关系,引入了一个异构信息网络(HIN)来建模DNS场景。然后,提出了一种新的表示方法MAGCN。它采用基于元路径的注意机制,可以同时处理HIN中的节点特征和图结构。
- 其他:这篇论文与deepdom:https://blog.csdn.net/qq_39328436/article/details/124124256 有很多相似的地方
目录
- 介绍
- 动机
- 贡献
- 方法
- A. Data Collection
- B. HIN Model Construction
- C. Meta-path Generation
- D. Proposed method: MAGCN
- 子图提取
- 注意力机制
- 实验
- 结论
- 域名的字符分布、客户端的查询行为、攻击者的资源聚合都可以被用来进行恶意域检测。为了综合考虑这三种直觉,HGDom利用一个HIN模型来表示客户端、域、IP地址以及它们之间的不同关系。
- 提出了一个恶意域检测系统HGDom。HGDom将DNS建模为HIN,采用异构GCN方法,充分利用DNS场景,准确发现恶意域。
- 设计了一种新的深度学习方法:MAGCN。它采用一种基于元路径的注意机制,可以联合处理HIN中的节点特征和结构信息。
- 实现了一个HGDom的原型,并通过对从TUNET和CERNET2收集的两个真实数据集进行广泛的实验,证明了我们提出的方法的有效性和优越性。
为了获得更多反映网络实际情况的代表性信息,本文进行被动数据收集,主要利用三种数据:
- DNS traffic: 它具有src、rcode、TTL等多个字段,详细反映了客户端、解析器和高级DNS服务器之间的通信。
- passive DNS (pDNS)数据集
- DNS log:DNS服务器在日志中记录域查询,包括时间、域名、源IP等
三种节点类型:
- 客户端
- 域名
- ip地址
四种关系类型:
- 请求:客户端请求域名
- 映射:域名映射为ip地址
- 段:两个域名同属于一个网段
- 别名:域A是域B的cnam
对于域节点的特征,通过one-hot编码直接处理名称字符串来获取域名的字符分布
为了提高性能和效率,我们根据以下保守规则对HIN进行了图剪枝预处理。这些节点要么不太可能是恶意的,要么对信息传播几乎没有帮助。
- Inactive clients:不活跃的用户
- Large clients:客户端查询超过Kc%(例如,Kc = 90)的域大部分是转发器或代理,应该删除以减少噪音
- Irregular domains:域名不符合名称规则(rfc1035),只有一个客户端查询的域名会因为缺少有用信息而被删除。
- Popular domains:超过Kq%(例如,Kq = 50)的客户端查询的域将被删除,因为它们被恶意攻击的风险非常低;否则,将导致IDS容易检测到的重大攻击事件。
- Rare IPs:只映射到一个域的IP地址由于对标签传播没有帮助而被丢弃。
- PID1:一个域往往与它的CNAME域属于同一类别。
- PID2:同一攻击者的受害者查询的恶意域集可能部分重叠,而良性客户端没有理由查询它们。
- PID3:在一段时间内被解析为同一ip地址的域往往属于同一类别。
- PID4:相邻的客户端容易受到同一攻击者的攻击。
- PID5:攻击者由于资金限制倾向于重用他们的域或IP资源。
为了充分反映在DNS数据中的观察结果,本文提出了一种异构GCN方法:MAGCN,MAGCN包括两个阶段:
- 子图提取,将HIN转换为一组同构网络,在此我们可以进行卷积运算。
- 基于注意的聚合,支持通过聚合不同重要性的子图来学习最终表示。
这个步骤就是deepDom与HGDom的不同之处,deepDom是根据元路径随机游走来选择需要聚合特征的邻居节点,而HGDom是先将异质图转化为同质图,再进行聚合。
- 根据上文提出来的五条元路径将异质图提取为同质图集合(因为有五条元路径,所以能提前出五个子图)。如下表所示,由原HIN中各元路径的交换矩阵C可以计算出各子图的领接矩阵A’i。
MAGCN采用注意机制将注意系数加入到MAGCN中,而不是平均每个子图产生的结果,我们聚合它们与自适应估计的权值,并得到:
H
(
l
+
1
)
=
σ
(
X
⋅
W
0
+
∑
i
∈
∣
P
∣
f
(
α
i
)
⋅
A
i
′
⋅
H
(
l
)
⋅
W
P
I
D
i
)
H^{(l+1)}=sigmaleft(X cdot W_{0}+sum_{i in|P|} fleft(alpha_{i}right) cdot A_{i}^{prime} cdot H^{(l)} cdot W_{P I D_{i}}right)
H(l+1)=σ⎝⎛X⋅W0+i∈∣P∣∑f(αi)⋅Ai′⋅H(l)⋅WPIDi⎠⎞
具体算法如下:
- 本文提出了恶意域检测系统HGDom,该系统从名称的特征分布、攻击者的资源聚集、客户端查询行为三个方面自然地将DNS场景建模为HIN,实现更丰富的信息融合。
- 我们提出MAGCN,并将其应用到HIN中,在考虑两个域的特征及其关联的情况下对域节点进行分类。MAGCN的是GCN模型的一个变体,它具有基于元路径的注意机制。
- 我们从TUNET和CERNET2采集DNS数据进行了充分的实验,证明了HGDom的准确性和优越性,其中MAGCN的性能优于目前最先进的网络嵌入方法,HGDom的检测性能优于现有的基于图挖掘的系统。
- 目前,HGDom只包含三个组件(客户端、域和IP地址)。在未来的工作中,我们计划添加其他类型的dns相关数据,如注册信息数据集WHOIS,以进行更全面的分析。
- 此外,我们还打算在未来提出更先进的数据挖掘方法,进一步提高HGDom的效率和可扩展性。



