【论文分享】异质图恶意域名检测方法：HGDom: Heterogeneous Graph Convolutional Networks for Malicious Domain Detection

题目：HGDom: Heterogeneous Graph Convolutional Networks for Malicious Domain Detection
链接：https://ieeexplore.ieee.org/document/9110462
源码：-
会议：NOMS 2020
时间：2020-04
机构：清华大学
摘要：本文设计了一种基于异构图卷积网络方法的HGDom。首先，分析了域的特征以及域、客户端和IP地址之间的复杂关系，引入了一个异构信息网络(HIN)来建模DNS场景。然后，提出了一种新的表示方法MAGCN。它采用基于元路径的注意机制，可以同时处理HIN中的节点特征和图结构。
其他：这篇论文与deepdom：https://blog.csdn.net/qq_39328436/article/details/124124256 有很多相似的地方
目录
介绍
动机
贡献

方法
A. Data Collection
B. HIN Model Construction
C. Meta-path Generation
D. Proposed method: MAGCN
子图提取
注意力机制

实验
结论

介绍动机

域名的字符分布、客户端的查询行为、攻击者的资源聚合都可以被用来进行恶意域检测。为了综合考虑这三种直觉，HGDom利用一个HIN模型来表示客户端、域、IP地址以及它们之间的不同关系。

贡献

提出了一个恶意域检测系统HGDom。HGDom将DNS建模为HIN，采用异构GCN方法，充分利用DNS场景，准确发现恶意域。
设计了一种新的深度学习方法：MAGCN。它采用一种基于元路径的注意机制，可以联合处理HIN中的节点特征和结构信息。
实现了一个HGDom的原型，并通过对从TUNET和CERNET2收集的两个真实数据集进行广泛的实验，证明了我们提出的方法的有效性和优越性。

方法

A. Data Collection

为了获得更多反映网络实际情况的代表性信息，本文进行被动数据收集，主要利用三种数据:

DNS traffic：它具有src、rcode、TTL等多个字段，详细反映了客户端、解析器和高级DNS服务器之间的通信。
passive DNS (pDNS)数据集
DNS log：DNS服务器在日志中记录域查询，包括时间、域名、源IP等

B. HIN Model Construction

三种节点类型：

客户端
域名
ip地址

四种关系类型：

请求：客户端请求域名
映射：域名映射为ip地址
段：两个域名同属于一个网段
别名：域A是域B的cnam

对于域节点的特征，通过one-hot编码直接处理名称字符串来获取域名的字符分布

为了提高性能和效率，我们根据以下保守规则对HIN进行了图剪枝预处理。这些节点要么不太可能是恶意的，要么对信息传播几乎没有帮助。

Inactive clients：不活跃的用户
Large clients：客户端查询超过Kc%(例如，Kc = 90)的域大部分是转发器或代理，应该删除以减少噪音
Irregular domains：域名不符合名称规则(rfc1035)，只有一个客户端查询的域名会因为缺少有用信息而被删除。
Popular domains：超过Kq%(例如，Kq = 50)的客户端查询的域将被删除，因为它们被恶意攻击的风险非常低;否则，将导致IDS容易检测到的重大攻击事件。
Rare IPs：只映射到一个域的IP地址由于对标签传播没有帮助而被丢弃。

C. Meta-path Generation

PID1：一个域往往与它的CNAME域属于同一类别。
PID2：同一攻击者的受害者查询的恶意域集可能部分重叠，而良性客户端没有理由查询它们。
PID3：在一段时间内被解析为同一ip地址的域往往属于同一类别。
PID4：相邻的客户端容易受到同一攻击者的攻击。
PID5：攻击者由于资金限制倾向于重用他们的域或IP资源。

D. Proposed method: MAGCN

为了充分反映在DNS数据中的观察结果，本文提出了一种异构GCN方法：MAGCN，MAGCN包括两个阶段：

子图提取，将HIN转换为一组同构网络，在此我们可以进行卷积运算。
基于注意的聚合，支持通过聚合不同重要性的子图来学习最终表示。

子图提取

这个步骤就是deepDom与HGDom的不同之处，deepDom是根据元路径随机游走来选择需要聚合特征的邻居节点，而HGDom是先将异质图转化为同质图，再进行聚合。

根据上文提出来的五条元路径将异质图提取为同质图集合（因为有五条元路径，所以能提前出五个子图）。如下表所示，由原HIN中各元路径的交换矩阵C可以计算出各子图的领接矩阵A’i。

注意力机制

MAGCN采用注意机制将注意系数加入到MAGCN中，而不是平均每个子图产生的结果，我们聚合它们与自适应估计的权值，并得到：
H ( l + 1 ) = σ ( X ⋅ W 0 + ∑ i ∈ ∣ P ∣ f ( α i ) ⋅ A i ′ ⋅ H ( l ) ⋅ W P I D i ) H^{(l+1)}=sigmaleft(X cdot W_{0}+sum_{i in|P|} fleft(alpha_{i}right) cdot A_{i}^{prime} cdot H^{(l)} cdot W_{P I D_{i}}right) H(l+1)=σ⎝⎛X⋅W0+i∈∣P∣∑f(αi)⋅Ai′⋅H(l)⋅WPIDi⎠⎞

具体算法如下：

实验

结论

本文提出了恶意域检测系统HGDom，该系统从名称的特征分布、攻击者的资源聚集、客户端查询行为三个方面自然地将DNS场景建模为HIN，实现更丰富的信息融合。
我们提出MAGCN，并将其应用到HIN中，在考虑两个域的特征及其关联的情况下对域节点进行分类。MAGCN的是GCN模型的一个变体，它具有基于元路径的注意机制。
我们从TUNET和CERNET2采集DNS数据进行了充分的实验，证明了HGDom的准确性和优越性，其中MAGCN的性能优于目前最先进的网络嵌入方法，HGDom的检测性能优于现有的基于图挖掘的系统。
目前，HGDom只包含三个组件(客户端、域和IP地址)。在未来的工作中，我们计划添加其他类型的dns相关数据，如注册信息数据集WHOIS，以进行更全面的分析。
此外，我们还打算在未来提出更先进的数据挖掘方法，进一步提高HGDom的效率和可扩展性。

【论文分享】异质图恶意域名检测方法：HGDom: Heterogeneous Graph Convolutional Networks for Malicious Domain Detection

Linux相关栏目本月热门文章