- 风控领域相关技术及引擎构建能力
- 风控系统核心手段
- 电商风控1.0
- 项目从零怎么做?
- 风控1.0的痛点
- 风控1.0plus
- 基于规则的架构
- 风控的关键技术
- 开源规则引擎
- 自研规则引擎
- 风控的整体架构演进
- holad住一个方向
- 电商风控中台关键算法
- ugc反作弊杀器
- ugc场景敏感词识别
- 敏感词匹配架构设计
- 敏感词匹配高扩展
- 敏感词匹配高性能
- 敏感词匹配实践
- 行为反作弊场景频率计数
什么是风控系统
风控系统:风险控制系统,是在传统互联网反作弊基础上更高级的一个领域
- 业务场景
(1)ugc内容分库场景
(2)电商欺诈场景
(3)行为反作弊场景
(4)信用等级场景 - 业务性质属性
(1)对抗性
黑产/灰产
(2)智能性
数据太多
定义一套所有用户都必须遵守的规则,并不断的优化和改进
(一)核心能力
规则引擎
流程引擎
(二)风控系统的特点
(1)人工干预最简单管用
(2)架构设计平衡机器和人工审核
(3)技术作为效率工具不断迭代
(4)释放人力
(三)风控迭代核心指标
(1)精准率
(2)召回率
公司0-1阶段,为了应对运营活动的,设立反作弊模块用于提供基础的反作弊判断能力
(一)风控1.0背景
(1)需求场景简单
(2)风控规则简单
(3)实现方案多样
(4)人力紧缺
(1)实现功能第一
(2)适度超前设计
需求:
(1)对留言进行黑白名单检验
(2)对留言文本的敏感词进行校验
技术超前设计
- 规则模块化/可插拔设计
(1)按模块化设计反作弊逻辑
(2)使用list进行策略组合,通过写死循环执行 - 基于配置可调整设计
(1)本地配置
(2)协议定义
(3)协议解析
配置化的优缺点:配置生效,协议规范化,可读性
(1)修改频繁
文件配置太复杂,不利于修改
(2)业务代码繁多
重复代码变得更多,可插拔难用
(3)上线次数变多
出错概率越来越大
配置能力优化,配置的核心是对于规则的定义,重构的目标是用业务思维改为规则思维
(1)规则思维
规则是可以明确定义的
明确定义后可以机器自动执行,规模化的
(2)规则定义
特征+操作逻辑+阈值
特征:留言行为3分钟留言次数
操作逻辑:比阈值大(大于)
阈值:10
(3)策略是规则的叠加
完整的策略包含规则和动作
(1)数据接入
上下文context设计
数据共享,入参传递or threadlocal
(2)策略引擎
数据协议的存储
(3)结果处理
每条策略会有一个处理结果
对外触发 & 对内设计
结果分类
结果优先级
技术路线
(1)自研
(2)开源
(1)drools
活跃的社区支持
java生态
快速执行速度
(2)drools是业务逻辑集成平台
业务规则管理系统
规则引擎,drools的核心部分
工作流引擎
事件处理
(3)优点
将业务规则则转化成执行树
(4)缺点
对规则定义处理一般
(1)反射
规则核心明确
目标是释放rd人力
(2)aviactor
一个高性能,轻量级的java语言实现的表达式请求值引擎
直接将表达式编译成java字节码,交给jvm去执行
(3)选型依据
升级更平滑
效率更高,代码可控性高
架构是对技术的包装,将不同的能力组合成高效系统的过程
(1)迭代之路
- all in one
优点:块,简单
缺点:不适合业务发展1-10阶段,业务范围越来越大,多人的并发开发 - 微服务
(1)根据优先级拆分
核心模块优先级不一样
(2)通用逻辑
数据接入层(分库分表,new)
(3)核心划分
在线模块
离线模块
管理模块 - 微服务拆分实践
(1)功能迁移
代码迁移
灰度迁移
历史代码删除
(2)异步拆分方案
异步rpc
mq
技术的精进,不断迭代的意识,对效果的评估
(1)风控的行业总结
三个阶段
二个指标
一个核心
(一)文本匹配
(1)jdk自带的contains方法
(2)kmp算法
多个目标匹配呢更快嘛
trie树+kmp算法
{ash,shex,bcd,sha}
- 失败指针
(1)指向他父亲节点fail指向的那个节点具有相同的字母的字节点
(2)否则指向根节点
用户自发内容避免涉黄涉政等敏感信息,需要对作弊信息进行拦截
需求分析:
(1)识别敏感词能力
(2)支持词库配置
(3)支持词库白名单
(4)支持单词和多词组合识别能力
业务分析
(1)高qps
(2)词库数据量ok
(3)高扩展能力
(一)服务分析实践
(1)高性能
算法设计
缓存设计
(2)高扩张
数据存储协议设计
词库匹配业务设计
(二)核心流程
(1)构建ac自动机
(2)算法匹配
(3)多词反查数据库
进一步缓存
数据协议设计
(1)按场景构建op_type
(2)多词分类设计cate_id
(3)不同等级类别type
对应不同的处罚
缓存设计
(1)进程内缓存
(2)存在问题?
数据量级别
一致性问题
(1)ac自动匹配逻辑处理
(2)多词匹配
通过机器或者人为产生的恶意异常行为,通常在频率上区别与正常人



