舒怡 毛国庆
基金项目:2018年度国家重点研发计划项目“智慧法院综合示范及效能评价”(项目批准号:2018YFC0831600)的阶段性成果;课题名称:“智慧法院总体设计、一体化应用平台构建及综合示范”的阶段性成果(课题编号:2018YFC 0831606)。
新基建中,知识驱动是智能升级的核心,在建设体系设计中具有重要作用。在新基建背景下,结合司法改革和法院信息化建设的需求,知识也将成为智慧法院建设从信息化向智能化转型的核心驱动[1]。
本文将回答什么是智慧法院的知识体系,如何构建智慧法院知识体系等关键问题。一、“智慧法院”知识体系的概念、内涵和表现方式
智慧法院知识体系是指,可以与技术支持系统结合的知识处理架构和规范,用于对法院决策、管理、办案、执行、研究、党建等信息化系统内的知识流进行处理,以实现上述信息化系统的优化或系统内数据价值的提升[2]。知识体系构建需考虑到法院业务的专业属性,司法流程的实用属性,数据处理的规范属性,以及提升法院工作质效的社会属性[3]。知识体系不是一个树状结构的框架,知识体系中各知识节点之间根据不同的业务场景标签进行动态的、网状的联系。
知识体系与知识门户存在区别。知识门户是一种知识的展现形式,知识体系是知识门户及知识应用系统内在的知识处理框架和逻辑[4]。
知识体系与知识服务存在区别。知识服务是一系列知识应用系统或功能模块的统称。包括有知识库文档管理、知识检索、知识地图、知识推荐、知识问答、知识可视化、知识评价和基于知识系统应用的使用者知识应用行为分析。而知识体系是指为涵盖上述系统和功能模块内知识流而构建的一个整体知识框架,以及基于该框架的,对于知识流数据的定义规范、融合规范、关联规范[5]。
知识体系与知识处理流程存在区别。知识处理流程是指在知识体系指导下借助各种知识处理工具的操作流程。一般的知识的处理流程包括体系构建、知识标准化、知识编辑、知识抽取、知识验证和知识管理;知识处理需要在知识体系框架下进行,需要考虑到基于大数据挖掘的概率模型和基于专家知识的强规则模型互相之间的渗透和融合,在标准化、编辑、抽取、验证和调用管理的各个环节预留模型对应和模型比照的空间[6]。这个对应与比照是知识体系进行规范的内容。
知识体系与知识辅助系统存在区别。知识辅助系统是指用知识流数据优化现有流程系统或者管理系统的信息化建设的统称。有的知识辅助系统,因为缺乏顶层设计,并不存在知识体系的指引,因此不同主体提供的同一功能的知识辅助系统会给出不同的统计结果或者政策建议。最为诟病比如类案推送系统。由于没有对于类案的准确定义,各家信息化建设厂商提供的类案推荐策略不同,导致推荐结果差异较大。当然不同审级、不同地域甚至不同法官有可能对于类案标准给出不同的主观判断,在没有类案统一标准的情况下,知识辅助系统应当在知识体系的标准框架下,披露自己的知识推荐策略,并允许使用者进行个性化修改。
知识体系与数据管理架构的区别。知识体系和数据管理架构其实是两个存在并集的集合。有一些数据,本身是知识流的一部分,在数据管理框架和知识体系框架中都有自己的结构位置、属性和规范标准[7]。
目前,有的单位在进行梳理时,将知识体系框架限定在数据管理框架之外,这里就割裂了知识与数据之间的天然的联系,导致在应用层功能模块对接上出现问题。
一般来说,基于数据管理框架中的数据结构再进行知识体系的梳理,是一个较好的办法。但往往在数据中台建设项目中,一般数据和知识数据被人为的进行团队切割,且要求的项目工时相同,导致很多的架构中数据和知识服务内容交杂混乱,不能做统一界定。二、构建“智慧法院”的司法知识体系的方法
(一)知识分类梳理
按照传统知识工程的方法,可以按照知识类型作为梳理知识体系的入口。比如我们按照规则、规律、推理三种知识类型对司法知识体系进行分类。规则主要指司法知识主要涉及办案相关的法律、法规、规章制度及业务规范。规律主要指基于数据统计分析的趋势、特点。而推理这里主要指根据数据结合经验形成的算法模型。
知识分类梳理法架构下的人民法院司法知识体系,分别包括静态规则、动态规律以及知识推理几个部分。诉讼、庭审、判决、送达、公开、立案、执行以及管理属于静态规则;审判执行类、社会治理类、司法管理类属于动态规律;基础类、服务人民群众、服务审判执行以及服务司法管理即为知识推理。
根据知识类型进行分类,规则体系可以分为规则文档、范本文档两类,范本文档又可以根据范本的对象不同区别为内容范本和格式范本两类[8]。规律体系中主要根据横向对比或者纵向对比的不同需求,划分不同的指标体系,主要有趋势指标和分布指标的差异。推理模型则主要与智慧法院建设中的应用一一对应。
因此在上述知识体系的构建中规则的取值主要为文本。进行知识抽取时主要关注规则的效力时间、效力等级、规则颁布对象、规则适用对象、规则适用条件、规则的适用除外条件、规则的演化内容等。规律型知识主要是数值型的知识,需要明确规律指标的类目、名称、对应的计算方法或模型、计算时的取值对象(时长、地域、審级、业务范围)、业务逻辑、值字典等。最后的推理类知识应当有模型描述、计算逻辑、业务逻辑、训练数据、模型指标、模型测试用例等[9]。
知识分类梳理法具有涵盖范围广的特点,但由于与具体的应用场景距离较远,知识处理的粒度在后期需要根据调用需求和模型优化需求进行调优。
(二)知识标签梳理
我们也可以按照我们对于数据标签梳理的逻辑,将知识作为一类数据,进行知识标签梳理。通过设计合适的知识标签并将其挂载到知识标签类目。知识标签类目设计完成后,知识标签体系的框架就有了,然后通过将知识数据提炼转化为标签,并挂载到合适的标签类目下,进而完成整个知识体系的设计。知识标签设计对司法专业知识、知识抽象、知识提炼,司法业务场景的理解能力要求较高。知识标签的设计是专业知识与数据项目经验结合的结晶,是一个漫长的持续迭代的过程。知识标签的设计与数据标签的设计一样,标签的内容不仅包括名称,还要有归属类目、业务逻辑、调用、取值范围等。
知识标签梳理需要通过两步进行,第一步为知识数据的萃取,第二步为知识标签的构建。
知识数据的萃取是指按照知识主题和法院的事件流程对知识数据进行汇聚和准化。这一步过程中,首先要选取关键的知识域。司法知识域可以包括法律法规域、司法观点域、法律文书域、电子卷宗域、案例域、司法人员域、组织机构域等主题数据域,涵盖各司法业务、各诉讼阶段。其次要定义知识的粒度,知识粒度的定义一般以具有一定的业务含义为标准;再次,确定每一个知识粒度在业务场景应用中的描述角度[10]。
知识标签的构建目标是让知识变得可阅读、可调取、方便业务的使用,是方法论实施最核心的步骤。知识标签本质上是一种对知识的度量或描述,是经过缜密的逻辑分析和处理后的产物,用以引导发挥知识数据的应用价值。
知识标签的构建与数据标签的构建方法类似,但由于其分类的对象并不是客观事物,而是知识,有其自己的特点。
1.确定知识域内的标签体系对象。比如以“人” “物”“案(事)”为主对象,进行司法标签体类目设计。其中,人包括司法人员(法官/检察官等)、当事人(被告/原告/第三人等)和代理人(律师/法定代理人等);案按诉讼领域分为刑事案件、民事案件、行政案件,再按案由进行细分;物包括证据和涉案物品。司法知识体系内有一种比较特别的梳理对象是法律概念。法律概念要进行梳理可以应用:自顶向下法、自底向上法和综合法。一般可应用司法实践体系或者应用司法学术分类对概念间的层次结构关系进行搭建,梳理好相应的根节点,枝节点,树枝,叶节点。法律概念搭建好后,可以将属性值添加到结构中。属性可以根据不同的域进行多次定义。每一个域内的子树都可对应独立的、模块化的知识模型。
2.根据对象进行标签体系的建设,一般一种对象的标签搭建并不会影响另一种对象标签体系的建设。司法域内,人物标签除通用标签外,有一定的司法标签类别。我们可以对法律概念拆解,表征为行为标签(事实标签)、法律关系标签(或者构成要件标签)、法律结果标签(量刑标签、定罪标签)等,并映射到案情基本事实中,成为案件特征标签或案件中“人”的司法类标签,以盗窃罪为例,案件标签如下:故意伤害罪知识体系,主要包括定罪要素、量刑要素以及刑事裁判结果。在定罪方面,主要对犯罪对象、主体、手段以及故意几个方面进行考量。量刑要素主要是对法定量刑情节、酌定量刑情节、限制死刑、升级法定刑的事由或情节。刑事裁判结果,包括主刑、判决罪名、附加刑、免予刑事处罚、不负刑事责任情形、宣告无罪。
3.在梳理统计标签时,有时候原子指标和属性标签的定义会出现混淆或不完备的问题。标签对象分类法与数据仓库对接效果最好。“对象在业务过程事件中产生原子指标,原子指标与修饰词、计算方法可以组装出统计标签。”在项目建设过程中是否需要绝对定义原子指标,还是可以允许对原子指标进行增改需要根据项目的复杂程度和项目的需求变化频率进行具体分析。
(三)业务流程对应法
智慧法院司法办案主体业务包括诉讼服务、审判、执行、管理、4大类,立案、审理、结案、涉诉信访、执行、司法公开、司法管理等7个环节。其中,立案环节包括诉前保全、诉讼调解、收案、审查、立案、分案等业务活动;审理环节包括司法协助、庭前准备、开庭/听证、合议评议、审委会讨论、文书制作等业务活动;结案环节包括归档、案件移送、送达等业务活动;涉诉信访环节包括信访、审查等业务活动;执行环节包括执行查控与强制执行、执行管理等业务活动;司法公开环节包括审判流程公开、破产案件信息公开、庭审公开、文书公开、执行公开等业务活动;司法管理环节包括审判管理、人事管理、行政事务、司法研究、信息化管理等业务活动。如商业银行可以服务诉讼费支付;网上诉讼平台可以进行立案信息的查询等;利用网络进行案件要素智能提取分析;数字法庭也需要网络的应用才可以进行开庭审理等相关工作。司法查控部门负责进行财产查控工作;委托鉴定部门负责财产处置等相关工作。每一个部门都有自己所负责的相关工作,各个部门彼此之间相互协调、促进,这样才可以保障各项工作都有序展开。
这种做法在信息化建设中是比较能突出“成效”的,能够迅速找到知识服务的“应用场景”。但是由于业务部门职权责的不同,对接的业务部门或者直属领导对整体知识工程的认识不一致,这样的知识服务往往变形为支持单独应用,知识数据定制化发展。三、司法知识处理流程中的难点
(一)对于文本型的知识拆解和实践演绎的知识积累需要用不同的知识工程逻辑和工具进行处理
文本型知识来源于法律法规、司法文件等,首要进行知识的拆解。因此第一步应当确定知识拆解的域、对象和标签,确立好框架,其次进行标签标注,根据标注数据构建抽取模型。这一类的知识主要用于检索、预警和流程中的知识辅助。这一知识需要进行大数据的验证,包括抽取结果的代表性取样测评和知识抽取、数据标准的规范化。在知识验证和优化的过程中,针对特定知识应用场景的田野研究,应用系统指标采集和知识更新管理非常重要。而对于实践经验,我们获取的时候需要依靠大数据挖掘,从数据中總结专家难以积累为文本的知识。而这一类的知识在应用中特别要注意决策辅助的维度,也就是说应当能够向使用者明确决策推荐算法的数据集、模型逻辑和模型适用限定条件等。在知识验证的阶段,专家验证和基于知识验证模型的自动比对验证需要进行结合。自动比对的知识验证模型我们一般以偏离模型最大值作为对专家验证的输出值。
(二)法学知识抽取要依赖有监督的学习和专家经验进行验证
无监督的学习和迁移学习的效果都有一定的局限性。但是在有监督的学习过程中,如前所述,法学知识的应用有一定的主观性,不同的专家给出的经验具有个性化,同时存在知识偏见,因此在有监督的学习时,不同的专家在训练数据的标注时就存在知识定义模糊甚至定义冲突的情况,导致学习的困难。这样的模糊和冲突会使得系统建设者期待在系统使用过程中,收集用户使用数据,优化知识抽取效果的期待落空。经过培训的数据处理人员,按照特定专家的指导对训练数据进行清洗和标注目前是较好的办法。
(三)知识图谱作为底层知识表达,知识融合成本非常高
知识图谱最初定义为用于增强其搜索引擎功能的知识库由Google提出。知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。目前知识图谱被越来越多的作为知识内核被应用在信息化系统底层。但是在建设过程中,领域图谱的知识融合成本非常高。一般来说,通过知识抽取可以得到原始的知识资源,但由于知识来源广泛、质量难以判定,其中可能包含大量的模糊、歧义、冗余甚至错误信息,所以必须对原始数据进行清洗和融合。知识融合是对知识组织方式的更高抽象,所设计的技术主要有实体消歧、共值消解,多元数据合并等。
知识融合中有三个重要的建设包括:
第一,知识融合组件搭建。
第二,schema规约机制确立。
第三,冲突检测的自动化。
在法学专业领域,深入理解行业逻辑,梳理领域专业术语,明确各专业术语之间的界限和区隔是融合的关键。知识融合组件的搭建、schema规约机制确立和冲突检测的方法都需要深度的理解业务规则和知识图谱服务的业务流程。
上述三方面建设中,要求有司法专业的人员投入,有效的进行各类知识节点的界说、定义、范例、反例,特别在一些学说界定不明或者有界定争议的知识界节点上,需要以通说或者有利于数据实现的方法进行“再定义”。另一方面,技术人员对专业人员知识边界梳理结果的再学习和再编辑,在这个过程中,代码的模块化开发,实时的动态流程监测能够有效的避免谬误、降低成本。参考文献:
[1] 杨临萍.司法体制改革与智慧法院的实践与探索[M].法律出版社,2019.
[2] 吕艳滨.人民法院信息化3.0版建设应用评估报告以山东法院为视角[M].中国社会科学出版社,2017.
[3] 王昊奋,漆桂林,陈华钧.知识图谱:方法、实践与应用[M].电子工业出版社,2019.
[4] 赵军.知识图谱[M].高等教育出版社,2018.
[5] 曾鲲.大数据时代如何构建智慧法院——以1059名法官的访谈实录为样本[J].东南司法评论,2019(9).
[6] 黄晓云.智慧法院:以现代科技应用助推司法改革[J].中国审判,2017.
[7] 高晓桐.關于智慧法院建设现状的思考[J].法制博览,2019(8).
[8] 高学强.人工智能时代的中国司法[J].浙江大学学报(人文社会科学版),2019(7).
[9] 马灿.面向“智慧法院”的知识图谱构建方法与研究[J].贵州大学硕士论文 2019.
[10] 秦永彬,冯丽,陈艳平,黄瑞章,刘于雷.“智慧法院”数据融合分析与集成应用[J].大数据,2019(5).



