以算法为代表的新兴科技赋能司法领域方兴未艾,各地方司法机关与科技企业合作,建立了广泛的算法应用场景。在刑事证据法场景下,算法侵入证据本体,以不同的作用方式生成了衍生的数据产品即大数据证据。虽然算法已经进入事实认定领域,但对算法的规制却处于缺位状态。算法在不同的场景下面临不同的价值衡量,因此对算法的规制应具有场景性。在证据应用场景下,案件产生的海量电子数据需要算法将其结构化才能显示证据信息,算法实际上是证据信息解读的自动化工具。由于算法缺少法律规制,其对事实的准确认定产生风险。鉴此,应制定算法标准,并建立大数据证据的排除规则,形成符合规制价值目标的制度体系。

  
 一、算法在证据法学中的属性定位
  
  算法由于场景的变化而具有不同的属性,面临不同的价值冲突。基于此,算法规制也需要采取场景化的规制路径。在证据法视野下,算法在分析案件产生的海量电子数据以及同一认定场域发挥不可替代的作用。随着算法侵入证据本体,产生了不同的算法衍生数据产品,即大数据证据,证据法需要对算法的证据应用予以回应,在证据法框架下对算法进行规制。既然承认证据法能够介入算法,那么关键的问题是算法在证据法中是什么?这个问题的答案决定了证据法介入算法的方式和标准。
  
  科技的进步,经常在事实上创造出一个新的领域,但是将其“转译为法律事项”之后,可能仍然是法律老生常谈的法律解释问题。而转译工作的成败,不仅依赖于对证据法相关概念的性质判断,更重要的是算法的属性定位。在搜索引擎应用场景下,2003年美国搜索王诉谷歌案(SearchKing,Inc. v. GoogleTech.),“算法是言论”的主张得到法庭支持。在该场景下,言论自由成为在法庭上对抗算法规制的利器。在刑事司法人身风险评估场景下,2013年美国的威斯康辛州诉卢米斯案(State v. Loomis),法官将量刑的COMPAS算法视为商业秘密。在该案的法官看来,商业秘密的价值位阶高于被告人正当程序权利的价值位阶,基于此,算法被视为商业秘密获得了与言论一样的对抗算法规制的保护效果。可见,算法的“转译”对算法规制具有方法论的框架意义。因此,证据法对算法的规制,也意味着需要将算法“转译”成证据法上的问题。质言之,在证据法场景下讨论算法的规制,要将算法纳入到传统证据法学框架下某个概念中。
  
  (一)实践维度下算法在证据中的作用方式
  
  算法不是一个法律概念,其主要应用于数学和计算机领域。一般是指解决某一特定问题有限且明确的操作步骤。在证据应用场景下,经算法分析输出的结构化数据,在刑事诉讼中被称为大数据证据。在美国,经过算法分析产生的证据被称为新一代机器证据(Machine Evidence),在欧洲有学者称其为算法证据(Algorithmic Evidence)。
  
  根据算法作用方式的不同,算法应用在刑事证据中而产生的大数据证据分为基于海量数据库比对证据和基于算法模型证据两种类型。基于海量数据库比对证据,是指通过算法分析将检材数据化,并与数据库中的样本进行比对,输出相似度结论,以实现同一认定。支撑此类大数据证据的理论是物证技术学领域的同一认定理论。在物证技术领域中,同一认定是通过对先后出现的客体留下的特征反映体进行检验,解决先后出现的客体是否同一的一种辨别方法。换言之,传统通过鉴定形式进行同一认定的机制已经被算法取代。简单的同一认定如轨迹信息,利用有关个人的身份证号或姓名在数据库中进行检索。复杂的同一认定如DNA比对,算法将DNA中具有辨识性的信息片段进行算法处理,转换为二进制信息,再与数据库中存储的DNA信息进行比对并输出相似度结论。指纹比对、人脸比对等都属于该类大数据证据。
  
  基于算法模型证据处理的是多主体之间的数据关系,因为数据关系纷繁芜杂,需要涉及一个“模板”对数据关系进行梳理,模型算法就是数据关系的“模板”,算法模型预设了案件数据关系。例如经济犯罪案件中的资金数据分析,需要根据案件类型设计不同的资金数据关系算法模型。海量的数据之所以能够呈现出“规律”,是因为在分析数据前人为地选定了分析数据的方法,也就预先设定了输出的数据结构化关系结果。事实上,任何大数据分析的算法模型必须以假设即理论为前提。美国的犯罪预测软件PredPol使用地震预测模型来预测犯罪。地震预测模型的理论是地震或犯罪可能是“背景事件”,也可能是另一次地震或犯罪在空间和时间上的余震或近似重复。由此观之,在处理数据之前已经预设了输出数据的抽象结构,并将理论上的抽象数据结构浓缩在算法模型中。模型算法是数据分析的工具,是原始电子数据转化为大数据证据的关键。
  
  由此可见,与机器学习算法所具有的自主性相比,证据应用场景下的算法更多地提现为一种自动化处理数据的工具。其尚不具备自主决策的属性,内部的规则依然按照设计者所设定的处理规则,在设计者的干预与纠正之下进行模型的优化与修正。
  
  (二)算法与证据方法:它们在何种意义上相关?
  
  基于算法在证据领域的作用方式,可以说,算法在人类设定的目标范围内,起到了替代人类的作用。在基于海量数据库比对证据中,利用同一认定原理建立比对特征模型,在很大程度上是由机器算法给出实质判断——不同于以往专家借助仪器设备做出判断,取代了传统的鉴定形式;在基于算法模型的大数据证据中,利用危害行为所映射的资金数据规律建立资金数据模型。总体来看,不论是基于海量数据库比对证据还是基于算法模型证据,算法不可避免地要做出判断,包括什么信息(或哪类信息)应被纳入输出的结果,算法的输出结果本质上更接近对信息的重新汇聚和排列。可见,算法在证据应用场景下是一种方法论意义上的工具。在我国证据法中,对于证据的分类采取列举式。但法律并没有明确证据的分类标准。电子数据、视听资料、物证是以证据的载体为标准,而鉴定意见、证人证言、被告人供述和辩解等是以提供证据的主体为标准,笔录类证据是以证据制作的主体为标准。分类标准在逻辑层次上是交叉重叠关系,易导致证据种类之间的冲突。除此之外,列举式的封闭结构也难以容纳科技发展下的新型证据类型。
  
  于是,关键的问题是,算法作为一种工具在证据法中可以被进一步转译为什么内容。目前,学界对大数据证据属于何种证据种类观点颇多,局限于证据种类的讨论并不利于对新型的证据进行深入分析,而是应当以实践为导向,具体地分析算法在证据中的作用。从证据的构成上看,证据信息依托于一定的载体,也就是说,证据应当由载体和信息两个层次组成。信息层使证据与待证事实相关联,通过解读信息层,才能感知到证据所传达的信息。当信息层与载体层趋于同一时,那么此证据为物证。因为物证是以其自身的物质属性来传递证据信息。当然,信息层并非都为人们所直接感知。例如指纹证据,需要鉴定来进行加工以完成信息的展示。与鉴定不同,算法是一种人造技术,算法是为了完成特定步骤的有限程序,这就决定了算法如何完成输入到输出的任务,由人类规定。具体到大数据证据,海量的电子数据所蕴含的信息无法直接显现,必须将其排列、组合之后,结构化的电子数据才能显示证据信息。因此,算法在其中体现为代替人类自动化处理电子数据的工具。
  
  二、算法侵入证据本体对事实认定的风险
  
  算法运行流程可简要描述为:隐含层(算法模型)→输入层(案件数据)→输出层(大数据证据),也就是说,算法应用到证据中存在三个重要阶段。从横向维度上看,隐含层要完成算法模型的构建,实现从逻辑到代码的转变。算法模型为对某一事物或某一系统内部各要素及其相互关系,用于描述事物或系统的基本结构。在刑事证据领域,算法模型的构建需要提取危害行为映射在数据世界所产生的数据关系特征,将这些数据关系特征进行组合。数据关系特征组合的价值在于类型性,能够证明特定类型的犯罪构成行为。作为构建模型底层逻辑的算法,其风险不能忽视。
  
  一是证据应用场景化的算法标准尚未建立。算法在不同的语境中有特定的价值选择,在刑事证据领域中,要求算法具有精确性。那么哪些算法能够准确地分析案件数据?是朴素贝叶斯分类器还是支持向量机?换言之,算法作为一种手段,其包含众多的种类,而种类众多的算法并没有与人类设定的目的建立对应关系。而对于相同的数据信息、相同的技术条件,不同的算法工程师设计的算法输出结果可能完全不同。也正基于此,算法和程序技术的先驱者高德纳(David E.Knuth)教授曾说过:“不成熟的优化是所有罪恶(或至少是大部分罪恶)的根源。”这里所谓的不成熟,指的就是场景化算法标准尚未建立。在刑事证据领域,与大数据所具有的低价值密度特征不同,案件所产生的每一条数据都可能蕴含定罪量刑的价值。因此,算法技术的精准度影响事实认定的正确与否。
  
  二是主观价值嵌入算法底层逻辑的风险。算法并非如“技术中立论”所宣称的那样,完全价值无涉。作为一种数学表达,算法在设计阶段可能通过特征选择、损失函数选择等方式夹带算法设计者的主观价值判断,这种价值判断嵌入到算法的底层逻辑之中,使其输出的结果也带有某种主观价值倾向,本质上是“以数学方式或者计算机代码表达的意见”。如传销犯罪的资金数据关系特征的选择,哪些数据关系特征是犯罪构成中的危害行为所映射的,数据关系特征组合是否能够证明类型性危害行为。这些数据关系特征的选择与代码实现都带有某种价值倾向。算法模型构建依赖特征选择,如果特征选择出现偏差,就会出现“垃圾模型,垃圾输出”的结果。目前实践中算法在证据场景中应用大多依靠“警企合作”模式,即侦查机关委托科技公司根据其需求进行算法分析的模型研发。仅仅按照侦查机关的需求来构建算法模型,缺乏法院参与下的多方论证,导致算法模型存在低质的隐忧。
  
  三是算法的稳定性风险。算法的稳定性在于可验证性和可重复性,即相同的输入,其输出的结果是一定的。事实上,可将算法分为两种:一种是人类设计与定义分析数据的模型即规则模型算法;另一种是由算法自主学习生成模型即机器学习模型算法,两种算法的属性截然不同。对于前者,算法工程师指定运算模式。对于后者,为了保证机器学习产生的模型的精准度,其运算的函数关系并不是固定清晰的规则,而是因不断学习而变动。质言之,在机器学习算法中,特征参数之间的关系或者有哪些特征参数都是不固定的,是由算法自主地利用统计学计算学习而生成的。实际上,机器学习算法把特征参数之间的关系问题“降格”为计算问题。机器学习算法也是学界主要争议的算法黑箱所产生的原因。具体来看,在刑事证据领域中,特征参数之间的关系是犯罪构成中危害行为映射在数据世界而产生的,这种数据关系是危害行为在数据世界留下的数据痕迹,将这些数据痕迹结构化之后形成的大数据证据可以证明类型性危害行为。而机器学习算法机器输出结果不稳定,其无法证明既定的数据关系。
  
  三、算法规制的制度工具
  
  证据是准确认定事实的基石,在算法侵入证据本体,并对准确认定事实有实质危险时,对算法进行规制是应有之义。单独讨论算法规制问题,暗含的前提是算法与传统科技不同。如上文所述,算法是一种人造技术。这种人造技术特性使得算法天生地带有价值倾向,算法设计者可以依据不同的目的设计算法。例如外卖平台算法,其目的是外卖送达的效率。因此,外卖小哥为了满足算法设定的时间标准被困在算法中。同样的,在证据应用中,不同的目的会设计出不同的算法,证据信息显示的内容也就不同。因此,将算法本身作为法律规制的对象成为理论上的共识。此外,立足于证据法,对算法应用所产生的大数据证据建立证据排除规则,是反向规制算法的有效方案。
  
  一是建立算法标准。输入的数据(因)经过算法输出(果),算法是因果关系的机制。刑事司法中实体事实的证明遵循严格证明法则,在严格证明下,必然要打破算法黑箱,使法官了解算法的运行机理与基本逻辑结构。随着算法在证据领域应用逐渐成熟,一定程度的算法标准可能成型。在算法模型层面,需要明确具体使用了哪些假设或限制,使用了哪些模型和建模工具,以及输出结果的准确度基准,错误分析及补救措施等标准。如此,才能建立可理解、可靠和可控的可信算法。目前,我国公安部经济犯罪侦查局已经在公安内部云中上传了经济犯罪的算法模型标准,但是尚未上升到规范层次。
  
  二是建立算法生成证据的排除制度。基于目前证据应用场景下的算法是由侦查机关与科技企业合作设计,算法必然隐含着侦查机关本身的价值判断。而为了防止侦查机关凭借算法技术成为诉讼关系的中心,应当赋予法官对算法生成证据的排除权力。此外,证据排除制度仍然是规制取证行为最有效的制度,能够有效地保证侦查机关所运用算法的可靠性。
  
 四、结语
  
  证据制度与科学技术的发展存在着同频同振的关系。从神示证据制度到大数据证据,人类对事实的还原能力不断提高。随着不同场景的决策与行为让渡给算法,我们进入“算法统治的时代”,技术的进步和法律难以跟上的步伐,新的问题不可避免地出现。技术不是脱离现实应用的乌托邦,科技的应用离不开法律的监管。算法在证据场景的应用所可能导致对事实认定的风险,可能会对刑事诉讼的公平、程序正义等核心价值产生巨大的冲击。而算法并不具有预设的被信任度,只有将算法转译为证据法学的概念,在法律框架下对算法予以规制,算法生成的证据才会可靠地彰显证据价值。
  
  (作者系中国人民公安大学博士研究生)