《测试技术学报》
0引言
法庭说话人识别通过分析比较案件录音证据中未知身份的说话人语音(检材语音)与已知身份的嫌疑人语音(样本语音),进而推断二者的同源性。随着该技术的不断发展,各国法庭科学实验室在特征提取、分析方法、识别系统以及评价体系等方面出现了多态化局面。近年来,国际上对于法庭科学的要求不断提高,在客观性、透明性、重复性等要求以外,还专门提出了验证要求:在运用任何法庭分析方法或系统之前,都应该基于被检案件实际条件进行系统验证和评价。这是保证其司法应用的前提和基础。
美国前总统奥巴马的科学技术顾问委员会在2016年9月发布的PCAST报告[1]中指出:为了确保法庭科学中特征比较方法的科学有效性,“必须明确法庭分析方法有效性和可靠性的科学标准”“必须对具体的法庭分析方法进行评估,以明确其是否已被科学地确定为有效可靠”。澳大利亚及新西兰等国的法庭科学专家联合发表声明对此予以支持[2]。Lander指出:“如果没有真正的实验证据证明,法庭特征比较方法能够在适合其预期用途的准确度水平以及与此用途合理相关的情况下得出结论,检验人员得出两个样本可能同源的结论是毫无意义的。”[3]英国也明确规定:“所有的法庭分析方法和程序都要进行验证”,并且发布了验证细则[4]。
鉴于国际上对“方法验证”的迫切要求和法庭说话人识别司法实践的需要,本文首先从国际上对于科学证据的要求出发,阐明进行法庭说话人识别方法及系统验证的重要性和必要性;其次介绍系统验证的基本原则和程序方法;最后通过一项多系统验证评价的范例,说明司法实践中应该如何进行法庭说话人识别系统的验证评测。
1系统验证的基本原则
本文的“系统”为广义概念,是特征方法的总称,包括法庭说话人识别的全部过程,如语音前期处理、参数特征的提取和测量,特征的分析比较、统计建模、失配补偿以及识别评分等。目前,法庭说话人识别的方法主要有基于人工专家分析评价的听觉-语音学方法和基于自动技术的半自动-自动识别方法。不管基于哪种方法,从语音前期处理开始,到识别结果输出为止,任何一种组合都可以称之为一套“系统”。人工专家也是系统的一部分。
系统验证的基本原则是:基于被检案件,在反映案件实际条件下,利用结果已知的语音数据库进行系统训练和验证测试。语音具有较大的变异性,不同录音条件(讲话环境、背景噪声、设备信道、存储格式等)和不同的言语条件(情绪、心理、对象、场合、疾病等)都会使语音产生变化,进而影响系统的性能。实验室条件下的验证结果并不能代表实际案件条件下的系统性能,案件现实条件下的系统性能往往比实验室条件差,有时甚至差很多,因此,基于实际案件条件进行验证测试是必须的。此外,由于案件条件各有不同,还应该进行个案条件下的验证测试。
2系统验证的程序方法
首先,利用训练数据进行系统训练;然后,利用测试数据进行系统测试;最后,将测试结果与真实情况进行比较,并通过相应的性能指标来评价系统识别的准确性和可靠性。
2.1 训练和测试数据
司法实践中很难采集全代表所有案件条件的语音数据,但是建立具有代表性、大规模的基础语音数据库还是必要且可行的。首先,建立一个实验室条件下的、具有代表性的、反映典型案件言语风格的高质量基础语音数据库[5]。然后,根据被检案件的实际条件进行语音信号的模拟处理。用于系统验证的所有训练数据和测试数据均要模拟实际案件的检材条件和样本条件,以代表相关人群并反映实际案件的言语风格和录音条件。至于训练数据和测试数据的规模,原则上应该越大越好。但是,考虑到现实的成本和时效要求,训练数据库和测试数据库的规模应该至少在几十人以上,才能保证合理的系统性能。当然,系统的性能能否满足要求,还要取决于法庭。
2.2 验证方法
系统验证分为训练、测试和评价3部分。训练部分是根据每个系统的实际情况,采用训练集数据进行系统训练,具体训练方法不做要求。但是对于测试部分,必须使用全部测试集数据进行测试。将测试集中的每个检材条件录音与每个样本条件录音进行全交叉比较,最后对结果进行统计分析。
国际上,法庭说话人识别正在经历新旧范式的转换。新范式以似然比(Likelihood Ratio,LR)框架为核心,基于相关数据、定量测量和统计模型计算似然比,通过LR值量化评估语音证据的价值[6]。LR框架已经成为国际法庭证据评价的标准框架,本文讨论的也是基于LR框架的法庭说话人识别系统。当然,对于主要依靠专家主观判断的“专家”系统和以“是或否”的二分性结果为输出的自动系统也可以进行同样的验证,只不过评价的性能指标略有差别而已。然而,需要指出的是,由于训练和测试的规模较大,全交叉比较耗时费力,对“专家”系统来说,进行这种验证的现实性和可操作性都很差,甚至几乎不可能。