Alpha、北大法宝与威科先行综合表现优于裁判文书网,无讼、元典仍需努力。
下图为各大案例检索引擎在相同筛选条件下的表现情况:
筛选条件:借贷、抵押、保证、父子、地区:上海、类型:民事案件。
各家搜索引擎能力的高低,在底层就是分词技术的比拼。
以“研究生命令本科生”为例,有两种分词方式:
-
“研究生”、“命令”、“本科生”
-
“研究”、“生命”、“令”、“本科生”
当用户搜索“研究生”时,只有第一种方式可以匹配到,而当用户搜索“生命”时,只有第二种方式可以匹配到。
所以,一个良好的分词系统就是检索引擎成功的一半。
核心场景
之后,我们会观察各种类型的词语在不同搜索引擎中的表现,以此来判断一个搜索引擎的索引健壮性及其分词能力。
下图展示的是各大搜索引擎的案例总量,我们可以发现各大引擎均无法达到裁判文书网的数量。数量最近接的是元典,达到裁判文书总量的98.6%。
常见短词
在常见短词中,根据类别“行为”、“事实”、“客体”,选取“担保”、“骨折”、“商标”。常见短词是律师最常用的搜索关键词。
图片所体现的“结果偏差率”即该搜索引擎的结果数与裁判文书网的结果数相偏差的比例,比如裁判文书网搜索到的结果是100个,某网的结果是90个,那么偏差率就是-10%。在有些情况下,某些搜索引擎的检索能力确实是超过裁判文书网的,所以呈现出的是正百分比。
常见长词
当我们输入长词时,搜索引擎可能会根据输入的内容进行分词,也可能不会。比如,“买卖合同纠纷”拆分成“买卖”、“合同”、“纠纷”或者根本就不拆。这两种方式都会导致结果数量的巨大差异。
案由:买卖合同纠纷
客体:劳动报酬
行为:解除合同
罕见短词
当搜索“王大锤”时,我发现了如下情况:
- 裁判文书网显示的结果是10条,但北大法宝显示12条,经逐条核对,发现2条重复数据。
- 元典、无讼第一天均显示9条,但在第二天均变成10条。说明针对罕见短词,这两个系统可能会被动地进行机器学习并整理。
- Alpha显示的是11条数据,经过比对,Alpha数据库中包含一条仅出现在北京法院审判信息网的判例,甚至连裁判文书网都没有收录该案。
姓名:王小锤
品牌:喜茶
地名:帕劳
罕见长词
罕见长词其实是很常见的搜索需求,比如公司名。我们可以发现,搜索公司名时,裁判文书网、Alpha和北大法宝是最好的选择。
公司名:深圳市腾讯计算机系统有限公司
品牌:无印良品
地址:北京市海淀区知春路
短英语词
当搜索英语短词时,我发现2个现象:
-
各大系统只有Alpha是对大小写敏感的,好处是更精确,但坏处是如果不知道这个特点,可能会漏掉很多裁判文书。
-
裁判文书网未对罕见英语做优化,无法搜索到英文内容,如altium。
小写:iphone
大写:IPHONE
首字母大写:Iphone
全角英语:iphone
中英混合
裁判文书网也未对中英混合内容进行优化,所以如果我们的关键词包含中英混合的品牌,一定要使用第三方引擎。
中英混合:老K
条件筛选
条件筛选的结果差距非常大。
文书类型:判决书
区域:上海
审级:中级人民法院
数字
裁判文书网对纯数字未做优化,纯数字建议使用第三方引擎。
纯数字:10176
金额:10890元
日期:2015年8月8日
符号
法律:《合同法》
日期:2015/08/08
比例:80%
综合
回到这张图,实际上威科先行“作弊”了,因为它在“精确搜索”模式下,仍然会进行模糊搜索,它会将“借贷”的近义词“借款“的结果也返回给用户,这其实在绝大数是符合我们实际需求的。
总结
以上共检索141次,其中72次搜索结果数低于裁判文书网,69次高于裁判文书网。
“兼听则明,偏信则暗。” 没有一个案件搜索引擎是全面超越其他检索引擎的,都有所长。所以,在裁判检索过程中,一个良好的策略便是,进行裁判检索时,至少使用两个以上搜索引擎,且其中一个为裁判文书网。
另还有一个好消息,裁判文书网已于2019年年9月升级,速度慢的问题,目前已得到改善,整体流畅度已经达到令人满意的程度。