Back
Featured image of post 你所使用的案例检索库,搜索结果数可能与别人差8倍

你所使用的案例检索库,搜索结果数可能与别人差8倍

兼听则明,偏信则暗。

Alpha、北大法宝与威科先行综合表现优于裁判文书网,无讼、元典仍需努力。

下图为各大案例检索引擎在相同筛选条件下的表现情况:

筛选条件:借贷、抵押、保证、父子、地区:上海、类型:民事案件。

各家搜索引擎能力的高低,在底层就是分词技术的比拼。

以“研究生命令本科生”为例,有两种分词方式:

  1. “研究生”、“命令”、“本科生”

  2. “研究”、“生命”、“令”、“本科生”

当用户搜索“研究生”时,只有第一种方式可以匹配到,而当用户搜索“生命”时,只有第二种方式可以匹配到。

所以,一个良好的分词系统就是检索引擎成功的一半。

核心场景

之后,我们会观察各种类型的词语在不同搜索引擎中的表现,以此来判断一个搜索引擎的索引健壮性及其分词能力。

下图展示的是各大搜索引擎的案例总量,我们可以发现各大引擎均无法达到裁判文书网的数量。数量最近接的是元典,达到裁判文书总量的98.6%。

常见短词

在常见短词中,根据类别“行为”、“事实”、“客体”,选取“担保”、“骨折”、“商标”。常见短词是律师最常用的搜索关键词。

图片所体现的“结果偏差率”即该搜索引擎的结果数与裁判文书网的结果数相偏差的比例,比如裁判文书网搜索到的结果是100个,某网的结果是90个,那么偏差率就是-10%。在有些情况下,某些搜索引擎的检索能力确实是超过裁判文书网的,所以呈现出的是正百分比。

常见长词

当我们输入长词时,搜索引擎可能会根据输入的内容进行分词,也可能不会。比如,“买卖合同纠纷”拆分成“买卖”、“合同”、“纠纷”或者根本就不拆。这两种方式都会导致结果数量的巨大差异。

案由:买卖合同纠纷

客体:劳动报酬

行为:解除合同

罕见短词

当搜索“王大锤”时,我发现了如下情况:

  1. 裁判文书网显示的结果是10条,但北大法宝显示12条,经逐条核对,发现2条重复数据。
  2. 元典、无讼第一天均显示9条,但在第二天均变成10条。说明针对罕见短词,这两个系统可能会被动地进行机器学习并整理。
  3. Alpha显示的是11条数据,经过比对,Alpha数据库中包含一条仅出现在北京法院审判信息网的判例,甚至连裁判文书网都没有收录该案。

姓名:王小锤

品牌:喜茶

地名:帕劳

罕见长词

罕见长词其实是很常见的搜索需求,比如公司名。我们可以发现,搜索公司名时,裁判文书网、Alpha和北大法宝是最好的选择。

公司名:深圳市腾讯计算机系统有限公司

品牌:无印良品

地址:北京市海淀区知春路

短英语词

当搜索英语短词时,我发现2个现象:

  1. 各大系统只有Alpha是对大小写敏感的,好处是更精确,但坏处是如果不知道这个特点,可能会漏掉很多裁判文书。

  2. 裁判文书网未对罕见英语做优化,无法搜索到英文内容,如altium。

小写:iphone

大写:IPHONE

首字母大写:Iphone

全角英语:iphone

中英混合

裁判文书网也未对中英混合内容进行优化,所以如果我们的关键词包含中英混合的品牌,一定要使用第三方引擎。

中英混合:老K

条件筛选

条件筛选的结果差距非常大。

文书类型:判决书

区域:上海

审级:中级人民法院

数字

裁判文书网对纯数字未做优化,纯数字建议使用第三方引擎。

纯数字:10176

金额:10890元

日期:2015年8月8日

符号

法律:《合同法》

日期:2015/08/08

比例:80%

综合

回到这张图,实际上威科先行“作弊”了,因为它在“精确搜索”模式下,仍然会进行模糊搜索,它会将“借贷”的近义词“借款“的结果也返回给用户,这其实在绝大数是符合我们实际需求的。

总结

以上共检索141次,其中72次搜索结果数低于裁判文书网,69次高于裁判文书网。

“兼听则明,偏信则暗。” 没有一个案件搜索引擎是全面超越其他检索引擎的,都有所长。所以,在裁判检索过程中,一个良好的策略便是,进行裁判检索时,至少使用两个以上搜索引擎,且其中一个为裁判文书网。

另还有一个好消息,裁判文书网已于2019年年9月升级,速度慢的问题,目前已得到改善,整体流畅度已经达到令人满意的程度。

沪ICP备20004885号-2
jonathan.nuance@outlook.com
Built with Hugo
Theme Stack designed by Jimmy