当前位置: 首页 > 关于智慧芽 > 最新动态

语义检索专利检索:IPR、审查员、律师都在用的功能又又升级了,免费体验开放中,快来!

智慧芽 | 2022-05-23 |

  当公司IP人员在进行专利挖掘布局、研发人员在进行查新检索、审查员在专利检索、律师在诉讼维权(专利无效、侵权)、代理人在进行专利风险预警分析时,都经常使用语义检索,那么语义检索有什么优势呢?听说智慧芽语义检索最近优化了,效果如何?

  没错!智慧芽语义检索最近对算法进行了优化,精度进一步提升。

  我们随机抽取了5万件有审查记录和对比文件的发明专利,覆盖8个IPC大类,通过优化后的算法模型进行语义检索后,分析X类文献在检索结果相关度TOP1、TOP20、TOP50、TOP100、TOP200、TOP500等的命中率。

  注:X类文献,具有特别相关性,单独对比便可否定发明申请文件的新颖性或创造性的文献。

  智慧芽语义检索

  2021年5月,智慧芽语义检索精准度大幅提升

  从测试结果中可以看到,在不进行任何人工干预,输入专利号码在检索结果前100位命中X类文献的概率为54.27%,输入专利摘要文本在检索结果前100位命中X类文献的概率为45.36%,输入第一独立权利要求在检索结果前100位命中X类文献的概率为44.29%。不仅是TOP100,在其他TOP1、TOP20等X类文献的命中率精度也大幅提升。

  简而言之,在不进行任何人工干预的情况下,智慧芽的语义检索能够提供高效、快速、准确的检索结果,大幅提升检索效率。

  既然语义检索这么好,来介绍下语义检索吧!

  01 什么是语义

  简单来说,语言所蕴含的意义就是语义(semantic)。符号或数据本身没有任何意义,当其用作语言的载体时,被赋予了含义后被人们所使用,此时语言就转化为了信息,而语言所蕴含的意义就是语义。

  02 什么是语义搜索

  什么是语义搜索,互联网之父Tim Berners-Lee在2001年《科学美国人》(ScientificAmerican)上发表过一篇文章,其中解释了 “语义搜索的本质是通过数学来摆脱当今搜索中使用的猜测和近似,并为词语的含义以及它们如何关联到我们在搜索引擎输入框中所找的东西引进一种清晰的理解方式”。

  等等….看不懂…

  简单来说吧,语义搜索指的是有意义的搜索,这种方式早已在各种搜索引擎中应用,例如我们不认识“焱”这个字,但看的出来它是由三个火字组成的,因此我们在百度搜索栏中输入“三个火”,可以看到排在第一位的就是有关于“焱”的信息,这个字读“yan”,表示火花、火焰。这就是因为搜索引擎判断出了用户要找的并不是包含“三个”、“火”等这些本身具有意义的词语或句子,而是想要查找与“焱”这个字相关的内容。

  

yan


  再比如,搜索“中国的首都”的图片时,搜出来的都是北京的一些代表性建筑,即使我们并没有输入“北京”这个词。这同样说明了搜索引擎理解了我们的搜索内容,给我们返回了想要的结果。

  

中国的首都


  从以上示例可以看出,语义检索是建立在传统信息检索基础之上的,不止基于用户在搜索栏中输入的字面词来显示内容,而是理解这些词的意图后显示用户真正需要的内容,从而实现更高效准确的检索。

  03 智慧芽语义检索在专利检索中怎么用?

  语义检索在专利检索中,最重要的是重新排序(rerank),即按照用户输入内容的含义,在海量专利文献库中先进行匹配,再将匹配后的结果重新排序,将语义最相关的专利文献排在最靠前的位置,排序越往后专利相关度越低。

  智慧芽语义检索功能,免去提炼检索要素、构建检索式等步骤,用户只需输入专利号码或技术方案的中文或英文文本描述,即可自动匹配最相关的1000条专利并按最相关进行排序。

  04 智慧芽语义检索原理是什么?

  智慧芽语义检索通过在Web页面上输入待检索的文本或者公开(公告)号,系统结合输入内容,挖掘文本的语义信息,通过智慧芽自主开发的语义相似度AI模型,与智慧芽专利数据库中的专利全文做全面的相似性匹配,从而得到与其最相关的检索结果,并按照语义相似度进行排序展示。

  语义相似度AI模型主要包括关键词及其扩展模型、语义向量模型和语义图谱向量模型(其中包含关键词、IPC/CPC、申请人/发明人等多维度关联关系),同时结合专利审查员多年实践经验形成的规则,进一步提升语义检索的相关性。

AI助手