当前位置: 首页 > 关于智慧芽 > 最新动态

颠覆专利FTO和查新领域的大杀器:通式序列检索来袭!

智慧芽bio生物序列库 | 2023-07-03 |

在生物技术领域中,生物序列是创新的核心要素,而传统的关键词检索方法可能会忽略关键信息,增加风险。因此,专利领域常采用序列信息搜索来进行专利FTO和查新工作。

当前的搜索方法主要依赖同源性序列比对算法,在序列库中搜索相似序列以确保全面性的结果。然而,专利中存在一种特殊的序列,被称为通式序列。

通式序列解释:专利撰写人员使用类似化学结构的描述方式,在序列中引入简并符、通配符和运算符等信息,并通过解释性文档描述这些符号的具体参数。通式序列并不具备生物学意义,它主要用于扩展专利的保护范围并设置搜索障碍。传统的序列同源性比对算法并没有考虑到这种通式序列的情况,因此使用传统算法进行搜索存在漏检风险,无法找出所有潜在目标序列。


根据智慧芽生物序列Bio数据库(简称Bio)的统计数据显示,在全球专利文献中,这种特殊的通式序列数量并不低:核酸约740万条,占总核酸数的7.12%;蛋白序列131万条,占总蛋白序列数的7.55%。这表明大量的通式序列,由于特殊符号的存在,会对我们的检索结果产生影响,对于序列FTO来说风险非常高。


例如,查询序列

"EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS",

在命中目标序列时,

"EVGSYXXXXX XCXXXXXXCX XSGRSAGGGG TENLYFQGSG GS"。



使用传统序列方式检索,BLAST算法的相似度仅为67%,但实际上相似度为100%。这种生物序列通过常规算法搜索会导致两种情况:要么序列无法搜索,要么由于相似度低于阈值而被排除在结果之外。无论哪种情况,都会给序列搜索人员带来不便,无法方便地与权利要求进行同源性比较,甚至会漏检关键序列信息。


为了解决通式序列带来的漏检风险


为了解决通式序列带来的漏检风险,智慧芽算法工程团队利用自研的NLP、CV、实体识别、指代消解等技术,构建了深度学习模型,用于识别和解析序列表和专利全文中的通式序列及其取代信息,并建立了通式序列检索库。


image.png

智慧芽生物序列Bio数据库通式序列检索入口


该库通过特殊的序列比对算法,在通式序列检索时不仅能够搜索这类序列,还能返回真实的相似度。智慧芽的通式序列检索解决方案能够进一步降低在专利FTO和查新工作中的漏检风险。

image.png针对通式序列可能的变体规模达到上百亿的情况,传统的序列对齐算法无法满足实时的检索需求。智慧芽通过深度定制的序列对齐算法,在序列检索过程中动态加载通式序列的取代信息,以实现精准检索并控制检索时间在合理范围内。在扫描阶段,智慧芽提出了一种压缩算法,构建用于启发式搜索的种子词表,大大减少了不必要的比对,提高了检索效率。当比对查询序列与目标序列时,智慧芽的自研算法通过引入通式取代信息,使对齐和查询结果更加精准,比对结果更加直观,直接展示查询序列与目标序列不同变体下的最佳对比结果。

全新时代即刻开启,2023年6月,智慧芽生物序列Bio数据库强势上线通式序列检索功能,这是专利领域的震撼巨变,为研究人员和检索人员提供了超强大的工具,Bio数据库提供了海量通式序列,让你轻松获取最准确的相关信息。科技创新进入崭新纪元,通式序列检索时代由此揭开神秘面纱!欢迎新老用户扫码来体验。

image.png

扫码立即体验通式序列检索功能





AI助手