在生物技术领域中,生物序列是创新的核心要素,而传统的关键词检索方法可能会忽略关键信息,增加风险。因此,专利领域常采用序列信息搜索来进行专利FTO和查新工作。
当前的搜索方法主要依赖同源性序列比对算法,在序列库中搜索相似序列以确保全面性的结果。然而,专利中存在一种特殊的序列,被称为通式序列。
通式序列解释:专利撰写人员使用类似化学结构的描述方式,在序列中引入简并符、通配符和运算符等信息,并通过解释性文档描述这些符号的具体参数。通式序列并不具备生物学意义,它主要用于扩展专利的保护范围并设置搜索障碍。传统的序列同源性比对算法并没有考虑到这种通式序列的情况,因此使用传统算法进行搜索存在漏检风险,无法找出所有潜在目标序列。
根据智慧芽生物序列Bio数据库(简称Bio)的统计数据显示,在全球专利文献中,这种特殊的通式序列数量并不低:核酸约740万条,占总核酸数的7.12%;蛋白序列131万条,占总蛋白序列数的7.55%。这表明大量的通式序列,由于特殊符号的存在,会对我们的检索结果产生影响,对于序列FTO来说风险非常高。
例如,查询序列
"EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS",
在命中目标序列时,
"EVGSYXXXXX XCXXXXXXCX XSGRSAGGGG TENLYFQGSG GS"。
为了解决通式序列带来的漏检风险
为了解决通式序列带来的漏检风险,智慧芽算法工程团队利用自研的NLP、CV、实体识别、指代消解等技术,构建了深度学习模型,用于识别和解析序列表和专利全文中的通式序列及其取代信息,并建立了通式序列检索库。
(智慧芽生物序列Bio数据库通式序列检索入口)
该库通过特殊的序列比对算法,在通式序列检索时不仅能够搜索这类序列,还能返回真实的相似度。智慧芽的通式序列检索解决方案能够进一步降低在专利FTO和查新工作中的漏检风险。
针对通式序列可能的变体规模达到上百亿的情况,传统的序列对齐算法无法满足实时的检索需求。智慧芽通过深度定制的序列对齐算法,在序列检索过程中动态加载通式序列的取代信息,以实现精准检索并控制检索时间在合理范围内。在扫描阶段,智慧芽提出了一种压缩算法,构建用于启发式搜索的种子词表,大大减少了不必要的比对,提高了检索效率。当比对查询序列与目标序列时,智慧芽的自研算法通过引入通式取代信息,使对齐和查询结果更加精准,比对结果更加直观,直接展示查询序列与目标序列不同变体下的最佳对比结果。
全新时代即刻开启,2023年6月,智慧芽生物序列Bio数据库强势上线通式序列检索功能,这是专利领域的震撼巨变,为研究人员和检索人员提供了超强大的工具,Bio数据库提供了海量通式序列,让你轻松获取最准确的相关信息。科技创新进入崭新纪元,通式序列检索时代由此揭开神秘面纱!欢迎新老用户扫码来体验。
扫码立即体验通式序列检索功能