颠覆专利FTO和查新领域的大杀器：通式序列检索来袭！

在生物技术领域中，生物序列是创新的核心要素，而传统的关键词检索方法可能会忽略关键信息，增加风险。因此，专利领域常采用序列信息搜索来进行专利FTO和查新工作。

当前的搜索方法主要依赖同源性序列比对算法，在序列库中搜索相似序列以确保全面性的结果。然而，专利中存在一种特殊的序列，被称为通式序列。

通式序列解释：专利撰写人员使用类似化学结构的描述方式，在序列中引入简并符、通配符和运算符等信息，并通过解释性文档描述这些符号的具体参数。通式序列并不具备生物学意义，它主要用于扩展专利的保护范围并设置搜索障碍。传统的序列同源性比对算法并没有考虑到这种通式序列的情况，因此使用传统算法进行搜索存在漏检风险，无法找出所有潜在目标序列。

根据智慧芽生物序列Bio数据库（简称Bio)的统计数据显示，在全球专利文献中，这种特殊的通式序列数量并不低：核酸约740万条，占总核酸数的7.12%；蛋白序列131万条，占总蛋白序列数的7.55%。这表明大量的通式序列，由于特殊符号的存在，会对我们的检索结果产生影响，对于序列FTO来说风险非常高。

例如，查询序列

"EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS"，

在命中目标序列时，

"EVGSYXXXXX XCXXXXXXCX XSGRSAGGGG TENLYFQGSG GS"。

使用传统序列方式检索，BLAST算法的相似度仅为67%，但实际上相似度为100%。这种生物序列通过常规算法搜索会导致两种情况：要么序列无法搜索，要么由于相似度低于阈值而被排除在结果之外。无论哪种情况，都会给序列搜索人员带来不便，无法方便地与权利要求进行同源性比较，甚至会漏检关键序列信息。

为了解决通式序列带来的漏检风险

为了解决通式序列带来的漏检风险，智慧芽算法工程团队利用自研的NLP、CV、实体识别、指代消解等技术，构建了深度学习模型，用于识别和解析序列表和专利全文中的通式序列及其取代信息，并建立了通式序列检索库。

（智慧芽生物序列Bio数据库通式序列检索入口）

该库通过特殊的序列比对算法，在通式序列检索时不仅能够搜索这类序列，还能返回真实的相似度。智慧芽的通式序列检索解决方案能够进一步降低在专利FTO和查新工作中的漏检风险。

针对通式序列可能的变体规模达到上百亿的情况，传统的序列对齐算法无法满足实时的检索需求。智慧芽通过深度定制的序列对齐算法，在序列检索过程中动态加载通式序列的取代信息，以实现精准检索并控制检索时间在合理范围内。在扫描阶段，智慧芽提出了一种压缩算法，构建用于启发式搜索的种子词表，大大减少了不必要的比对，提高了检索效率。当比对查询序列与目标序列时，智慧芽的自研算法通过引入通式取代信息，使对齐和查询结果更加精准，比对结果更加直观，直接展示查询序列与目标序列不同变体下的最佳对比结果。

全新时代即刻开启，2023年6月，智慧芽生物序列Bio数据库强势上线通式序列检索功能，这是专利领域的震撼巨变，为研究人员和检索人员提供了超强大的工具，Bio数据库提供了海量通式序列，让你轻松获取最准确的相关信息。科技创新进入崭新纪元，通式序列检索时代由此揭开神秘面纱！欢迎新老用户扫码来体验。

扫码立即体验通式序列检索功能

颠覆专利FTO和查新领域的大杀器：通式序列检索来袭！

400-694-4481