客户案例

我们请生物医药投资人给1300篇核心论文打了标签,用AI来发现投资机会


我们的客户是国内一家DPI(退出回来现金和投入现金比)超过10的常青基金,专注于生物医药领域和其他硬科技的投资。生物医药领域极其艰深,它要求投资人像科学家一样精通药物研发、疾病治疗等专业知识,同时还要站得更高、看得更远,才能发现最尖端的科研进展与最具回报的投资机会。


对于生物医药领域大多数投资人来说,一个有效的获取前沿信息的方式就是追踪国际知名学术期刊发布的最新论文。我们的客户也是这样,日常紧密地关注最新的学术成果,以及顶尖科学家、重点实验室和大型药企的动向。


他们雇了两三位在读博士生作为实习生,每周固定浏览几个顶级期刊如《自然》《科学》杂志,并在搜索引擎上检索一些关键词,找出五、六篇认为重要的研究,截取摘要,编辑成PDF版的简报,再发送给整个投资团队。

但是,这种信息收集方式有两个问题:

  • 人力仅仅能浏览和筛选很少量的期刊及论文,总会有大量遗漏的信息;且不同人的专业积淀和信息素养不一致,导致筛选出来的信息水准不稳定
  • “搜索”是一个先有已知方向(关键词)、再去寻找相关信息的过程,而投资常常是一个需要突破已有认知,寻找未知信息的过程,使用关键词检索有时反而会限制投资机会的发现

我们如何解决客户的问题


对于第一个问题,源简报的基础功能就可以轻松解决。搜信源的信源专家与客户沟通后,帮助其整理出了一个包含50余个权威学术期刊、20余家重点实验室、10位顶尖科学家个人社交媒体的信源清单;通过初步的配置,每日就可以尽数获取来自上述信源的所有最新消息,不再有遗漏。

但第二个问题就比较难解决了,50多个权威学术期刊每周发布的论文将近2000篇,虽然现在我们做到了不遗漏信息,但如何筛选出“具有突破性”的研究呢?而且,怎样定义”突破性“呢?

我们与客户都认知到,生物医药领域的研究议题繁多,涉及多个学科和行业,我们难以用清晰的语言去描述信息的筛选标准,因此就难以转化成精确的计算机语言。

比如:我们想要寻找治疗慢性病的前沿药物或治疗方法,虽然可以把所有慢性病种类都设置为关键词,但筛选出来的信息会有大量冗余,而且容易遗漏掉真正有价值的信息,比如有时候某种突破性的进展可能是发生在细胞或分子层面的,或者是发生在别的细分领域里的,论文的标题或主题甚至都不包含具体的疾病名称,因此就不可能靠搜索的办法找到。

总之,我们无法用已知的关键词去获知我们不知道的知识。

既然定义不出“什么是具有突破性”的研究,搜信源团队想了一个办法——用我们的AI模型去训练机器来模拟投资人对信息的判断。我们将一周内获取到的近2000篇论文发给了我们的客户,请她一一打标签,判断该信息是否对她的投资决策有帮助。我们的客户在百忙之中,用了三个星期时间,为1300篇论文打完了标签,为我们提供了一个宝贵的数据训练集。

我们利用这个训练集形成了一套算法,用来自动过滤与筛选每周获取的数千篇学术论文,效果令客户非常满意。我们以邮件简报的形式每三天为客户推送一次,就像一位资深的投资人,保持同样的信息筛选水准,孜孜不倦地每三天从上千篇论文中精选出数十篇最能辅助投资决策的前沿研究。

现在,投资团队可以利用源简报更高效地追踪前沿信息,将时间和人力解放出来,投入到更重要的工作中去。