banner

新(xīn)闻资讯

新(xīn)闻资讯基金公告

CDF观点 | 数据驱动——新(xīn)材料发展的新(xīn)引擎

2021-07-05

自创立之初,创东方投资便始终坚持“研究型”投资策略。从宏观趋势到中观方向,再到微观执行层面上,分(fēn)别开展剃刀(dāo)式研究,在投资行业各个岗位求专、求精,力图直达投资的最高能(néng)效。


故此开辟“创东方行业透视”系列专题,记录投资中的经验与领悟,望能(néng)遇到更多(duō)志(zhì)同道合之友,共享知识与成長(cháng)。


材料工业是國(guó)民(mín)经济的基础产业,新(xīn)材料是材料工业发展的先导,是重要的战略性新(xīn)兴产业。当前,我國(guó)新(xīn)材料产业发展面临着重大战略机遇,以新(xīn)一代信息技术、航空航天、物(wù)联网、新(xīn)能(néng)源汽車(chē)和轨道交通等代表的战略性新(xīn)兴产业快速发展对材料产业提出了更高要求,新(xīn)材料研发的迫切性前所未有(yǒu),新(xīn)材料研发的模式也在不断创新(xīn)优化。本文(wén)从材料研发的模式出发,探索大数据在材料研发过程中发挥的作用(yòng)和商(shāng)业化结果,提出材料大数据领域的投资策略。



作者简介:谭潇刚,创东方投资总监。中國(guó)科(kē)學(xué)技术大學(xué)理(lǐ)學(xué)學(xué)士、无机化學(xué)博士,拥有(yǒu)数年投资机构、券商(shāng)研究所工作经验,主要投资方向包括新(xīn)材料、新(xīn)能(néng)源、ICT等。



一、新(xīn)材料研发的传统模式具有(yǒu)时代局限性

已经难以满足产业发展需求

图片



自从十八世纪近代化學(xué)诞生以来,材料科(kē)學(xué)的发展已经历了实验试错、经典理(lǐ)论构建、第一性原理(lǐ)计算三个范式阶段。目前主流的材料研究和开发模式仍然是上述三种范式及其组合应用(yòng)。随着信息科(kē)技的多(duō)轮革命性发展及其对整个产业经济的带动,作為(wèi)产业经济最上游的材料环节,传统的研究开发模式已经愈发难以满足当前产业经济快速发展的需求。


图片



▋1.经典理(lǐ)论与传统实验结合:试错模式开发缓慢,实验成本日益高昂


在二十世纪和本世纪之初的相当長(cháng)的时间内,材料的研发模式主要依赖经典理(lǐ)论指导与大量实验试错结合的传统模式。这种传统模式在近现代化學(xué)和材料科(kē)學(xué)发展的早期,曾经有(yǒu)效地实现了大量新(xīn)材料的发现和改良,并推动了化學(xué)与材料科(kē)學(xué)经典规律的发现和理(lǐ)论體(tǐ)系的建立完善。


但时至今日,这种类似于“爱迪生尝试了近8000种材料发现了钨丝适用(yòng)于白炽灯”的传统模式,具有(yǒu)效率低下、成本过高的明显弊端,已不能(néng)适应工业快速发展的需求,反而一定程度上成為(wèi)制约产品技术进步和工业发展的瓶颈。


例如,作為(wèi)目前移动電(diàn)子设备主要能(néng)源的锂离子電(diàn)池,从上世纪70年代中期实验室原型到90年代中后期实现工业化应用(yòng),前后花(huā)了近20年时间,甚至直到当前才逐渐广泛应用(yòng)于新(xīn)能(néng)源汽車(chē)上,一个重要原因便是锂离子電(diàn)池中涉及多(duō)种材料的设计和适配,其缓慢的开发进度迟滞了锂离子電(diàn)池的产业化速度。


另一方面,随着对材料性能(néng)要求的不断提高,材料科(kē)學(xué)研究对象的空间尺度在不断变小(xiǎo),纳米乃至原子尺度的结构调控已成為(wèi)材料研究的内容,对部分(fēn)功能(néng)材料的研究甚至要到電(diàn)子层次。因此,材料研究越来越依赖于先进的测试技术和设备,研究难度和成本也越来越高。此外,随着材料应用(yòng)环境的日益复杂化,人们越来越重视材料与应用(yòng)环境的相互作用(yòng)及其对材料性能(néng)的影响,仅仅依靠实验室级别的实验来进行材料研究已难以满足现代新(xīn)材料研究和发展的要求。


▋2.计算化學(xué)第三范式处理(lǐ)实际體(tǐ)系材料问题时难以逾越的复杂度鸿沟


基于量子化學(xué)原理(lǐ),利用(yòng)不同的模型和计算方法研究新(xīn)材料是新(xīn)材料开发的第三范式。借助计算机虚拟环境和超级计算机算力,可(kě)以从不同性能(néng)指标维度对材料进行多(duō)层次研究,模拟材料在各种条件下的性能(néng)演变规律、失效机理(lǐ),甚至可(kě)以模拟超高温、超高压等极端环境下的材料性能(néng),进而实现材料性能(néng)的改善和设计的优化。


计算化學(xué)范式在处理(lǐ)小(xiǎo)规模原子或小(xiǎo)分(fēn)子體(tǐ)系,分(fēn)析有(yǒu)限的结构和性能(néng)参数时通常能(néng)取得有(yǒu)效的结果,与实验结果符合度很(hěn)高,并能(néng)对未知體(tǐ)系的研究开发起到很(hěn)好的指导预测作用(yòng)。


然而,在分(fēn)析处理(lǐ)材料领域的实际體(tǐ)系时,通常要面对更大的尺度(宏观尺度材料的原子数量通常在10^20数量级以上),更多(duō)的微观性能(néng)参数(高达100+),以及实际应用(yòng)中对不同维度宏观性能(néng)(力/電(diàn)/磁/光/热/化學(xué)/生物(wù)等)要求的协同;这使得计算的复杂度可(kě)能(néng)攀升至10^400数量级。


而目前最顶级的超算算力达到每秒(miǎo)10^17次运算,因此对于当前的超算算力和计算需要的存储容量而言,完全依靠计算化學(xué)手段处理(lǐ)实际體(tǐ)系材料问题几乎是不可(kě)能(néng)完成的任務(wù)。




二、数据驱动的材料科(kē)學(xué)新(xīn)范式

已在科(kē)研领域得到广泛应用(yòng)

图片


▋1.各國(guó)政府推动发展数据驱动材料开发新(xīn)范式


面对材料开发传统模式的缺陷和困难,各國(guó)政府、科(kē)研界和产业界都在积极寻求新(xīn)的突破。美國(guó)率先提出了数据驱动材料科(kē)學(xué)研发计划。美國(guó)政府在 2011年启动材料基因组计划,旨在将材料的发现、开发、制造速度提高一倍,同时大幅降低新(xīn)材料的研发成本。


材料基因工程包括三种模式。第一种是高通量实验驱动,以量变引起质变,典型技术是组合材料芯片技术。第二种模式是理(lǐ)论计算驱动,缩小(xiǎo)实验范围,再进行实验验证。第三种即是数据驱动:通过对材料领域大量数据(即材料数据库)挖掘和深度學(xué)习建立模型,预测候选材料,大幅降低实验试错成本。


我國(guó)也高度重视数据驱动材料科(kē)學(xué)的发展。2014年上海市、北京市先后成立了上海市材料基因组工程研究院、材料基因工程北京市重点实验室。2016年工业和信息化部、科(kē)技部等部门联合发布的《新(xīn)材料产业发展指南》明确提出要加速新(xīn)材料与信息技术加速融合,不断突出大数据、数字仿真等技术在新(xīn)材料研发设计中作用(yòng)。


欧洲、日韩等世界其他(tā)國(guó)家和地區(qū)也有(yǒu)类似政策推出,这种趋势促成了材料科(kē)學(xué)走向新(xīn)范式:数据驱动的材料科(kē)學(xué)。


 

▋2.材料数据库等基础设施正在加快建设


為(wèi)了推动数据驱动材料科(kē)學(xué)的新(xīn)范式发展,进而减少支持传统的新(xīn)材料研发-商(shāng)业化周期所需的时间(10-20年)和投资额,材料数据库的建设和材料数据的开放共享成為(wèi)必不可(kě)少的基础条件。


1965年,剑桥结构数据库的成立,為(wèi)材料科(kē)學(xué)领域展开新(xīn)篇章,并在后来引领了材料结构、实验等数据的数字化趋势。四十多(duō)年来,以数据库為(wèi)主的材料基础设施在全球各地逐步涌现,近年来也有(yǒu)越来越多(duō)的材料数据库在亚洲落地。


图:材料数据基础设施和公司的时间表和地理(lǐ)分(fēn)布

图片


大多(duō)数早期的材料数据库仅提供托管数据和搜索功能(néng)。随着数据挖掘和人工智能(néng)的兴起,近年来一些数据库正逐步发展成為(wèi)提供基础材料和数据分(fēn)析服務(wù)的数据中心,材料数据库的角色也正由基础设施逐渐发展成為(wèi)科(kē)學(xué)发现和材料开发的新(xīn)平台。

 

▋3.数据驱动材料开发新(xīn)范式的有(yǒu)效性正在越来越广泛的研究中得到印证


早在上世纪70年代,科(kē)學(xué)家就曾在相图计算方法和数据库的开发中尝试使用(yòng)大量数据来加速新(xīn)合金的设计和开发。近年来随着人工智能(néng)和大数据技术的发展进步,其在材料领域的作用(yòng)也愈发明显;对材料大数据进行人工智能(néng)分(fēn)析,挖掘数据间的隐含变量和关联,以此来加速新(xīn)材料开发和指导材料科(kē)學(xué)新(xīn)发现。


图片


例如,日本大阪大學(xué)一名教授利用(yòng)1200种光伏電(diàn)池材料作為(wèi)训练数据库,通过机器學(xué)习算法研究高分(fēn)子材料结构和光電(diàn)感应之间的关系,成功在1分(fēn)钟内筛选出有(yǒu)潜在应用(yòng)价值的化合物(wù)结构,传统方法则需5-6年时间。


又(yòu)如,英國(guó)利物(wù)浦大學(xué)的科(kē)研人员研发的一款机器人,成功在8天内自主设计化學(xué)反应路線(xiàn),完成了688个实验,并找到一种高效催化剂来提高聚合物(wù)光催化性能(néng),这项实验若由人工完成将花(huā)费数月时间。


越来越多(duō)的案例表明,当前基于数据驱动的新(xīn)范式已在材料科(kē)學(xué)研究中得到了广泛验证和应用(yòng)。此外,研究者们也日渐重视“失败”数据的获取和分(fēn)析,以构建真正意义上完整的材料数据库,进而加强数据驱动材料科(kē)學(xué)的有(yǒu)效性。2016年《Nature》发表的一篇论文(wén)显示,通过机器學(xué)习从过去认為(wèi)是“失败”的数据中“學(xué)习”规律,并对新(xīn)材料进行预测;最终机器预测结果以89%的成功率胜于有(yǒu)成功经验的材料科(kē)學(xué)家的人工判断结果(78%的成功率)。 




三、数据驱动的材料开发模式

已在部分(fēn)行业实现商(shāng)业化落地

图片


在材料开发及应用(yòng)相关产业的需求升级的拉动下,伴随着大数据和人工智能(néng)产业的蓬勃发展,近年来已经涌现出了不少材料大数据的商(shāng)业化落地案例,主要集中在包括半导體(tǐ)、新(xīn)能(néng)源、生物(wù)医药、精细化工等领域,几个典型案例如下:


▋1.锂電(diàn)池材料


锂電(diàn)池从上世纪70年代中期已出现实验室原型,但一直到现在将近五十年的时间,才实现在電(diàn)动汽車(chē)上的广泛应用(yòng)。即使到现在,锂電(diàn)池在性能(néng)和安全性上的更新(xīn)迭代进度依旧较為(wèi)缓慢。美國(guó)Materials Design公司旗下的的MedeA便是一个基于材料数据库的功能(néng)材料设计与性质预测平台,其利用(yòng)强大的数据库与计算模拟方法,為(wèi)锂電(diàn)池材料研究设计提供一套完备的设计解决方案,范围涵盖了锂電(diàn)池的稳定性提升、循环寿命改善、正负极材料设计优化、電(diàn)解液迭代升级等,同时拥有(yǒu)如霍尼韦尔、宁德时代、飞利浦等國(guó)内外知名客户。


▋2.有(yǒu)机发光材料


有(yǒu)机发光材料相比无机发光材料具有(yǒu)很(hěn)多(duō)优点:光程范围大、易得到蓝光、亮度大、效率高、驱动電(diàn)压低、耗能(néng)少、具柔性、制作工艺简单、来源丰富、易加工、可(kě)大面积制作等,基于有(yǒu)机发光材料的光電(diàn)器件近年来也得到了快速发展和广泛应用(yòng)。上海某材料大数据企业开发了一款研究和设计有(yǒu)机分(fēn)子材料发光和传输机理(lǐ)以及定量预测发光效率的软件MOMAP,目前广泛应用(yòng)于OLED发光和传输机理(lǐ)研究、新(xīn)型OLED设计、有(yǒu)机显示与照明材料以及有(yǒu)机太阳能(néng)電(diàn)池等领域,在实现分(fēn)子材料性质预测、高效率的OLED材料开发和计算等方面作用(yòng)显著。


▋3.新(xīn)药研发


在新(xīn)药研发行业,一个药物(wù)分(fēn)子从发现设计到最后的成药上市,平均周期需要13年,总成本更是高达17亿美元。其中,临床前先导化合物(wù)的发现和优化平均花(huā)费3.5年,资本化成本5.8亿美元,而化學(xué)合成大量的分(fēn)子则是这部分(fēn)的主要工作;基于人工经验的合成存在效率低、成本高、需大量试错的缺点,大幅拉低了新(xīn)药临床前研发的效率。


武汉某材料大数据企业,其开发的药物(wù)分(fēn)子逆合成技术,已经部分(fēn)实现了用(yòng)人工智能(néng)和化學(xué)大数据解决新(xīn)药研发临床前的化學(xué)合成问题,有(yǒu)效提高了药企新(xīn)药研发的效率;目前已和全球多(duō)家大型药企、CRO巨头达成实质订单合作。


上述案例已经说明了数据驱动新(xīn)范式在商(shāng)业化材料开发和应用(yòng)上的有(yǒu)效性,但同时这些专注于某个领域的材料数据企业也存在其发展局限——这种类型的企业的材料数据库一般只针对某一特定细分(fēn)行业收集数据,因此基于其数据库的开发平台或计算软件也只能(néng)在特定领域发挥作用(yòng)。要充分(fēn)发挥数据驱动新(xīn)范式的全方位优势,实现跨领域、宽门类、多(duō)维度协同的材料开发和应用(yòng),有(yǒu)赖于更加全面的材料数据库和基于此发展的丰富的材料开发和应用(yòng)软硬件产品。




四、交叉學(xué)科(kē)产生投资机会:

材料大数据企业应关注三个核心能(néng)力

图片


到2020年底,我國(guó)新(xīn)材料产业总产值超过6万亿元,预计2025年将达到10万亿元。仅考量材料研发环节,按3%研发费用(yòng)测算,市场空间可(kě)达1800亿-3000亿,值得投资机构关注。


这也对材料大数据企业的综合能(néng)力和产业技术资源提出了很(hěn)高的要求,重点體(tǐ)现在以下三方面:



▋1.庞大的材料数据库是基础


國(guó)外如AFLOW、NIST、NOMAD等领先的世界级材料数据库积累了数十万甚至上百万条材料相关数据,覆盖范围甚广。國(guó)内企业要想在材料大数据领域实现弯道超車(chē),首先要依托我國(guó)全产业门类的优势建立更大量级的材料数据库。大量真实数据是上层应用(yòng)的底层基础,没有(yǒu)足够庞大的数据库作為(wèi)基础,要想实现在特定领域乃至跨领域的新(xīn)材料开发应用(yòng)将是寸步难行。



▋2.深厚的材料學(xué)科(kē)背景是核心


对于材料大数据企业而言,核心团队不仅需要掌握数据挖掘和智能(néng)分(fēn)析技术,而且还需要深厚的材料专业背景;一方面,数据挖掘环节,需要材料专业知识来对错误和无效数据进行剔除和清洗,实现高质量有(yǒu)效数据的高效挖掘;另一方面,需要建立材料领域的知识图谱和描述符,将材料领域的的语言转為(wèi)AI可(kě)理(lǐ)解的语言,将材料领域的科(kē)學(xué)认知和技术积累转化為(wèi)数据的形式,进而才能(néng)开展人工智能(néng)分(fēn)析。


▋3.持续优化的数据算法和软硬件技术是应用(yòng)条件


目前在材料大数据领域通常采用(yòng)的算法包括高通量计算、第一性原理(lǐ)、蒙特卡罗算法等,未来随着越来越多(duō)维度的实验和理(lǐ)论计算数据加入,相关算法需要持续迭代。另一方面,材料大数据的产品服務(wù)需要针对不同应用(yòng)场景进行软件开发和优化,并与材料表征测试、合成反应、系统控制等多(duō)种技术融合,因此要求企业具备相关的技术团队和合作资源。


数据驱动的材料开发新(xīn)范式需要跨學(xué)科(kē)、多(duō)技术、多(duō)场景的交叉融合,未来材料大数据将产生巨大的价值。创东方将以精益求精的眼光,持续关注材料大数据企业未来的发展。


关于创东方| 联系我们| 法律声明

分(fēn)享我们到:

地址:深圳市南山(shān)區(qū)大冲社區(qū)科(kē)发路83号南山(shān)金融大厦2201  電(diàn)话: 0755-83189608  

Copyright © 2019 创东方 版权所有(yǒu)