脑科研,历来被视作理解自然和人类本身的“终极疆域”,近年中有多项获诺贝尔奖的研究与脑科学相关。探索脑科学,对于提升人类认知水平、脑疾病诊治和人工智能技术发展等具有十分重要的意义。脑科学的中心目标是建立大脑神经元的动态连接图,但是现有显微技术受数据通量制约,精确刻画神经环路图谱成为全球公认的难题。
如今,清华大学成像与智能技术实验室戴琼海院士牵头的多维多尺度高分辨率显微成像(简称RUSH脑成像)项目成果显著。其第二代RUSH的视场、分辨率、帧率、数据通量等综合技术指标国际领先,是全球视场最大、数据通量最高的介观光学显微镜,可实现对小鼠全脑皮层神经元的分布、动态功能信号传递过程的精准呈现,对推动中国生命和医学科学发展,提升脑科学研究和应用水平具有重大战略意义。
活体全脑成像既要“看得宽”“分得清”
又要“拍得快”“存得下”
脑科学研究需要在活体动物的全脑上进行观测和研究,清华大学脑科研项目组选择了小鼠大脑率先进行全脑实时成像研究。但是,这项工作的复杂性极高,要知道,小鼠大脑的神经元胞体直径大概只有10微米,神经元之间连接的突触才2~4微米,而小鼠大脑有一亿个左右的神经元,神经元之间有千余个数据连接,即使是最简单的神经连接也可能跨越大脑的两个半球,其神经网络的复杂程度远远超越当今的互联网。而考虑到人类大脑规模是小鼠的大脑的倍(神经元数量),其复杂度不可同日而语。
从脑成像角度来看,要对大脑进行观测,不仅要实现超宽视场和超高分辨率,还需要超快成像速度来实时观测动态信号传递过程。清华大学范静涛老师表示,“在RUSH研究之前,现有的显微观测设备,要么可以实现足够高的分辨率,但难以观测到全脑;要么可以观测到全脑神经活动,但无法观测到足够的神经元细节。主要原因是同时受制于光学成像能力和数据采集-传输通量瓶颈。”清华RUSH项目团队自行设计了适应像面弯曲的宽视场物镜系统,通过像感器矩阵实现并行的数据采集、传输、存储与重建,再融合计算照明,使得视场、分辨率、帧率、数据通量综合指标均处于国际领先水平。
百亿像素/秒,72小时连续写入不丢帧
PB级数据量/天,浪潮分布式存储平台助力清华大学RUSH
如果说大视场、高分辨率考验着RUSH脑成像项目的光学特性,那么要满足“极高的呈现速度”这个需求,就需要数字化能力的支撑。RUSH脑成像项目有着28台相机,每台相机0万像素,在连续拍摄过程中会产生.8亿像素/秒的数据通量,这就意味着当其连续拍摄任务中,每天将产生2.7PB左右的数据,存储系统显然要具备极高的容量。
“清华脑科研项目对于存储的要求不仅在于容量,更大的挑战是存储要实时在线,不能丢帧”,清华大学范静涛老师表示。例如,在研究过程中,研究人员会在小鼠血液中加入荧光剂,然后会使用RUSH中的28台相机,以每秒30帧、连续72小时的方式对小鼠进行拍摄,最后将这些图片拼接成三维图像序列。由于活体小鼠的血液无时无刻不在流动,相机需要去追踪每一个细胞的流动曲线,即使出现一帧的丢失,也会让研究人员无法跟踪到全过程,3D成像的拼接也无从谈起,会导致耗时、耗资巨大的拍摄项目功亏一篑。又如,RUSH脑成像系统的摄像仪器每秒钟会产生个文件、每个文件24MB,这些海量的小文件非常考验存储系统的处理能力;再如,第二代RUSH无法采用冷数据备份,所以需要采用创新数据冗余机制,确保数据不丢失。
针对该项目的需求,浪潮存储提供了基于分布式存储平台AS的高性能、高可用、高稳定性存储解决方案,提供40个节点的存储服务,存储空间约为5PB,满足20.16GB/s数据通量、最长拍摄时间72小时、拍摄过程中不丢帧等严格要求。根据RUSH脑科研的应用特征,以及对存储系统性能、带宽、扩展性、接口等需求指标,浪潮存储进行了业务模拟测试,对承载的数据量和运行时间进行实际测算,并根据用户未来业务扩展的需求加大数据量以验证系统和平台的承载能力和性能变化,并多次对用户设备进行匹配,对接口、外围设备匹配、文件删除性能等进行深度优化。同时,RUSH脑成像系统还部署浪潮智能统一存储管理平台InView,在数百万个文件的环境下,通过人工智能技术实现存储部署、运维、管理、调优的自动化,实现了对于故障盘90%以上的预测准确率。
探索脑科学,不仅有助于我们增进对于生命的认知,同样也对脑疾病的治疗与预防至关重要。虽然现代医学已经有了极大的发展,但是我们依然没有找到自闭症、抑郁症、精神分裂症等精神类的疾病的“特效疗法”,更不用说,帕金森综合征、阿尔兹海默症等脑疾病正在让数以亿计的人忍受病痛的折磨。
科学家们正在生命科学的“终极疆域”发起冲击,而脑成像的研究与创新,将为揭开大脑的秘密带来新的可能。随着数字技术在科研领域的应用,IT新技术将在脑科研中发挥重要的作用。浪潮存储也将一如既往地秉持创新精神,打造最完善的存储平台和最优的解决方案,为生命科学研究贡献自己的力量,充分释放数据价值。