华大基因 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Tue, 08 Nov 2016 08:00:41 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 揭秘:华大基因如何用阿里云进行基因测序 //www.otias-ub.com/archives/534232.html Tue, 08 Nov 2016 08:00:41 +0000 //www.otias-ub.com/?p=534232 在2016杭州云栖大会首日,来自华大基因的基因组学数据专家黄树嘉在大数据专场分享了《基于数加MaxCompute的极速全基因组数据分析》,他主要从全基因组测序的背景与原理、传统单机分析流程的挑战、基于MaxCompute的方案三个方面进行了分享,详细介绍了华大基因运用阿里云处理海量的实践。

以下内容根据演讲PPT及现场分享整理。

什么是基因

jy1

基因是生命的基本因素,是人类和其他生物的基础遗传物质。细胞内有染色体,染色体是由一个一个的DNA碱基组成的,这些DNA碱基表现出来的是一个个的字符串。人共有23对染色体,有30亿个碱基对,我们在处理的过程中可以把它看作30亿量级的字符串。一个人拥有这么大的数据量,我们在对其进行解读的时候,为了保证数据的准确性,需要有几十层数据的解读。30亿个碱基对多么重要?一个人生老病死、健康与否的信息都会存储在基因中,所以,所进行的关于健康数据的研究是更直接的、更加面向这个人的本质。

什么是基因测序

如何获得细胞里面的数据?获得基因数据需要有一定的专用仪器,通过物理或者化学的相应方法,把处于细胞中的相应数据读取出来、数字化,我们才能对其进行相应的解读。

基因数据

jy2

为什么基因数据的数据量非常大?从上图中可以看出,我们的基因数据不仅仅是来自细胞核中的基因组,其还包括转录组、表现组(比如肠道卫生基因组、表观基因组等)、宏基因组等。这些数据加起来大约会有10T的数量级。基因数据的分析过程包括:测序,即从化学信号转为数字信号;数据记录成相应的数据格式;解读、比对、数据分析,以此来知道这个人为什么会如此的不同?为什么容易患病?为什么能够千杯不倒?为什么代谢咖啡的速度会特别快?最终形成数据报告。

传统单机分析流程的挑战

挑战1:流程繁杂,标准难统一

由于基因行业是一个比较新的行业,各个企业的标准难以统一。在分析过程中,会有很多步骤,而且每个步骤都会包含很多分析脚本,系统命令和外部工具,工具要被反复手动部署到计算集群,导致分析流程变得比较繁杂。随着基因组测序成本的降低,其测序的数据量不断提升,这种低效的方法已经阻碍了基因行业的发展。

挑战2:命令行操作、交互性差

jy3

繁杂的命令行操作导致了交互性能的低下。

挑战3:时间长

jy4

最致命的问题是分析时间过长。目前最先进的测序仪每一次测序的数据产量是1.5TB(大约为150人的数据量),并且产出这些数据的时间为3.5天。用传统的HPC集群进行分析的话,基本需要3天的时间来分析一个人的数据,而单个节点的话则需要5.8天的时间。由此可以看出,数据解读的效率远远跟不上数据的产出速度,这就为精准医疗后续的发展带来了极大的挑战。因为精准医疗就是要精准到个人的个性化用药,每个人的所有性状信息只有通过基因数据的分析才能做到个性化医疗。

基于MaxCompute的方案

如何及时的把这么多的数据解读出来,是现如今面临的挑战。为了解决上述挑战,提出了基于MaxCompute的解决方案。

MaxCompute分布式计算

jy5

把最常用的基因组的解读放在了MaxCompute上部署,这个过程与单机部署的过程完全不一样。此过程需要把产出数据到得到最终结果的过程中的每一步利用MaxCompute的思维将其分散出去,然后把如何去并行、如何加快有效速度在过程中呈现出来。

加速情形

搭建出这个流程之后,一个人的基因数据总共测了52层(即测试了52倍,大约为120G的数据量),该测试基本在3个小时之内就完成了分析,比单机提升50+倍,比HPC集群提升25+倍,比Hadoop集群提升6+倍。

群体测试

实际上,在基因解析的过程中,是多人同时分析的。每个人都是属于一定的群体的,我们要更好的解读这个人,就必须放在对应的群体中,而且基因组数据只有你将人放在群体中来分析才能够更加准确、更具有表达力。从华大数据中抽取了50个人的基因进行测试,整个测试分解为两大步骤、七万多任务量的提交,只消耗了41.5个小时就完成了50个人的整体基因组的分析,平均每个人只需要花费50分钟进行测试。

jy6

为什么单个人需要3个小时,50个人反而是41个小时而不是150个小时?在人群中分析基因组数据时,很多中间的步骤其实可以分散出去,最后并不需要每个人一个一个的去读取,而是群体分析数据情况,因此,时间状态总的来讲是缩短了。如果人数由50人加到更多的话,每个人的平均测试时间可以进一步的降低。

总的来说,50个人处理的数据量大约为2T,最终解读出来的有意义的数据量是21G,这样就实现了从海量计算,从原始数据到精确数据的变异。

]]>
携手阿里云,华大基因宣布BGI Online beta版本上线 //www.otias-ub.com/archives/441078.html Tue, 23 Feb 2016 08:32:06 +0000 //www.otias-ub.com/?p=441078 alibaba

随着运行在阿里云上的 BGI Online beta 版本上线,人类距离24小时完成一个人全基因组测序和分析的梦想又迈出了坚实的一步。日前,华大基因宣布其在阿里云计算平台部署的服务产品BGI Online国内beta版本正式上线,堪称基因行业的“应用市场”。该产品顺利上线是继去年10月华大基因、阿里云、英特尔在第十届国际基因组学大会上宣布联手启动搭建亚太首个精准医疗开发平台后取得的首个重要成果。这也是首个完全部署在阿里云上的大规模生物信息分析平台。

随着生命科学领域数据爆炸式的增长,如何及时获取、快速分析、安全储存这些庞大的数据是研究者们急需解决的问题。

BGI Online就是为此而生,它集成了高性能计算,大规模存储及安全网络互联等基础设施,支持数据的云端存储、分析、展示和交付。用户可以在BGI Online上访问自己的数据,获取标准分析结果,也可以定制个性化的数据分析方案,并与其他授权用户分享数据和成果。

华大基因研究院院长、首席科学家徐讯表示:“BGI Online将会吸引第三方应用开发者和数据分析服务厂商,将他们的应用整合到公共平台中,最终打造成为类似苹果的APP Store。”

在这个“基因应用市场”中,华大基因的测序仪类似于一部智能手机,用户可以到BGI Online“下载”各种官方或第三方应用,进一步开发自己的数据解读和分析系统。BGI Online将在后续版本中引进第三方应用开发者和数据分析服务商,并将于近期召开“中国生物信息与云计算产业联盟筹备暨开发者大会”与开发者共享行业发展成果。

华大基因研究院副院长、信息技术中心主任方林介绍,除了基于云端的平台,华大基因也在开发整合硬件软件技术的BGI Appliance一体机,通过一体机与BGI Online的互动,为用户提供更加丰富的体验。

值得一提的是,依托阿里云的弹性存储和计算优势,BGI Online不但可以满足基础科研、作物育种及临床应用等不同应用场景和模式对数据处理、存储和传输的需求,还通过使用一系列先进的数据技术,满足HIPAA法案等行业安全条例的要求。同时,使用内资服务器存储和分析敏感的基因数据,也更加符合我国《人类遗传资源管理办法》的规范。简洁易用的界面和高度安全的特性,使医生和研究者们可以把管理数据、硬件维护等繁杂的工作交给BGI Online和阿里云,从而更专注于他们要解决的科学和临床问题。

这意味着,对于科研院所、医疗机构及中小型基因行业创业公司来说,只要拥有基因数据,不必自建和维护昂贵而复杂的计算、存储平台,通过BGI Online便可以解码神秘基因背后的奥秘。全球最大的基因组学研发机构华大基因打开了基因行业这扇神秘大门,让基因行业变得“触手可及”。

BGI Online产品负责人金鑫表示,阿里云在云计算、大数据领域有丰富的经验和积累,能够满足华大基因在数据处理、隐私安全保护以及传输方面极为严苛的要求。目前华大基因在生育健康、肿瘤防治等领域的众多分析流程已经可以在BGI Online上运行。今后华大基因将携手阿里云进一步开发和完善BGI Online产品,为全球研究者和用户提供更便捷、更安全的服务。BGI Online团队也将不断引进云计算、大数据、生物信息等方面的高水平人才,不断打磨更高质量的产品。

阿里云为华大基因提供了全线的云服务产品,并且针对BGI Online平台特点在项目改造迁移中提供了强有力的技术支持和运维保障。阿里云高级专家孟方介绍,BGI Online平台通过阿里云提供的混合云部署模式很好的解决了华大内部客户高速低延时的数据传输需求。通过阿里云节点提供的多线BGP接入,满足了全球客户高速访问的需求。同时,低成本的数据存储、弹性数据分析计算平台都很好地解决了华大基因的业务需求。

BGI Online平台的成功迁移证明了阿里云在生命科学领域的产品支持已经达到世界领先水平。借助最先进的云计算技术,BGI Online使得生物信息分析和数据管理能力变得更容易获取,极大降低了平台用户和华大的基因数据分析成本,为即将到来的基因大数据时代提供了高质量的基础设施,为精准医疗、分子育种等产业的发展打下了坚实的基础。

据透露,BGI Online除了针对华大基因内部及客户使用外,也将于近期启动对外的免费公测服务。

“我们的目标是使用自主知识产权的测序仪和云端分析平台,在24小时内完成一个人从全基因组测序、分析到解读的全过程。虽然面临着不小的挑战,但生命的价值值得我们为之努力。这样的努力势必会使中国在未来数十年在生命科学、生物产业获得持续增长的强劲动力。”华大基因股份有限公司CEO尹烨说。

在阿里云计算总裁胡晓明看来,2016年视觉革命、生命科学和数据创业三个行业将迎来爆发性增加。他认为,2016年将是生命科学产业发生重大变化的一年。“基因正在和精准医疗形成交叉,人体正在变得数据化。生命科学领域数据爆炸式的增长,对海量数据的计算、存储和分析提出新的挑战。阿里云将持续创新,为生命科学领域提供强大的计算能力,为生命科学领域的发展发挥无法计算的价值。”胡晓明说。

]]>