功能注释常用数据库之GO数据库-技术前沿-资讯-生物在线

功能注释常用数据库之GO数据库

作者:北京博奥晶典生物技术有限公司 2018-05-04T10:31 (访问量:22910)

 

 

 

        相信每一位做过高通量分析的老师对上面这个图片都不陌生。没错,它就是有名的topGO有向无环图。为什么它如此有名?为什么在做功能注释时GO数据库都是必选之一?它到底是个怎样的数据库?上面这个图又如何解读?今天,小编就为大家一一解开这些疑惑。

 

【什么是GO数据

 

 

        GO (gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各物种的,对基因和蛋白质功能进行限定和描述,并能随着研究的深入而持续更新的数据库。GO中最基本的概念是“标签(term)”,这些terms是用来描述基因和基因产物特性的,即GO数据库是给每个基因贴上标签,以便研究者能够通过标签快速寻找到目标基因。另外,这些terms被分为3种不同的类型,也被称为GO的3个一级功能,它们分别是细胞学组件(Cellular Component,简称CC)、生物学途径(Biological Process,简称BP)、分子功能(Molecular Function,简称MF)。

 

【怎么理解GO的一级功能】

 

        做过高通量分析的老师都会发现,在GO分析中,所有的结果都是按照3个一级功能来整理分类的。也就是说,理论上每个基因都存在这3个不同层次的注释。下面小编就为大家详细介绍这3个GO的一级功能。

 

√ 细胞学组件(CC):用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;

√ 生物学途径(BP):指分子功能的有序组合,以达成更广的生物功能,如有丝分裂或嘌呤代谢等;

 

√ 分子功能(MF):用于描述基因、基因产物的功能,如与碳水化合物结合或ATP水解酶活性等等。

 

        那么,如何理解同一个基因注释到不同的类别中呢?现在小编就拿周期蛋白依赖性激酶1(CDK1)为例,来解答这个问题。基因CDK1在GO中注释到的功能有spindle(纺锤)、cell cycle(细胞周期)、protein binding(蛋白结合),则可以理解为CDK1是存在于纺锤体(或纺锤丝)上(CC),通过与某一蛋白形成复合物(MF)来参与细胞周期的(BP)。

 

GO term之间的关系

 

        GO数据库的一级功能之下,细分了很多二级功能,这些二级功能代表的是该基因注释到的更为具体的功能。那么某一基因到底注释到了哪些功能上?我们通常会用GO有向无环图(如上图)来展示,图中每个方框表示一个term,方框中注明了该term的名称,id及Corrected P-Value。方框的颜色是由Corrected P-Value值决定,Corrected P-Value值越小,颜色越深。通常我们关注的都是结果中颜色较深的这些term代表的功能,因为它们的富集显著性较高。term与term之间的连线代表它们之间的关系。GO term之间的关系包括3类,分别是is a、part of 和regulates。


        is a代表前者是后者的子类型,并且具有传递性。以下图为例,线粒体(mitochondrion)是一种胞内细胞器(intracellular organelle),而胞内细胞器是一种细胞器官(organelle),从而可以推出:线粒体是一种细胞器官。

 

图中的实线表示结点之间的关系,虚线表示推理而并未证明的关系。

 

        part of代表前者是后者的一部分,前者存在,那么后者一定存在;后者存在,前者可能存在。也具有传递性。以下图为例,线粒体(mitochondrion)是细胞质(cytoplasm)的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。

 

图中的实线表示结点之间的关系,虚线表示推理而并未证明的关系

 
        regulates代表的是调节控制关系。基因本体论语义中,如果某一过程直接影响另一过程或参数值(quality)的表现形式,我们则称前者调节控制(regulates)后者。被调节的对象可以是一个过程,如生物通路、酶促反应等,也可以是一个参数值,如细胞大小,pH值等。与part of 类似,调节控制关系也是充分非必要的,即:前者能且仅能调节控制后者,但后者并非只受前者的调节控制。例如:一旦cell cycle checkpoint(细胞周期检查点)出现时,它总是调节控制cell cycle(细胞周期),然而细胞周期并不单独受细胞周期检查点调节控制,还受其它过程的调节控制。
 
 
 
        以上就是今天小编要介绍的GO数据库的全部内容,加上上次小编同事为大家介绍的KEGG PATHWAY数据库(一份完整的KEGG PATHWAY介绍),我们已经为大家分享了高通量分析中最重要的两大数据库,有了这些基础,在面对庞大的注释结果时,老师们是不是已经找到突破口了呢?下期我们将会对医学高通量研究中Disease富集分析涉及到的主要数据库进行介绍,敬请期待。
 
----------------------------------------------------------------------------------------------------------------------------------------
 
北京博奥晶典生物技术有限公司
 
        在近18年的科研服务过程中,一贯秉承高质量的专业技术服务精神,自主开发和引进了一系列先进的高通量筛选和验证平台,为国内外众多的研究机构和制药公司提供科研服务,服务领域涉及基因组学、表观基因组学、转录组学、蛋白组学、代谢组学,微生物组学等多个技术领域。

截至到2018年4月,博奥晶典科研服务事业部已经支持客户发表文献总计超过1500余篇,影响因子超过6700分。影响因子大于5分的文章超过360篇,影响因子大于10分的文章超过70篇,影响因子大于20分的文章超过32篇。
 
 
 
 
科研服务事业部 余琛、吴洁 | 文案
 
 
北京博奥晶典生物技术有限公司 商家主页

地 址: 北京市亦庄经济技术开发区科创六街88号,亦庄生物医药园C座

联系人: 市场部

电 话: 18600397163

传 真:

Email:zhiyuanjing@capitalbiotech.com

相关咨询
ADVERTISEMENT