资源|基础研究常用数据库汇总
日期:2019-09-03 10:32:20
分子生物学是生物学的一个分支,在分子水平上研究生命现象的科学。通过研 究生物大分子(核酸、蛋白质)的结构、功能和生物合成等方面来阐明各种生命现象的本质 。分子生物学的分子基础是中心法则,如图1所示。在21世纪大数据时代,分子生物学基础研 究也飞速发展,这当然离不开强大的数据库。本文中,我们收集了目前认可度较高的分子生 物学研究相关数据库,涉及基因信息、基因表达信息、基因功能分析、转录因子、miRNA分析 和预测等几个方面。
Figure 1. The brief diagram of genetic central dogma
1. 基因信息
基因,又称遗传因子,是产生一条多肽链或功能RNA所需的全部核苷酸序列。 基因支持着生命的基本构造和性能,储存着生命的种族、血型、孕育、生长、凋亡等过程的 全部信息。常有人将基因与DNA混淆,DNA含有大量不编码任何蛋白质序列,换句话说,DNA比 基因大。基因是带有遗传讯息的DNA片段。基因在转录和翻译中至关重要,是转录翻译的核心 。这里,我们列出了查找基因信息的三大数据库。
1.1 GeneCards
GeneCards(https://www.genecards.org/)是一个综合性的人类基因数据库,全面提供有关所有注 释和预测的人类基因信息。此外,它自动整合约150个在线基因中心数据,包括基因组、转录 子、别名、结构域、药物、表达和定位等信息。
1.2 BioGPS
BioGPS(http://biogps.org/)是一个基于现有的遗传和基因组资 源,可自由拓展和定制的基因注释网站。BioGPS可为用户提供一个探索感兴趣基因间联系的 场所。目前,BioGPS主要包含了人类、小鼠和大鼠的基因。
1.3 UCSC Genome Browser
UCSC Genome Browser(http://genome.ucsc.edu/)是一种可在线下载的基 因组浏览器,由加州大学圣克鲁兹分校(UCSC)主办。 它是一个交互式网站,提供了多种脊 椎动物、无脊椎动物和主要模式生物的基因组序列数据访问链接。浏览器是一个优化的图形 查看器,支持快速交互性能,是一个基于Web的开源工具,建立在MySQL数据库之上,可以在 多个级别快速查询数据的网站。
2. 基因表达信息
基因表达是将来自基因的信息用于功能性基因产物合成的过程。这些产物 通常是蛋白质,例如,酶、激素和受体。但在非蛋白质编码基因如tRNA或snRNA基因中,表达 的产物是功能性RNA。
2.1 Gene Expression Omnibusr
Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/) ,也称为GEO,是一个公共功能基因组数据库,支持符合MIAME标准的数据提交,也可接受以 数组和序列为基础的数据。 另外,该数据库还提供帮助用户查询和下载实验并设计基因表达 谱的工具。
2.2 ArrayExpress
ArrayExpress(https://www.ebi.ac.uk/arrayexpress/)是科学期刊主推的软件库之 一,旨在归档芯片和测序平台的功能基因组学数据来支持可重复的研究。为了支持可重复的 研究,他们根据芯片实验的最低信息(MIAME)和测序实验的最低信息(MINSEQE)指南来审 核数据提交。
2.3 The Cancer Genome Atlas
癌症基因组图谱(https://www.cusabio.com/c- 20839.html),也称为TCGA,是由美国癌症研究所(NCI)和美国人类基因组研究所 (NHGRI)共同监管。目前,该网站已经绘制出33种癌症关键基因组变化的综合多维图谱。它 旨在应用高通量基因组分析技术,帮助人们更好地了解癌症,从而改善癌症的预防,诊断和 治疗。
3. 基因功能分析
基因功能分析是基于基因组研究分析一系列未知基因功能的重要方法。
3.1 DAVID
DAVID(https://david.ncifcrf.gov/)现在可提供一套全面的功能注释工具, 供研究人员了解大量基因背后的生物学意义。对于任何给定的基因列表DAVID工具能够做到以 下几点:确定生物学主题,特别是GO术语;发现功能相关基因组;群集冗余注释术语;在 BioCarta和KEGG信号通路图上实现基因可视化;在二维视图上显示相关的多个基因。
3.2 MetascapeD
Metascape(http://metascape.org/)是一个免费的基因注释和分析资源库,可帮 助生物学家理解一个或多个基因列表。Metascape提供自动化分析工具,旨在了解一组正交蛋 白来发现研究中的常见或独特途径和蛋白质网络。该资源库所有的分析结果都显示在Web报告 中,包括Excel注释、富集表、PowerPoint幻灯片和自定义分析文件,以便进一步进行离线分 析或处理。
3.3 XTalkDB
XTalkDB(http://www.xtalkdb.org/home)是研究信号通路间相互作用的数据库 。众所周知,信号通路及通路间的相关作用的分析是系统生物学研究的基石。未开发XTalkDB 之前,几乎没有数据库明确地汇总特定信号通路及其互相影响的通路。XTalkDB从1600多种期 刊中提取出了650条信号通路,并对他们之间的相互作用进行了分析。
4. 转录因子
转录因子,也称为序列特异性DNA结合因子,是一群能与基因5`端上游特 定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子 。真核生物在转录时往往需要多种蛋白质因子的协助。一种蛋白质是不是转录机构的一部分 往往是通过体外系统看它是否是转录起始所必须的。
4.1 iRegulon
iRegulon(http://iregulon.aertslab.org/)包含转录因子(TF)及其直接转录 DNA序列组成,在转录序列的顺式作用元件处包含与TF结合位点。另外,iRegulon插件可以让 您用一组共同调节基因中的基序来识别调节子。
4.2 TFcheckpoint
TFcheckpoint(http://www.tfcheckpoint.org/)是人类、小鼠和大鼠转录因子数据库 。手动检索TFcheckpoint中的转录因子可以获得其在RNA聚合酶II调节和特异性DNA结合活性 实验中的数据。
5. miRNA 分析和预测
miRNA(又称为microRNA)是在动植物和一些病毒中发现的长度18~25个 核苷酸的小单链RNA,由DNA转录产生,不翻译成蛋白质,通过碱基互补配对的方式与靶基因 的3’UTR区部分或完全互补,剪切靶基因的转录产物或者抑制转录产物的翻译,从而起到转 录后凋控靶基因的表达的作用,是基础研究中下调靶基因表达的常用方法。
5.1 starBase
starBase(http://starbase.sysu.edu.cn/)是一个开源平台,用于研究CLIP中的 miRNA-ncRNA、miRNA-mRNA、ncRNA-RNA、RNA-RNA、RBP-ncRNA和RBP-mRNA相互作用。目前, starBase已从多维测序数据中鉴定了超过110万个miRNA-ncRNA,250万个miRNA-mRNA,210万 个RBP-RNA和150万个RNA-RNA的相互作用。
5.2 miRTarBase
miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)是经过实验验 证的microRNA-target相互作用数据库。目前为止,miRTarBase的miRNA-target相互作用 (MTIs)数已经累计超过三十六万。
5.3 miRWalk
miRWalk(http://mirwalk.umm.uni-heidelberg.de/)是一个综合性数据库,可 提供已验证和预测的miRNA结合位点信息,涉及种属包括人类、小鼠和大鼠。另外,miRWalk 还整理了miRNA相关靶标的所有信息。
5.4 miRBase
miRBase(http://www.mirbase.org/)是已发表的miRNA序列和注释的数据库。 miRBase数据库中的每个条目代表miRNA转录物的预测发夹结构(在数据库中称为mir),其具 有关于成熟miRNA序列(称为miR)的位置和序列的信息。发夹结构和成熟序列都可用于搜索 和浏览,并且还可以通过名、关键字、引用和注释来检索条目。所有序列和注释数据也可以 下载。
5.5 TargetScan
TargetScan(http://www.targetscan.org/vert_72/)通过搜索是否存在与每个 miRNA的种子区域匹配的保守8聚体、7聚体和6聚体位点来预测miRNA的靶点。
5.6 TargetScan
DIANA(http://diana.imis.athena- innovation.gr/DianaTools/index.php)是miRNA研究工具的集锦。这个数据库有四个功 能特色:microT-CDS预测microRNA靶基因;LncBase v.2是基于miRNA预测lncRNA;miRGen v.3是预测miRNA启动子和调节因子,如转录因子;Mirpub是miRNA相关文章。
6. 其他
除了跟基因相关的基础研究数据库,咱们的研发同志还建议附上两个权威 性比较强的与药物研发和疾病研究的数据库,说不定咱们一不小心就从基础走上了临床,然 后越走越远……
6.1 L1000FWD
L1000FWD(http://amp.pharm.mssm.edu/L1000FWD/)是一个网络应用程序,拥有 超过16,000种药物和小分子诱导的基因表达特征。另外L1000FWD可以通过不同的属性(如细 胞类型、时间点、浓度)以及药物属性(如MOA和临床阶段)对特征进行着色,进一步实现直 观化与可视化。
6.2 MalaCards
MalaCards(https://www.malacards.org/)是人类疾病综合性数据库,参考 GeneCards数据库的架构,整合了专业和一般疾病,包括罕见疾病、遗传疾病、复杂疾病等。
上一篇: TROP2--肿瘤治疗的重要靶点
下一篇: 细胞器标志物,你知道多少?