首页  >  科研进展  >  科研进展详情

张泽民院士开发的公共数据库在线分析工具,已有两千多篇文章引用,图好看,操作简单!

2023-12-10   细胞自然科学   阅读量:330

今天介绍一个网站,只有用了才知道有多好!

    GEPIA网址:
    http://gepia.cancer-pku.cn/

    GEPIA全名为gene expression profiling and interactive analyses,这个在线工具由北京大学张泽民院士团队开发,整合了TCGA、GTEx等公共数据库的资源。

    GEPIA服务器上的所有数据集都由标准pipeline计算,并且彼此兼容。使用 Google Chrome 浏览器可以获得最好的可视化效果。

    GEPIA作为一个网络服务器,使用标准处理流程分析来自 TCGA 和 GTEx 项目的9,736个肿瘤和8,587个正常样本的 RNA 测序表达数据。

图片

    以GEPIA为关键词在Pubmed搜索可看到2353个完全匹配的结果。

图片

    搜索结果的第一个页面(Page 1 of 236)显示最新的三篇文章,而搜索结果的最后一个页面(Page 236 of 236)显示了最早的三篇文章,其中最后一篇正是张泽民院士团队2017年在Nucleic Acids Res(Nucleic Acids Research,IF=15)发的开创性论文,标题为:GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses。

    也就是说,这个工具分析出来的结果是被广泛认可的。

图片

    那么,该如何使用这个工具呢?

    假如你已经明确了要研究的基因:

    选GEPIA2入口, 进入:

图片

    在“输入基因名称”字段中输入基因符号或基因 ID (ensembl ID) ,然后单击“ GoPIA!”按钮来搜索感兴趣的基因。

    1、对目的基因的表达量分析:以mTOR为例。

图片

    差异表达分析

    该模块允许用户对给定的数据集应用自定义统计方法和阈值,动态获得差异表达的基因及其染色体分布。

    参数

    数据集: 选择感兴趣的癌症类型

    染色体分布: 在染色体分布图上选择“高表达”、“低表达”或“两者兼有”。

    差异阈值: 

    差异分析方法: 选择差异分析方法。

    | log2FC | 界限: 设置自定义折叠变化阈值。

    Q 值界限: 设置自定义 q 值阈值。

    百分比界限: 设置自定义百分比阈值。

    对于方差分析和 LIMMA 选项,具有较高 | log2FC | 值和较低 q 值的基因被认为是差异表达基因

    对于前10个选择,log2FC 值和百分比值高于阈值的基因被认为是过表达基因; 因此,只有过表达基因才会出现在列表和染色体图中

    结果:

    差异基因

    点击“列表”按钮: GEPIA 会根据输入参数生成一个差异表达基因的列表[默认情况下,该列表按 log2FC 降序排序]。

    按以下四个步骤查询目的基因在选定的肿瘤类型里是否有上调或下调(相比于正常组织)。

图片

    染色体分布图

    点击“ Plot”按钮: GEPIA 将生成一个染色体分布图。染色体中表达上调的基因以红线标记,而表达下调的基因以绿线标记。

图片

    自己动手绘制表达谱

    GEPIA 根据选定的数据集和按癌症类型或病理分期的统计方法绘制特定基因的表达图谱。

图片

图片

    2、对特定基因的生存分析

图片

图片

低mTOR对应更高的survival

    3、了解某组织中两个基因之间的关联性,有的关联是相互促进,有的关联是反馈抑制。

    4、了解目标基因有哪些亚型

图片

    5、了解目标基因有哪些类似基因

图片

    二、如果你还没有关注的基因,但是你有关注的肿瘤类型,或者两者都没有,你可以这样开始:

    1、特定肿瘤表达差异基因。FC和q-Value CUTOFF 都可以自选,第5步要选择“list",对应列表可以下载。

图片

    2、特定肿瘤批量生存分析。

图片

    将表达差异和生存分析有意义的基因取交集,得到表达有差异且有临床意义的基因。接下来可以做基因富集,并做文献调研。说不定一个课题就这样产生了。

张泽民
中国科学院院士
生物信息、肿瘤免疫、基因组学专家