新闻资讯

NEWS

多组学关联分析方法HAllA操作方法

分类:公司动态   发布时间 2020-10-09   阅读: 92


HAllA(Hierarchical All-against-All association)是一种在高维、异构数据集中寻找多分辨率关联的计算方法。用于以高功率发现数据特征之间的显著关系。对数据类型具有很强的鲁棒性,可以对连续值和分类值进行操作,并且在同质数据集(所有测量值都属于同一类型,例如基因表达微阵列)和异构数据(包含具有不同单位或类型的测量值,例如患者临床数据)上都能很好地工作。


简单来讲,HAllA是探索代谢组学、转录组学、微生物组学、蛋白质组学等多个组学之间相关性的有力工具

HAllA流程图如下:


代谢组学


HAllA特点

通用性:可以处理混合数据类型的数据集:分类、二进制、连续、词法(有或无固有顺序的文本字符串);


效率:不需要遍历所有可能的关联,而是只对统计学上有意义的候选变量进行详细测试;


可靠性:利用分层错误发现校正来限制由于多重假设检验导致的假阳性;


可扩展性:不同步骤可以使用不同的方法。

1. 相似性计算方法有:Pearson、Spearman、归一化互信息(NMI)、调整后的互信息(AMI)、互信息(MI)、最大信息系数(MIC)、离散化互信息默认和距离相关(DCOR);
2. 降维分解的方法有:层次聚类、PCA、ICA、MCA、聚类质心、偏最小二乘法(PLS)、典型成分分析(CCA)和核主成分分析(KPCA);
3.FDR方法有:BHY、BH和Bonferroni。

下面以测试过的系统和软件为例说明操作方法

系统

Linux debian 4.9.0-4-amd64 #1 SMP Debian 4.9.65-3 (2017-12-03) x86_64 GNU/Linux

软件

3.6.9 |Anaconda, Inc.| (default, Jul 30 2019, 19:07:31) \n[GCC 7.3.0]

运行

1.安装halla包:直接在安装了python的环境的命令行输入pip install halla,需要注意的是该包调用了R的相关函数,所以需要安装R及相关包;

2.下载示例数据,列是样本行是特征

(1)使用提供的案例数据,样本需要一一对应;

(2)也可以使用包中example文件夹下的数据。

3.使用HALLA API分析,python代码如下:



常用参数

X:第一个数据集;
Y:第二个数据集;
m:选择相关性计算方法(spearman :Spearman's rank correlation斯皮尔曼等级相关系数);
header:使用两个数据集的列名来查找列(样本)并重新排序。
参数还有很多,在此不再一一介绍。

结果解释

1. 数据集X和Y的聚类热图,左侧展示了特征簇。

代谢组学

代谢组学

2. associations.txt文件:


代谢组学


表头解释
association_rank:相关性p值的排名;
cluster1:第一个数据集的聚类后的簇;
cluster2:第二个数据集的聚类后的簇;
Pvalue:簇1和簇2的检验后的p值;
Qvalue:校正后的p值。
similarity_score_between_clusters:两个类别之间的相关性大小。

3. similarity_table.txt:


代谢组学


这个文件是第一个数据集与第二个数据集中成对特征的相关性矩阵。OUTPUT文件夹里面还有很多结果,不再一一介绍。

4. 还可以使用修改后的corr_heatmap.py画出相关性热图,在OUTPUT文件夹里打开shell,输入下面的命令:


代谢组学

代谢组学


上图和常规的相关性热图类似,但是会突出展示聚类后的簇之间的相关性,图中标出的数字是对应簇相关性大小的排名,数字越小相关性越高。

除了这个分析之外,阿趣代谢还提供各类个性化定制分析服务,文献上的炫酷图片+烧脑分析,不要客气,敬请扔过来进行咨询~欢迎有此类需求的老师垂询服务热线:400-664-9912。


代谢组学