目前提出的用于检测变量间相关关系的方法,如最大信息系数(Maximal Information Coefficient,MIC),多应用于成对变量,却很少用于三元变量或更高元变量间的相关性检测。基于此,该文提出能够检测多元变量间相关关系的新方法最大信息熵(Maximal Information Entropy,MIE)。对于k元变量,首先基于任意两变量间的MIC值构造最大信息矩阵,然后根据最大信息矩阵计算最大信息熵来度量变量间的相关度。仿真实验结果表明MIE能够检测三元变量间的1维流形依赖关系,真实数据集上的实验验证了MIE的实用性。
为提高文本分类的准确率,提出了费希尔信息度量随机近邻嵌入算法(Fisher information metric based on stochastic neighbor embedding,FIMSNE).首先,把文本的词频向量看作统计流形上的概率密度样本点,利用费希尔信息度量计算样本点之间的距离;然后,从信息几何的观点出发,对t分布随机近邻嵌入(t-stochastic neighbor embedding,t-SNE)进行改进,实现了新算法.真实文本数据集上的二维嵌入和分类实验的结果表明:FIMSNE的性能在总体上优于t-SNE、费希尔信息非参数嵌入(Fisher information nonparametric embedding,FINE)和主成分分析(principal components analysis,PCA).
最大信息系数(Maximum Information Coefficient,MIC)能够很好的检测成对变量间的线性和非线性依赖关系,但却不能直接用于检测三元变量间的相关关系.基于MIC的思想和全相关的概念,本文提出了一种直接检测三元变量间一维流形依赖关系的方法—最大全相关系数(Maximal Total Correlation Coefficient,MTCC).MTCC用落在[0,1]区间上的值来表明三元变量间一维流形依赖关系的强弱,其中0和1分别表示最弱和最强的依赖关系.使用MIC的计算策略,本文还提出了一种有效的动态规划方法来近似计算MTCC的值.仿真实验说明MTCC与非线性相关信息熵(Nonlinear Correlation Information Entropy,NCIE)相比具有更好的通用性和公平性,真实数据的分析验证了MTCC的实用性.最后,强调了其专用性.