国家社会科学基金(13CTJ001) 作品数:8 被引量:247 H指数:7 相关作者: 方匡南 马双鸽 王小燕 李扬 章贵军 更多>> 相关机构: 厦门大学 耶鲁大学 中国人民大学 更多>> 发文基金: 国家自然科学基金 国家社会科学基金 教育部人文社会科学研究基金 更多>> 相关领域: 经济管理 社会学 理学 更多>>
大数据的整合分析方法 被引量:28 2015年 大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下,L1Group Bridge、L1Group MCP、Composite MCP都表现良好,其中L1Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。 马双鸽 王小燕 方匡南关键词:大数据 癌症基因 基于Lasso-logistic模型的个人信用风险预警方法 被引量:112 2014年 将Lasso-logistic模型引入个人信用评估,通过模拟实验发现,逐步回归法倾向于保留一些不重要的变量,而且选出正确模型的概率较低,而Lasso不仅计算更加快捷,可以同时进行变量选择和参数估计,而且能更准确地筛选出重要的变量。以信用卡消费信贷违约数据为例对我国个人信用评估进行实证分析发现,相对于全变量Logistic模型和逐步回归Logistic模型,Lasso-logistic模型更能抓住影响消费信用风险的关键因素,而且预测准确率也更高。 方匡南 章贵军 张惠颖关键词:信用风险 正则化Beta回归及其应用 被引量:1 2016年 随着计算机的飞速发展,极大地便利了数据的获取和存储,很多企业积累了大量的数据,同时数据的维度也越来越高,噪声变量越来越多,因此在建模分析时面临的重要问题之一就是从高维的变量中筛选出少数的重要变量。针对因变量取值为(0,1)区间的比例数据提出了正则化Beta回归,研究了在LASSO、SCAD和MCP三种惩罚方法下的极大似然估计及其渐进性质。统计模拟表明MCP的方法会优于SCAD和LASSO,并且随着样本量的增大,SCAD的方法也将优于LASSO。最后,将该方法应用到中国上市公司股息率的影响因素研究中。 方匡南 王秉权关键词:正则化 股息率 大数据时代统计学发展的若干问题 被引量:33 2017年 近年来,计算机和互联网的发展使得人类信息的拥有量达到了前所未有的程度,各类信息被保存流通起来,人类进入了大数据时代。大数据具有规模性、多样性,高速性等特点,给统计学的发展带来了新的机遇,同时也带来了新的挑战。本文回顾了统计学的发展历史,剖析了统计学的发展特点,在此基础上讨论了大数据背景下统计学的发展定位;并进一步分析统计学与计算机之间的关系,最后分析了大数据研究中存在的若干误区。 “大数据中的统计方法”课题组 马双鸽关键词:因果关系 数据质量 不平衡数据的企业财务预警模型研究 被引量:28 2016年 在股票市场中,由于被评为"ST"的公司数量远远少于普通的公司,所以用于训练财务预警模型的数据有着严重的不平衡性。而一般的分类模型如logistic回归等并不具备处理不平衡数据的能力。本文应用加权L1正则化支持向量机(w-L1SVM)构建一个可以处理不平衡数据的财务预警模型:一方面,w-L1SVM通过对两类样本的损失函数进行加权处理,有效地解决了样本不平衡性带来的预测精度问题;另一方面,w-L1SVM通过引入LASSO罚,使得模型在训练的过程中可以直接进行特征选择。通过数值模拟,本文验证了w-L1SVM在非平衡数据分类问题中的预测和特征选择表现。在实证研究中,本文针对我国股票市场机械、设备、仪表板块中的上市公司构建了一个基于w-L1SVM的财务预警模型,结果显示基于w-L1SVM的财务预警模型可以有效选择重要的财务指标并预测被评为"ST"的公司,并且其预测效果显著优于非加权的传统模型,这充分说明了w-L1SVM在财务预警问题中的适用性。 李扬 李竟翔 马双鸽关键词:财务预警 基于网络结构Logistic模型的企业信用风险预警 被引量:59 2016年 随着计算机和互联网的快速发展,特别是在大数据时代,企业积累了大量有关企业经营、财务等相关数据,变量众多且关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好。本文在充分考虑变量间的网络结构(Network)关系基础上,提出了网络结构Logistic模型,通过惩罚方法同时实现变量选择和参数估计。蒙特卡洛模拟表明网络结构Logistic模型要优于其他方法。最后,我们将其应用到我国企业信用风险预警中,充分考虑财务指标间的网络结构关系,科学地选择评估指标,构建更加适合我国国情的企业信用风险预警方法。 方匡南 范新妍 马双鸽关键词:企业信用风险 网络结构 LOGISTIC模型 面板数据模型的惩罚似然变量选择方法研究 被引量:7 2014年 本文针对面板数据模型的惩罚似然变量选择问题,比较研究了Lasso、Adaptive Lasso、Bridge和SCAD四种罚函数的渐近性质。模拟结果验证了在面板数据情况下,Adaptive Lasso、Bridge和SCAD的Oracle性质同样成立,且它们在变量选择准确性、参数估计精度和模型预测精度三方面的效果都优于Lasso。为了合理选取调整参数,本文考虑AIC、BIC、GCV、Cp四种准则,通过模拟显示BIC和GCV的表现通常要优于AIC和Cp。作为实证研究,本文在面板数据框架下应用惩罚似然方法对上市公司市盈率影响因素进行选择,以期对股市投资者做出理性投资决策有一定指导价值。 李扬 曾宪斌关键词:面板数据 Logistic回归的双层变量选择研究 被引量:13 2014年 变量选择是统计建模的重要环节,选择合适的变量可以建立结构简单、预测精准的稳健模型。本文在logistic回归下提出了新的双层变量选择惩罚方法——adaptive Sparse Group Lasso(adSGL),其独特之处在于基于变量的分组结构进行筛选,实现了组内和组间双层选择。该方法的优点是对各单个系数和组系数采取不同程度的惩罚,避免了过度惩罚大系数,从而提高了模型的估计和预测精度。求解的难点是惩罚似然函数不是严格凸出的,因此本文基于组坐标下降法求解模型,并建立了调整参数的选取准则。模拟分析表明,对比现有代表性方法 Sparse Group Lasso、Group Lasso及Lasso,adSGL法不仅提高了双层选择精度,而且降低了模型误差。最后,本文将adSGL法应用于信用卡信用评分研究,与logistic回归相比,其具有更高的分类精度和稳健性。 王小燕 方匡南 谢邦昌关键词:信用评分