张贝贝
- 作品数:9 被引量:57H指数:6
- 供职机构:首都经济贸易大学统计学院更多>>
- 发文基金:国家自然科学基金全国统计科学研究计划项目首都经济贸易大学研究生科技创新项目更多>>
- 相关领域:理学经济管理自动化与计算机技术更多>>
- 基于Copula函数的非线性时间序列聚类被引量:6
- 2019年
- 时间序列数据的聚类是对面板数据或多维时间序列根据序列相似度进行分组。聚在同一组的时间序列具有相近的模型参数,尤其是当序列较短时聚类后能够得到更精确的参数估计。现存的时间序列聚类方法的距离度量大都基于时间序列的线性假设,但是现实中时间序列通常是非线性的。本文提出了一种基于Copula距离测度的非线性时间序列数据的聚类方法,它利用了Copula函数获取时间序列的非线性相依结构。作为一种非参数的距离度量,基于Copula函数的距离度量能够识别动态相关结构的相似性。大量的模拟实验和实证研究验证了我们所提方法的有效性。
- 张贝贝安百国张宝学
- 关键词:聚类COPULA函数非线性时间序列
- 基于Group-LASSO方法的广义半参数可加信用评分模型应用研究被引量:13
- 2016年
- 信用风险是目前商业银行面临的风险中最为重要和最为复杂的,新巴塞尔协议要求各国条件的银行通过实施内部评级法来度量并控制信用风险,内部评级法即通过银行收集的客户相历史数据来构建数学模型,测算客户的违约概率进而对客户进行评分。文章针对信用评分模型解释变量维数较高,类型丰富,好坏客户类型数量不均衡等特点,利用广义半参数可加模型对户违约概率进行建模,并将Group LASSO方法应用于模型进行变量选择和估计。实证研究表明本文提出的模型和方法与以往常用的线性logistic回归模型相比,在模型的判别能力和预测能以及解释性和计算效率上均有较大优势。
- 张娟张贝贝
- 关键词:信用风险GROUP
- 基于多元数据的谱聚类算法改进与聚类个数确定被引量:7
- 2022年
- 文章基于谱聚类算法,首先利用拉普拉斯矩阵的特征值构造聚类个数变点图,给出了确定聚类个数的直观方法,然后对优化目标引入聚类个数惩罚项,定量探讨聚类个数的选择,最后针对多元数据,通过修订距离矩阵处理成对约束信息,并基于距离矩阵构造了三种自适应相似度矩阵,再进行谱聚类。数值模拟结果显示:对于确定聚类个数,聚类个数变点图直观、有效,而惩罚法依赖惩罚项的权重参数,具有一定主观性;三种自适应谱聚类算法均有效,对成对约束信息处理方便、适应面广,稳定自适应谱聚类对近邻个数的选取更稳健。
- 王丙参魏艳华张贝贝
- 关键词:谱聚类聚类个数自适应
- 基于Bayesian Lasso方法的变量选择和异常值检测被引量:2
- 2015年
- 针对Bayesian Lasso方法的变量选择和异常值检测进行了研究。该方法是在线性回归模型中引入识别变量,借助于双层Bayesian模型和Gibbs抽样算法,给出识别变量后验概率的计算方法和变量选择的方法,通过比较这些识别变量的后验概率进行异常值定位。最后进行了大量的模拟实验,结果表明,该方法是可行且有效的。
- 尚华冯牧张贝贝于凤敏
- 关键词:异常值BAYESIANGIBBS抽样
- 数字时代问题驱动下数学建模课程教学探索被引量:3
- 2018年
- 数学建模课程案例教学由现实问题驱动,借助数学方法寻求解决方案。大数据背景下需要适当增加与时下热点问题紧密结合的新颖选题,充分调动学生学习的主动性,培养学生的创新意识与团队协作精神。数学建模过程与论文撰写是引导本科生从事科研和实践活动的有效途径。通过学习和训练,学生具备了基本的科学研究能力,创新能力得以提高,并提升对数学类课程的总体认识。
- 闵素芹张贝贝
- 关键词:大数据研讨式教学案例教学数学建模
- 中国经济发展水平动态评价被引量:6
- 2022年
- 文章构建了函数型全局拉开档次评价法,根据全局拉开档次准则确定指标权重,将多元评价函数转化为综合评价函数(CEF),通过CEF积分值进行短期、长期评价;进一步对CEF进行FPCA,利用PCS的加权欧氏距离进行系统聚类,并以主成分综合得分(PCCS)进行长期评价。选择5个经济指标,运用上述方法对我国各省份进行聚类与排序,结果显示:我国各地区的经济发展水平不平衡,只有约11个省份的经济发展水平高于平均水平,且发达地区差异大于发展较差地区差异;发达地区与欠发展地区排名都比较稳定且规模较小,发展中地区很多;我国经济发展水平的地区差异呈缩小趋势;东北三省、河北、新疆经济发展水平排名下降较多,煤炭资源丰富的山西的经济发展水平排名起伏较大,稳定性较差,安徽、陕西等省份经济发展水平排名进步较大。
- 王丙参魏艳华张贝贝
- 基于Bayesian方法的参数估计和异常值检测被引量:6
- 2016年
- 异常值检测是当前数据分析研究中的一个重要研究领域。模型中的异常值会直接影响建模、参数的估计、预测等问题。基于模型的异常值检测,传统的做法是先对模型参数进行估计,再进行异常值检测。而异常值的存在会影响参数估计,从而导致下一步异常值检测的不可靠;反之异常值检测也会影响参数估计。针对这些不足之处,提出了基于Bayesian方法的参数估计和异常值检测,此方法可以将参数估计和异常值检测同时实现,具体做法是在线性回归模型中引入识别变量,基于Gibbs抽样算法,给出识别变量后验概率的计算方法,通过比较这些识别变量的后验概率进行异常值定位,同时给出参数的估算方法。通过大量的模拟实验,结果表明,与传统方法相比,提出的方法对异常值更灵敏。
- 尚华冯牧张贝贝
- 关键词:参数估计异常值GIBBS抽样
- 一种新的基于回归分析的异常值检测被引量:6
- 2015年
- 异常值检测是当前数据分析中的一个重要研究领域.模型中的异常值会直接影响建模、参数的估计、预测等问题.回归分析是应用极其广泛的数据分析方法之一,本文针对回归分析中的异常值检测进行了研究.该方法基于均值转移模型,根据异常值对残差平方和的影响关系构造一个新的异常值判断准则的统计量,并给出了估计异常值大小的公式.本文进行了大量的模拟实验和实例分析,与传统方法相比,结果表明该方法是有效的.
- 尚华张贝贝纪宏
- 关键词:异常值
- 函数型数据聚类算法的评价与比较被引量:10
- 2021年
- 文章将离散观测数据通过基函数转化为函数,然后针对不同场合选用合适的距离度量函数差异,从而将函数型数据聚类问题转化为多元数据聚类问题,拓宽了数据分析类型。结果显示:正交基展开系数的欧氏距离等价于利用函数取值直接定义的欧氏距离;X-D方法稳健、正确率高,但是涉及大量积分运算与存储距离矩阵,适合样本量较小场合,通过基展开可在一定程度上简化运算;主成分聚类方法可以简化数据结构,在一定程度上处理多重共线性,当它与k-means方法结合时,可处理较大样本数据;分步聚类方法可得到函数取值、形态都接近的类;组合聚类算法可提高聚类结果可靠性。
- 王丙参魏艳华张贝贝
- 关键词:函数型数据主成分聚类分析