王鑫昱
- 作品数:8 被引量:40H指数:2
- 供职机构:燕山大学信息科学与工程学院更多>>
- 发文基金:博士科研启动基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- Web日志挖掘会话识别的研究
- Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中会话识别是主要环节,也是整个过程的基础...
- 王鑫昱
- 关键词:WEB日志挖掘数据预处理会话识别WEB内容挖掘
- 文献传递
- 基于动态分类的Markov用户浏览预测模型被引量:1
- 2008年
- 针对多Markov链用户浏览预测模型分类算法的时间复杂度过高问题,提出一种基于动态分类的Markov用户浏览预测模型。该模型通过学习提取用户浏览特征,利用这些特征对用户浏览路径进行分类,实现预测并动态更新用户浏览特征。实验结果表明,该模型可明显降低用户浏览路径预测的时间,并得到较为准确的预测结果。
- 陈子军乔良王鑫昱
- 关键词:用户分类MARKOV模型
- 基于网页特征的会话识别方法被引量:1
- 2008年
- 提出一种利用网页特征进行会话识别的方法。通过分析网页本身的特征,计算站点中所有网页的特征向量。根据这些特征向量,可以计算任意网页之间的相关程度。按照用户请求页面在日志中的时间顺序,可以得到日志中所有直接相邻的页面记录的关联程度曲线。通过设定一个阈值,在关联程度曲线中波动较大的位置形成会话边界。将关联程度大的页面分类到一个会话中,从而完成会话识别。
- 陈子军王鑫昱
- 关键词:WEB日志挖掘数据预处理会话识别
- 基于投影编码的频繁子树挖掘算法被引量:2
- 2006年
- 频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法--PETreeMiner.算法利用序列中无候选产生的技术--前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在投影过程中进行编码,使得挖掘到的频繁子序列直接对应成一棵频繁子树.实验结果表明算法优于其他算法.
- 陈子军李伟李霞王鑫昱
- 关键词:数据挖掘频繁子树
- 一种Web日志会话识别的优化方法被引量:29
- 2007年
- 会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。该文对此提出优化算法,并对最常用的Timeout方法识别的会话进行优化,通过实验证明会话质量得到了提高。
- 陈子军王鑫昱李伟
- 关键词:WEB日志挖掘数据预处理会话识别
- 基于投影编码的频繁子树挖掘算法
- 频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法--PETreeMiner.算法利用序列中无候选产生的技术--前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在...
- 陈子军李伟李霞王鑫昱
- 关键词:数据挖掘频繁子树
- 文献传递
- 一种基于动态时间阈值的会话识别方法被引量:7
- 2010年
- 会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。在Timeout方法固定时间阈值的基础上,提出动态时间阈值,通过对样本日志的分析,得到不同时段的时间阈值。在处理日志文件时,根据当前会话开始记录的访问时间选择时间阈值。实验表明,该方法识别会话的质量比Timeout方法有了明显提高。
- 戴智丽王鑫昱
- 关键词:WEB日志挖掘数据预处理会话识别
- 基于投影编码的频繁子树挖掘算法
- 频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法——PETreeMiner.算法利用序列中无候选产生的技术——前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在...
- 陈子军李伟李霞王鑫昱
- 关键词:数据挖掘频繁子树
- 文献传递