黄磊
- 作品数:3 被引量:30H指数:3
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文微博用户性别分类方法研究被引量:20
- 2014年
- 该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。
- 王晶晶李寿山黄磊
- 关键词:性别分类文本分类社交网络
- 基于认证用户信息的微博用户类型识别方法被引量:3
- 2015年
- 微博用户可以分为个人用户和非个人用户两种类型。在微博中对这两种用户类型进行自动分类是智能广告、用户个性分析等应用的一项基本任务。针对该任务,提出了一种基于机器学习的自动分类方法。该方法的特色在于,不需要人工标注样本,而是利用微博中认证用户类型的语料作为训练样本构建分类器,用于对非认证用户类型进行分类。具体实现中,将用户名和用户发表的微博文本作为表示用户的样本,使用基于最大熵算法进行用户分类。实验表明这种利用认证用户对非认证用户进行类型分类的方法能够获得较好的效果。
- 黄磊李寿山王晶晶
- 关键词:自然语言处理用户分类
- 基于句法信息的微博情绪识别方法研究被引量:7
- 2017年
- 情绪识别旨在自动识别文本是否含有情绪。情绪识别是情感分析研究中的一项基本任务。针对该任务,提出了一种基于句法信息的微博文本情绪识别方法。该方法的特色在于充分考虑了微博文本的句法信息。具体实现中,首先利用词性标注(POS)序列和结构句法树来表示句法信息,以分别提取POS序列模式、重写规则和二元句法标签作为特征进行文本表示;然后利用最大熵分类算法对微博文本进行情绪识别。实验结果表明,所提方法能够获得较好的识别效果。
- 黄磊李寿山周国栋
- 关键词:自然语言处理情绪识别句法树