您的位置: 专家智库 > >

俞凯

作品数:50 被引量:27H指数:4
供职机构:上海交通大学更多>>
发文基金:江苏省基础研究计划国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学电子电信化学工程更多>>

文献类型

  • 43篇专利
  • 4篇期刊文章
  • 1篇学位论文
  • 1篇科技成果

领域

  • 16篇自动化与计算...
  • 4篇文化科学
  • 2篇电子电信
  • 1篇经济管理
  • 1篇政治法律

主题

  • 21篇语音
  • 12篇网络
  • 9篇语言
  • 8篇语音识别
  • 6篇用户
  • 6篇语义
  • 6篇文本
  • 5篇音素
  • 5篇神经网
  • 5篇神经网络
  • 5篇人机
  • 5篇人机对话
  • 4篇定制
  • 4篇语言生成
  • 4篇语义识别
  • 4篇声纹
  • 4篇自然语言
  • 4篇自然语言生成
  • 4篇后验概率
  • 3篇信息服务

机构

  • 49篇上海交通大学
  • 25篇苏州思必驰信...
  • 1篇北京大学
  • 1篇上海交通大学...
  • 1篇上海博泰悦臻...
  • 1篇上海绿联软件...
  • 1篇深圳酷旗互联...
  • 1篇深圳市奇虎智...
  • 1篇长虹美菱股份...
  • 1篇深圳市一恒科...

作者

  • 49篇俞凯
  • 11篇陈露
  • 7篇郑达
  • 5篇常成
  • 5篇钱彦旻
  • 4篇曹迪
  • 3篇李文博
  • 3篇吴学阳
  • 2篇王帅
  • 2篇陈楠昕
  • 2篇梁正
  • 1篇盛斌
  • 1篇陈博
  • 1篇杨小康
  • 1篇金耀辉
  • 1篇梅宏
  • 1篇许岩岩

传媒

  • 2篇计算机学报
  • 1篇中国科学院院...
  • 1篇中国科学基金

年份

  • 4篇2024
  • 2篇2023
  • 1篇2022
  • 1篇2021
  • 6篇2020
  • 10篇2019
  • 2篇2018
  • 14篇2017
  • 6篇2016
  • 3篇2015
50 条 记 录,以下是 1-10
排序方式:
基于鉴别性训练的定制语音唤醒优化方法及系统
一种基于鉴别性训练的定制语音唤醒优化方法及系统,在给定带标注的声学数据后,结合初始的基于神经网络的声学模型,通过神经网络前向传播得到逐帧声学概率;结合标注序列及逐帧声学概率,得到标注唤醒词的建模概率;利用在大量文本上统计...
俞凯陈哲怀
基于云平台的演讲内容提取方法及装置
一种基于云平台的演讲内容提取方法及装置,包括:采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理;发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务器;服务器对接收的音频进行语音切分、把音频按说...
俞凯谢其哲吴学阳李文博郭运奇
基于语义槽内部结构的可迁移口语语义解析系统及其实现方法
一种基于语义槽内部结构的可迁移口语语义解析系统及其实现方法,包括:含有循环神经网络的源领域模型训练模块、含有基于原子概念序列的模型的目标领域迁移学习模块以及解析模块,源领域模型训练模块采集源领域数据并根据源领域的原子概念...
俞凯朱苏
停车场声纹验证系统及其方法
一种停车场声纹验证系统及其方法,包括:客户端和服务器端,其中:客户端和服务器端通过各自的通信单元相连,客户端包括声纹注册单元、声纹验证单元和信道补偿单元,其中,声纹注册单元、声纹验证单元和信道补偿单元相互连接,且都与客户...
俞凯王帅周伟达
文献传递
基于注意力模型的语言输入关联性检测方法
一种基于注意力模型的语言输入关联性检测方法,通过采集训练语言模型所需的训练语料并进行预处理,并对语料中的每个词序列数据进行标注;然后使用标注后的训练序列对语言模型中的循环神经网络进行训练,再采用训练语料中所有数据集合对更...
俞凯曹迪
文献传递
面向智能硬件的自然口语对话系统
俞凯周伟达张顺钱彦旻陈露樊帅薛峰谭天刘根华李波李昱兵
该项目属于人工智能领域。随着近年智能硬件的快速普及,以语音为主要通道的自然口语交互正在成为人机沟通最便捷的方式。虽然配合式近场语音识别已经在产业界得到应用,但却不能满足智能硬件非配合式的理解式交互需求,成为产业应用瓶颈。...
关键词:
关键词:人工智能语音识别技术
多语言模型压缩方法、计算机设备、存储介质及程序产品
本申请公开一种多语言模型压缩方法,包括:按照预设比例获取多种语言的校准数据;根据所述多种语言的校准数据对多语言模型进行压缩处理。本申请实施例中按照比例采样多种语言的校准数据进行模型压缩,而非仅采用训练样本中的主要单一语言...
俞凯陈露曾泓川许洪深
跨模态语言大模型:进展及展望被引量:4
2023年
以ChatGPT为代表的对话式语言大模型通过使用超大规模模型参数和海量训练数据,涌现出很强的上下文学习能力和思维链推理能力,在各种自然语言处理任务上取得了显著的进步,被视为颠覆性通用人工智能技术。在纯文本语言大模型突破的基础上,近期显现的重要技术发展趋势是向能够理解和生成语音、图像、图形等其他模态数据的跨模态语言大模型的转变。随着大模型技术的快速发展,跨模态语言大模型逐步拥有了较强的多模态感知以及初步的跨模态认知能力。本文将从多模态感知大模型、跨模态认知大模型、以及分布式智能体系统三种范式综述跨模态语言大模型技术体系的演进过程,并总结相关的评测基准,最后讨论跨模态语言大模型面临的技术挑战及潜在重要研究方向。
陈露张思拓俞凯
基于深度学习的说话人语音欺骗攻击检测方法及系统
一种基于深度学习的说话人语音欺骗攻击检测方法及系统,通过构建音频训练集,初始化并采用训练集的多帧特征向量和单帧向量序列分别训练深度前馈神经网络和深度递归神经网络;在测试阶段,将待测音频的帧级别和序列级别特征向量分别导入经...
钱彦旻陈楠昕俞凯
基于置信度的语音识别实现方法及系统
一种基于置信度的语音识别实现方法及系统,根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构,并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系,即混淆网络竞争概率;同...
俞凯陈哲怀
文献传递
共5页<12345>
聚类工具0