报告题目:AI向善:最新线索语视频自动识别与生成研究
报 告 人:刘李 助理教授/博导,香港科技大学(广州)
报告时间:2024年5月15日(周三)上午9:00-10:00
报告地点:数理楼306学术报告厅
主办单位:beat365
报告对象:beat365全体师生,全校其他感兴趣的老师和员工
报告摘要:线索语自动识别与生成主要用于智能无障碍人机交互,其中线索语编码系统利用唇型和手势编码口语来辅助听障人群交流。我们于2019年首次提出了中文线索语系统。对于线索语识别,我们最近提出了一种基于Transformer的跨模态互学习框架以促进多模态交互。与传统方法相比,我们的模型通过模态无关字典表示来编码不同模态的模态特定信息,从而得到多模态共同表征的语言信息。对于线索语生成,我们提出了一种思维链提示的线索语视频扩散生成框架,利用大语言模型和提示工程来捕捉文本描述与手势特征之间的复杂关系,提高生成的手势视频的准确性和多样性。此外,我们构建了首个大规模多人中文线索语视频数据集。我们的方法在不同语种的线索语数据集(中文、法语和英语)上均取得了最佳的识别和生成性能。
报告人简介:刘李目前是香港科技大学(广州)的助理教授、博导。2018年9月,她在法国格勒诺布尔阿尔卑斯大学和法国国家科学研究中心共属的GIPSA-lab获得博士学位。她曾担任加拿大Ryerson University的博士后研究员。她的主要研究方向是多模态视听语音识别与生成以及医疗人工智能等。她目前在人工智能领域已以第一作者或通讯作者身份发表论文超过40篇,其中包括此领域顶级期刊和会议TPAMI, TMM, TMI, Neurips, ICCV, ECCV, ACM MM, ICASSP等。她曾担任2022年语音信号处理顶会ICASSP的Local Chair (China site)以及2024 ICASSP的 Area Chair。她曾获“深圳市海外高层次人才-孔雀人才计划”。作为项目负责人,她主持国家自然科学基金委员会-青年基金项目、广东省区域联合基金-青年基金项目、阿里巴巴创新研究计划项目、腾讯公益创投计划、腾讯AI Lab犀牛鸟专项计划等。她曾在2017年荣获法国Sephora Berribi数学与计算机领域女性科学家奖。她团队的论文分别在2022 年和2023年被评选为深圳市优秀科技学术论文。