厦门亿联申请基于音频和图像数据的发言人定位专利,提高发言人定位的准确性
金融界 2025 年 5 月 6 日消息,国家知识产权局信息显示,厦门亿联通讯技术有限公司申请一项名为“一种基于音频数据和图像数据的发言人定位方法及装置”的专利,公开号 CN119916308A,申请日期为 2024 年 12 月。
专利摘要显示,本发明公开了一种基于音频数据和图像数据的发言人定位方法及装置,涉及发言人定位技术领域。本发明通过原始音频数据得到了目标发言人的所在区域,最后通过采集该区域的图像数据,计算区域中的每个人员的发言特征值,结合区域中每个人的人脸角度信息以及音频特征,定位得到发言人的位置。通过将音频信号与图像信息相结合,利用音频信号的全方位特性和图像信息的精确性,通过迭代更新音频数据,能够准确的得到发言人所在区域,通过发言状态系数,以数字化的形式准确的对人员的发言状态进行描述,从而使得音频信号和图像信息能够互补,避免了单一的音频信号或者图像信息进行定位导致的误差,提高了对发言人定位的准确性。
天眼查资料显示,厦门亿联通讯技术有限公司,成立于2019年,位于厦门市,是一家以从事计算机、通信和其他电子设备制造业为主的企业。企业注册资本35000万人民币。通过天眼查大数据分析,厦门亿联通讯技术有限公司参与招投标项目20次,专利信息35条,此外企业还拥有行政许可13个。
本文源自:金融界
作者:情报员