VSP-LLM：可通过观察视频中人的嘴型来识别唇语

更新时间：2024-11-16 22:47:15 发布时间：9天前浏览：8087 评论：0

收藏

分享

内容摘要2月28日消息:VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术，也就是识别唇语。该技术能够将视频中的唇动转化为文本（视觉语音识别），并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此，VSP-LLM还能智

2月28日消息:VSP-LLM是一种通过观察视频中人的嘴型来理解和翻译说话内容的技术，也就是识别唇语。该技术能够将视频中的唇动转化为文本（视觉语音识别），并将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。不仅如此，VSP-LLM还能智能识别和去除视频中不必要的重复信息，使处理过程更加快速和准确。

VSP-LLM的开发基于AV-HuBERT模型代码，后者是Facebook开发的一个自监督的视觉语音模型。AV-HuBERT能够从视频中学习语音表示，尤其是从人的唇动中识别语音信息。因此，VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术，作为其视觉语音处理组件的基础。

项目地址：https://top.aibase.com/tool/vsp-llm

该技术结合了视觉语音处理和大语言模型（LLMs）的新型框架，旨在利用LLMs的上下文理解能力来提高视觉语音识别和翻译的准确性和效率。

VSP-LLM的工作原理包括自监督学习、去除输入帧中的冗余信息、利用大语言模型进行上下文建模、多任务执行和低秩适配器（LoRA）。

首先，通过自监督学习的方式，VSP-LLM训练一个视觉语音模型来理解和识别视频中提取的唇动作。自监督学习使得模型能够在没有明确标注的数据情况下，通过自我生成的反馈来学习和提取有用的信息。

其次，为了提高处理效率，VSP-LLM设计了一种去重方法，通过识别视觉语音单元减少输入帧中的冗余信息，进而减少模型需要处理的数据量。

然后，通过将自监督视觉语音模型提取的信息映射到LLMs的输入空间中，VSP-LLM能够实现视觉到文本的映射，进而利用LLMs的上下文建模能力来理解和翻译视频中的唇动作。

此外，VSP-LLM能够执行多任务，包括将视频中的唇动作识别为具体文本（视觉语音识别）或直接翻译这些唇动作成目标语言的文本(视觉语音翻译)。

最后，为了进一步提升训练的计算效率，VSP-LLM采用了低秩适配器（LoRA）技术，这种优化训练过程的方法能够减少计算资源的需求。

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: VSP-LLM：可通过观察视频中人的嘴型来识别唇语

本文链接: http://m.25084.com/news/show-52548.html (转载时请保留)

0 条

如何高效管理抖音矩阵账号？

科技站务管理账号 ⋅ 0阅读量 ⋅ 0评论 ⋅ 7天前

2024-11-09
抖音生活服务：“暖经济”释放消费力“双11”火锅团购订单量是去年的135倍

科技站务管理账号 ⋅ 0阅读量 ⋅ 0评论 ⋅ 7天前

2024-11-09
美团回应郑州大学生夜骑开封：公司已紧急增加运力司机进行回收作业

科技 jmcykj ⋅ 231阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
7年开发经验全栈工程师！山东15岁初中生靠开源项目赚数百万

科技 yasenchem ⋅ 206阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
特斯拉10月国内销量突破4万大关！Model Y连续10个月夺得最畅销乘用车称号

科技 yunv666 ⋅ 459阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
紧急下架！官方通报：良品铺子被立案调查

科技 runfengmould ⋅ 257阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
菜鸟自主研发快递分拣机启用：每小时8000件准确率99.99%

科技 shantao19860517 ⋅ 300阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
微信Linux 4.0公测版上架开放麒麟！支持深色模式刷朋友圈

科技 jxndlsc ⋅ 460阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
赛力斯启动人形机器人岗位招聘：产品预计明年量产

科技 pan0523 ⋅ 314阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07
24年双11，i5

科技 shymhg188 ⋅ 2阅读量 ⋅ 0评论 ⋅ 9天前

2024-11-07

去ta空间

24小时热闻

今日推荐

(c)2016-2021 SOQUANMAO.COM All Rights Reserved搜全贸版权所有浙ICP备19001410号-1

浙ICP备19001410号-1