1⃣️
👄VSP-LLM:理解和翻译视频中的唇语

将视频中唇动转化为文本,实现视觉语音识别和翻译。基于AV-HuBERT模型,利用先进技术识别语音信息。智能去除不必要重复信息,提高处理效率。

🔗 https://github.com/facebookresearch/av_hubert
 
2⃣️
🔍MIRAGE:提升医学问答性能的检索增强生成框架

使用最新可信文档辅助LLMs,减少错误信息,提升回答准确性。MIRAGE应用MedRAG,某些模型性能提升至GPT-4水平。

🔗 https://teddy-xionggz.github.io/benchmark-medical-rag/
🔗 https://arxiv.org/abs/2402.13178
 
 
3⃣️
🎮Genie:从单图生成无限可玩游戏场景

支持合成图像、真实照片、手绘草图转化成可互动游戏场景。降低创造复杂虚拟环境门槛,加速内容创作和游戏开发。

🔗 https://x.com/xiaohuggg/status/1761981007929176541?s=20
 
4⃣️
🌟Sora完整能力曝光:视频和图像的全方位处理与生成

生成、编辑、识别、处理、理解视频和图像内容。Sora展现出与Gemini 1.5 Pro相似的视频理解能力,能分析长达1小时的视频。

🔗 https://x.com/xiaohuggg/status/1761938064421867782?s=20
 
 
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。