小互日报-2 月 26 日-aihublet

1⃣️

👄VSP-LLM：理解和翻译视频中的唇语

将视频中唇动转化为文本，实现视觉语音识别和翻译。基于AV-HuBERT模型，利用先进技术识别语音信息。智能去除不必要重复信息，提高处理效率。

🔗 https://github.com/facebookresearch/av_hubert

2⃣️

🔍MIRAGE：提升医学问答性能的检索增强生成框架

使用最新可信文档辅助LLMs，减少错误信息，提升回答准确性。MIRAGE应用MedRAG，某些模型性能提升至GPT-4水平。

🔗 https://teddy-xionggz.github.io/benchmark-medical-rag/

🔗 https://arxiv.org/abs/2402.13178

3⃣️

🎮Genie：从单图生成无限可玩游戏场景

支持合成图像、真实照片、手绘草图转化成可互动游戏场景。降低创造复杂虚拟环境门槛，加速内容创作和游戏开发。

🔗 https://x.com/xiaohuggg/status/1761981007929176541?s=20

4⃣️

🌟Sora完整能力曝光：视频和图像的全方位处理与生成

生成、编辑、识别、处理、理解视频和图像内容。Sora展现出与Gemini 1.5 Pro相似的视频理解能力，能分析长达1小时的视频。

🔗 https://x.com/xiaohuggg/status/1761938064421867782?s=20

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

小互日报-2 月 26 日