智能体已经能像人一样刷视频了国内联汇科技OmAgent智能体试用
智能体已经能像人一样刷视频了?国内知名大模型独角兽级别公司,资深AI玩家联汇科技退出了OmAgent智能体,已经开启试用。
当你正在观看一部紧张刺激的动作电影,忽然好奇: “那个角色到底是在哪一集说的那句话?” “这里的背景音乐是什么?” 又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。诸如此类的需求,如果仅凭人力寻找,无疑存在极大的工作量。 但是 AI 能够为机器配置双眼与大脑,让它们能够看懂视频、理解剧情,对于普通人来说,这不仅是提高了搜索效率,更是扩展我们与数字世界的互动方式。 英伟达最新发布的 NVIDIA AI Blueprint 希望帮助人们解决这一问题。这是一种预训练的、可自定义 AI 工作流,他为开发者构建和部署用于典型用例的生成式 AI 应用程序提供了一套完整的解决方案。 比如在英伟达提供的试用界面中,你可以选择三个视频片段中的一个进行内容问答。 ![]() 在几轮测试过后,我们发现 Blueprint 对视频问答还是有不错的效果的。你可以提问某个事件发生的时间,也可以提问某个对象的状态。 ![]() 尤其令人遗憾的是,在试用过程中我们不断遇到流量限制,无限验证等问题,试用体验可以说一言难尽。并且目前 Blueprint 仍然处于早期申请使用制阶段,没有办法快速进行使用。 ![]() Blueprint 之外,我们还有什么选择? 经过一番搜索和调研,我们在 Github 上发现了 OmAgent 这个项目,这是一个多模态智能体框架,提供了同样强大的视频问答功能。 ![]() 项目地址:https://github.com/om-ai-lab/OmAgent OmAgent 是什么 OmAgent 是一个开源的智能体框架,支持简单快速地面向设备进行智能体系统的开发,为智能手机、智能可穿戴设备、智能摄像头乃至机器人等各类硬件设备赋能。OmAgent 为各种类型的设备创建了一个抽象概念,并大大简化了将这些设备与最先进的多模态基础模型和智能体算法相结合的过程,使每个人都能基于设备建立最有趣的 AI 应用。 ![]() OmAgent 的设计架构遵循三个基本原则:
A: ![]() Q: Which direction did the forklift go? A: ![]()
A: ![]() 接下来我们进行更复杂的测试,OmAgent 可以支持音频信息以及超长视频索引。我们选取了最近大火的剧集《双城之战》第二季第一集作为素材,基于其中的画面和剧情进行提问。 A: ![]()
A: ![]() Q: 视频最后几个议员在讨论什么? A: ![]()
A: ![]() 可以看到,即使面对如此复杂的视频素材,OmAgent 依然可以游刃有余。 如果想了解更多OmAgent智能体技术信息,可以通过联汇科技官网联系! 猜你喜欢 |