乐鱼体育谷歌7大模型22项AI大招轰炸!70秒视频生成、Gemini安卓合体、2

2024-05-16

  在昨天OpenAI发动奇袭、推出干掉传统语音助手的旗舰模型GPT-4o后,作为全球AI一哥+搜索一哥的谷歌,势必得扳回一城,搏一搏谁才是AI赛道的头号大模王。

  谷歌还展示了一系列AI系统,包括将视觉和语言转化为机器人行动的RT-2、浏览复杂虚拟3D环境的SIMA、解决奥数问题的AlphaGeometry。

  发布会开场,皮查伊称目前有超150万开发人员在使用Gemini模型,谷歌拥有20亿用户的产品都在使用Gemini,谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动,3个月内已有超过100万人注册尝试。

  谷歌今天的诸多AI大招还有哪些精彩细节,这些技术又将如何深度影响产业,我们将带你一文看尽。

  昨天OpenAI果然是有预谋的精准狙击,率先亮出聊天丝滑宛如真人、具有炫酷实时视频理解能力的旗舰模型GPT-4o,导致今天谷歌展示的未来AI助手Project Astra演示有点儿眼熟:

  比如要求看到能发出声音的东西就告诉我,Gemini就会给出准确描述:我看到一个音响发出声音。接着你可以在手机屏幕上画出红色箭头,追问音响的这部分叫什么,Gemini立即回复说这是高频扬声器并解释它的用途。

  找不到东西也可以请求Gemini的帮助,问问它有没有看见自己的眼镜在哪儿,Gemini立即发现它在桌面上靠近一个红苹果的地方。

  你还能直接现场板书,问在这里可以添加什么来使得系统更快,Gemini回复说在服务器和数据库之间添加缓存可以提高速度。

  此外,问它看到这个画面能想起什么,Gemini能瞬间理解它指的是薛定谔的猫。

  让它给小狗和老虎玩偶的组合起个乐队名,Gemini给出的建议是金色条纹。

  二、8大AI模型/工具炸场!最强文生图、70秒视频生成、200万tokens超长上下文

  1、Veo:全新视频生成模型,只需一个文本、图像或视频提示,就能制作和编辑70秒以上不同视觉风格的高质量1080p视频。

  OpenAI发布Sora后,视频大模型的热度就一直居高不下,今天谷歌的Veo也算是正面硬刚Sora了。

  用户可以自定义各种风格模式,还能通过点击增长时间,视频时长可以超过1分钟。

  从Veo生成的视频中我们可以看到,AI对空间中的物体关系是有理解的。比如车辆是如何在道路上行驶的,车辆之间的位置关系等等。

  同时,Veo生成的视频镜头有不错的一致性,人、动物、物体的移动显得比较真实、自然。

  谷歌说,Veo是他们在视频生成领域技术的集大成制作,包含了多年来谷歌开发的生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等各类技术。

  值得一提的是,Veo还能理解很多电影术语,比如时光倒流(Timelapse)。

  在演示视频中,电影导演也用到了Veo,Veo帮他们把灵感变成现实,电影导演说,AI可以帮他们快速发现构思中的错误并快速纠正,提高效率。

  2、Imagen 3:谷歌迄今最高质量的文生图模型,能更好理解文本,创造出逼真图像,能从草图快速生成高分辨率图像。谷歌自信地说Imagen 3是目前最强大的图像生成模型。

  Imagen 3生成的图像可以达到数毛级别,具备非常多的画面细节,同时其光影细节也非常震撼。

  Imagen 3可以像人一样理解世界,可以理解文字中的信息对应图像中的哪一部分,并且具备上下文理解能力。

  Imagen 3可以更好地理解自然语言,理解提示文字背后的意图,比如它可以理解人物照片中的背景虚化效果、人物跟背景中植物和建筑的关系。

  3、Music AI Sandbox:AI音乐创作工具,可以改变音乐的创作方式,谷歌与音乐家、词曲作者和制作人密切合作来帮助设计和测试这款工具。

  在生成式音乐创作方面,谷歌通过Music AI Sandbox跟音乐家合作,音乐家可以直接把一段哼唱或者弹奏的灵感片段发给AI,生成一首歌或者一段真正的旋律。

  音乐家说,AI就像一个朋友,让你试试这个、试试那个,这可以解放他们的创造力,让他们更高效地创作音乐。

  4、Gemini 1.5 Pro进阶版:多模态,上下文窗口扩展至200万个token,改进代码生成、逻辑推理和规划、多轮对话、音频与图像理解能力,支持35种语。


本文由:乐鱼app官方网站提供