乐鱼app官方网站_乐鱼体育谷歌7大模型22项AI大招轰炸：70秒视频生成、Gemini安卓合体、2

2024-05-17

　　秀杀手级AI玩法、Gemini安卓合体截胡苹果、最强TPU，谷歌2小时提了121次AI。

　　智东西5月15日报道，在一年一度的谷歌I/O开发者大会上，谷歌干了一场AI硬仗！

　　时长不到2小时的开幕式期间，谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到121次“AI”。谷歌DeepMind的联合创始人兼CEO戴密斯·哈萨比斯首次在I/O大会上发表演讲，顺序仅次于皮查伊，足见AI大模型已经成谷歌的头等大事。

　　在昨天OpenAI发动奇袭、推出干掉传统语音助手的旗舰模型GPT-4o后，作为“全球AI一哥+搜索一哥”的谷歌，势必得扳回一城，搏一搏谁才是AI赛道的头号“大模王”。

　　谷歌还展示了一系列AI系统，包括将视觉和语言转化为机器人行动的RT-2、浏览复杂虚拟3D环境的SIMA、解决奥数问题的AlphaGeometry。

　　发布会开场，皮查伊称目前有超150万开发人员在使用Gemini模型，谷歌拥有20亿用户的产品都在使用Gemini，谷歌推出安卓和iOS上可用的应用程序直接与Gemini互动，3个月内已有超过100万人注册尝试。

　　谷歌今天的诸多AI大招还有哪些精彩细节，这些技术又将如何深度影响产业，我们将带你一文看尽。

　　昨天OpenAI果然是有预谋的精准狙击，率先亮出聊天丝滑宛如真人、具有炫酷实时视频理解能力的旗舰模型GPT-4o，导致今天谷歌展示的未来AI助手Project Astra演示有点儿眼熟：

　　比如要求“看到能发出声音的东西就告诉我”，Gemini就会给出准确描述：“我看到一个音响发出声音。”接着你可以在手机屏幕上画出红色箭头，追问“音响的这部分叫什么”，Gemini立即回复说这是“高频扬声器”并解释它的用途。

　　找不到东西也可以请求Gemini的帮助，问问它有没有看见自己的眼镜在哪儿，Gemini立即发现它在桌面上靠近一个红苹果的地方。

　　你还能直接现场板书，问在这里可以添加什么来使得系统更快，Gemini回复说“在服务器和数据库之间添加缓存可以提高速度”。

　　此外，问它看到这个画面能想起什么，Gemini能瞬间理解它指的是“薛定谔的猫”。

　　让它给小狗和老虎玩偶的组合起个乐队名，Gemini给出的建议是“金色条纹”。

　　1、Veo：全新视频生成模型，只需一个文本、图像或视频提示，就能制作和编辑70秒以上不同视觉风格的高质量1080p视频。

　　OpenAI发布Sora后，视频大模型的热度就一直居高不下，今天谷歌的Veo也算是正面硬刚Sora了。

　　用户可以自定义各种风格模式，还能通过点击增长时间，视频时长可以超过1分钟。

　　从Veo生成的视频中我们可以看到，AI对空间中的物体关系是有理解的。比如车辆是如何在道路上行驶的，车辆之间的位置关系等等。

　　同时，Veo生成的视频镜头有不错的一致性，人、动物、物体的移动显得比较真实、自然。

　　谷歌说，Veo是他们在视频生成领域技术的集大成制作，包含了多年来谷歌开发的生成查询网络（GQN）、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等各类技术。

　　值得一提的是，Veo还能理解很多电影术语，比如“时光倒流（Timelapse）”。

　　在演示视频中，电影导演也用到了Veo，Veo帮他们把灵感变成现实，电影导演说，AI可以帮他们快速发现构思中的错误并快速纠正，提高效率。

　　2、Imagen 3：谷歌迄今最高质量的文生图模型，能更好理解文本，创造出逼真图像，能从草图快速生成高分辨率图像。谷歌自信地说Imagen 3是目前最强大的图像生成模型。

　　Imagen 3生成的图像可以达到“数毛”级别，具备非常多的画面细节，同时其光影细节也非常震撼。

　　Imagen 3可以像人一样理解世界，可以理解文字中的信息对应图像中的哪一部分，并且具备上下文理解能力。

　　Imagen 3可以更好地理解自然语言，理解提示文字背后的意图，比如它可以理解人物照片中的背景虚化效果、人物跟背景中植物和建筑的关系。

　　3、Music AI Sandbox：AI音乐创作工具，可以改变音乐的创作方式，谷歌与音乐家、词曲作者和制作人密切合作来帮助设计和测试这款工具。

　　在生成式音乐创作方面，谷歌通过Music AI Sandbox跟音乐家合。

本文由:乐鱼app官方网站提供

友情链接

栏目导航

联系我们

400-123-8254 新浪微博乐鱼app官网广东省广州市天河区88号 1234568254

扫码关注更多资讯