谷歌团队最新推出的多模态人工智能解决方案——Google Gemini 终于面世了。
Google Gemini 在2023年5月的谷歌I/O开发者大会上首次亮相,代表着谷歌在人工智能路线图上迈出的关键一步。它源于谷歌现已合并的 DeepMind 和 Brain 人工智能实验室的工作,这两个实验室联手开启了新的 LLM 之旅。
Gemini 最初的宣布是在 Bard、Duet AI 和谷歌 PaLM 2 LLM 推出之后。不过,这家科技巨头在 12 月 6 日才推出了该解决方案的首个迭代版本,并为未来的发展制定了清晰的路线图。
如果不出意外的话,Google Gemini 凸显了随着对生成式人工智能需求的增长,谷歌正在努力从 Meta 和微软等竞争对手手中夺回一些人工智能市场份额。
以下是您需要了解的有关 Google Gemini 的一切信息以及如何使用它。
什么是 Google Gemini?基础知识
Google Gemini 是一套大型语言模型 (LLM),利用了 AlphaGo 的训练技术,如树搜索和强化学习。它旨在成为谷歌的 “人工智能旗舰”,为谷歌产品组合中的许多产品和服务提供支持。
据谷歌 DeepMind 的首席执行官兼联合创始人 Demis Hassabis 称,Gemini 是他们迄今为止建立的 “能力最强 “的模型。它是谷歌和谷歌研究院多个团队通力合作的成果。
与新兴 LLM 军备竞赛中的其他模型不同,Google Gemini 从一开始就是多模态模型。它可以无缝地概括、理解和组合不同的数据类型,如文本、代码、音频、视频和图像。
该解决方案在谷歌内部的人工智能芯片和张量处理单元(如 TPU v4 和 v5e)上进行训练。它是市场上最灵活的模型之一,也是最高效的模型之一。其他多模式处理需要大量电力,而双子座可以在从数据中心到移动设备的所有设备上运行。
什么是 Google Gemini Nano、Ultra 和 Pro?
2023 年 12 月发布的 Google Gemini 只是该模型的第一个迭代版本,被称为 “Gemini 1.0″。它针对三种不同的 “规模 “进行了优化:
Google Gemini Nano
Gemini Nano 是 LLM 的 “精简 “型号,有两种规模: Nano-1(18 亿个参数)和 Nano-2(32.5 亿个参数)。
该版本的 Gemini 可在移动设备上运行,不久将通过 Android 14 在 Pixel 8 Pro 应用程序上的谷歌 AI Core 应用程序中预览。虽然 Nano 是 Pixel 8 Pro 的独有技术,但目前开发者可以申请抢先体验该技术。
Nano 将为谷歌在 10 月份发布 Pixel 8 Pro 时预览的各种功能提供支持,例如记录应用中的摘要和消息应用中的建议回复。
Google Gemini Pro
Google Gemini Pro 在谷歌的数据中心运行,为 Google Bard(类似于微软 Copilot 解决方案的聊天机器人)等产品提供支持。它将很快推广到其他谷歌工具中,如 Duet AI、谷歌浏览器、谷歌广告和谷歌生成式搜索体验。
Google Gemini Pro 将于 12 月 13 日面向使用 Vertex AI(谷歌全面管理的机器学习平台)的客户推出。今后,它还将集成到谷歌的 Generative AI 开发者套件中。
根据谷歌的说法,Gemini Pro 在头脑风暴、写作和内容摘要等任务方面更加有效,在六项核心基准测试中均优于 OpenAI GPT-3.5。
Gemini Ultra
Gemini Ultra 目前仍无法广泛使用,但它是该系列中能力最强的模型。与 Pro 一样,它也经过了原生多模态训练,并在各种代码库上进行了预训练和微调。
Gemini Ultra 可以理解文本、代码和音频中的细微信息,并回答与复杂主题相关的问题。在用于 LLM 开发的 32 个广泛使用的基准中,Ultra 在其中约 30 个基准上的结果超过了当前最先进的水平。
Google Gemini有多强大?性能洞察
自从谷歌首次宣布 Gemini 即将问世以来,分析师们就一直试图预测它到底有多强大。在最新的 ” Gemini 技术报告 “中,我们终于获得了谷歌分享的一些真实数据。
人工智能团队表示,在过去几个月里,他们一直在仔细测试 Gemini 模型,评估它们在各种任务中的表现。
虽然对 Gemini Nano 和 Gemini Pro 的性能了解有限,但有大量数据表明 Ultra 超越了 LLM 的竞争对手。在大规模多任务语言理解(MMLU)测试中,Gemini Ultra 的得分率约为 90%,是首个能够超越人类专家的解决方案。这些测试综合使用了物理、数学、历史和伦理等 57 个不同的科目,以考察真实世界的知识和解决问题的能力。据该团队称,谷歌对 MMLU 采用了新的基准方法,这意味着 Gemini 可以利用其推理能力在回答问题前 “更仔细地思考”。
在新的 MMMU 基准测试中,Gemini Ultra 也取得了 59.4% 的一流成绩。该基准考察了 LLM 在需要慎重推理的多模态任务中的表现。
谷歌表示,Gemini Ultra 在没有对象字符识别辅助的情况下,表现优于其他领先模型,这凸显了该解决方案的原生多模态能力。
但这并不一定意味着 Google Gemini 不会遭遇其他语言模型所面临的问题,比如人工智能幻觉。即使是最好的生成式人工智能模型,在受到特定提示时也会出现问题。
Gemini 比 GPT 更好吗?
随着对生成式人工智能解决方案和 LLM 模型需求的增长,谷歌在当前市场上面临着大量竞争。大量新兴模型可能会超越 Gemini,特别是如果它们继续发展,比如Falcon 180B。
然而,许多技术爱好者只想回答一个问题: “它比 GPT-4 强吗?” GPT-4 是 OpenAI 的多模态大型语言模型,几乎是所有开发人员用来评估新 LLM 潜力的基准。
幸运的是,谷歌将 Gemini 和 GPT-4 的性能比较变得非常简单,您可以在这里找到一张简单的图表。根据谷歌的说法,GPT-4 只在一个方面优于 Gemini,即 “HellaSwag 推理”。这就是用于日常任务的常识推理。
GPT-4 在这方面的得分率为 95.3%,而Gemini 的得分率为 87.8%。
在其他各方面,Gemini Ultra 都遥遥领先。下面是对 “文本 “统计的简单了解:
能力 | 基准 | Gemini Ultra | GPT-4 |
General | MMLU (Representation of various questions in 57 subjects) | 90.0% | 86.4% |
Reasoning | Big-Bench Hard (Challenging tasks requiring multi-step reasoning) DROP (Reading comprehension) | 83.6% 82.4% | 83.1% 80.9% |
Math | GSM8K (Basic arithmetic manipulation) MATH (Challenging math problems) | 94.4% 53.2% | 92.0% 52.9% |
Code | HumanEval (Python code generation) Natural2Code (Python code generation) | 74.4% 74.9% | 67.0% 73.9% |
虽然这些数据只向我们展示了 Gemini Ultra 的强大功能,但值得注意的是,谷歌还发现 Gemini(总体而言)在所有多模态任务中的表现都优于 GPT-4。请记住,GPT-4 可能是多模态的,但只能处理图像和文本。
而 Gemini 可以处理视频、音频、图像和文本。随着谷歌继续训练其工具包,它的性能可能会大大超过其他各种模型。
是什么让 Google Gemini 与众不同?
当谷歌首次向大众介绍 Gemini 时,Demis Hassabis 曾表示,该模型将具备解决问题和智能推理的高级能力。他甚至指出,Gemini可能会利用记忆与谷歌搜索进行事实核对,并改进强化学习以减少幻觉内容。不过,这一点仍未得到证实。
我们所知道的是,Google Gemini从多方面将自己与 LLM 市场上的竞争对手区分开来,首先是它的架构。
到目前为止,创建多模态模型的典型方法是为不同的模型训练不同的组件,然后将它们拼接在一起。
Gemini 的设计初衷是多模态。它在不同模态上进行了预训练,然后利用额外的多模态数据进行微调。
Google Gemini在以下方面非常有效:
复杂的多模态推理
Gemini 1.0 具备复杂的多模态推理能力,这意味着该模型可以理解更复杂的书面和视觉信息。它在从海量数据中汲取洞察力方面有着独特的技能。该工具甚至可以过滤数十万份文档,以极快的速度提供突破性见解。
此外,由于 Gemini 可以同时识别和理解图像、音频、文本等,因此它能更好地理解细微信息。它可以回答复杂的问题,并协助处理从数学到物理的各种查询。
高级编码
Gemini 的第一个版本可以理解、生成和解释一些世界上最流行的编程语言的高质量代码,包括 Java、C++ 和 Go。Gemini 在各种编码基准测试中表现出色,可用作高级编码系统的引擎。
例如,谷歌两年前推出了 “AlphaCode”,这是首个在编程竞赛中表现优异的人工智能代码生成系统。利用特定版本的Gemini ,谷歌创建了 “AlphaCode 2″,将这些成果提升到了一个新的水平。
与最初的 “AlphaCode”相比,新模型解决的问题几乎是原来的两倍,其表现优于 85% 的其他参赛者。
高效的可扩展性
据谷歌介绍,Gemini 1.0 已在使用专有张量处理单元的人工智能优化基础设施上进行了大规模训练。在 TPU 上,Gemini 的运行速度甚至比更小、能力更弱的模型还要快。此外,谷歌甚至宣布即将推出新的 TPU 系统。
开发人员很快就能访问云 TPU v5p,训练自己的尖端人工智能模型。据该品牌称,这将有助于进一步加速 Gemini 的发展,并帮助企业客户构建自己的人工智能解决方案。
Google Gemini 安全吗?伦理与安全
随着 LLM 和生成式人工智能模型的不断发展,人们对其安全性的担忧也随之而来。与大多数市场领导者一样,谷歌制定了一套具体的 “人工智能原则”,以确保其技术对用户而言是安全、合乎道德和可靠的。
在谷歌的所有人工智能模型中,Gemini 的安全评估最为全面。公司正在仔细分析该技术是否存在偏见和毒性。此外,他们还对说服和自主性等风险领域进行了研究。
谷歌正在与不同的专家合作,对其模型进行压力测试。此外,他们还在 Gemini 的培训阶段使用 “真实毒性提示 “等基准来诊断内容安全问题。
为了进一步限制潜在的危害,谷歌建立了专门的安全分类器来识别涉及刻板印象或暴力的内容。该团队还表示,他们将继续解决归因、接地和确证等已知难题。
如何访问和使用 Google Gemini
目前,Google Gemini 1.0 正在各种产品和平台上推出。要试用该解决方案的 “专业版”,最简单的方法是在谷歌 ChatGPT 的竞争对手 Bard 中试用。这款应用程序现在由经过微调的 Gemini Pro 版本提供支持。
根据谷歌的说法,这标志着 Bard 自推出以来最大的一次更新。最初,它将在 170 个国家和地区提供英语版本。不过,未来还会推出新的语言版本。值得注意的是,谷歌还将在明年推出 “巴德高级版”。
未来几个月,Gemini 还将出现在谷歌搜索、广告和 Duet 中。
目前,谷歌已经开始在搜索中试用 Gemini,并表示它将为用户带来更快的搜索体验,将延迟降低 40%。
在其他方面,Gemini Nano 将应用于 Pixel 8 智能手机,帮助实现 WhatsApp 等工具中的 “智能回复 “功能和录音摘要功能。
有意尝试使用 Gemini 的开发人员可以通过 Google AI Studio 的 API 或 Google Cloud Vertex 访问 “Pro “服务。AI Studio 可能是最简单的选择,因为它是一个免费的、基于网络的开发者工具,非常适合原型设计和快速启动应用程序。
不过,Vertex AI 允许对 Gemini 进行更全面的定制,提供完整的数据控制和额外的谷歌云安全、保障和治理功能。
另一方面,Gemini Ultra 目前尚未推出。谷歌正在进行更多的安全和信任检查,以确保该解决方案适合当前市场。作为这一过程的一部分,谷歌正以 “测试模式 “向某些开发者和合作伙伴提供 Gemini Ultra。
与 Google Gemini 一起展望未来
在尝试整个 Google Gemini 体验和“Ultra”版本之前,我们还需要等待一段时间。然而,到目前为止,谷歌似乎正在朝着再次成为人工智能领域真正的市场领导者的目标迈进。
Gemini 似乎正在为谷歌的人工智能之旅设定新标准。该公司表示,它代表着 LLM 开发新时代的开始。团队将继续扩展未来版本的功能。他们已经计划在规划和记忆方面取得新的进展,并将很快增加批量信息处理的 “上下文窗口”。
谷歌相信,我们正在迈向一个由 “负责任 “的人工智能驱动的未来。他们说,这个未来将为全球数十亿人的创新、创造力和知识共享铺平道路。我们迫不及待地想看到下一代开发人员将利用像 Google Gemini 这样强大的解决方案取得怎样的成就。
原文:https://www.uctoday.com/unified-communications/what-is-google-gemini-defining-google-gemini-ai/
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/39106.html