Google Gemini 技术报告要点提炼:
-
技术报告 60 页,没有透漏具体技术细节,大部分是评测,技术报告作者列表包含 9 页内容,超过 700 人,应该接近 OpenAI 的员工总数了吧。
-
Gemini 是几种模态一起联合从头训练的,包括文本、图片、音频、视频等。这与目前通常的多模态做法不太一样,目前的多模态模型一般是使用现成的语言大模型或者经过预训练过的图片模型(比如 CLIP 的图片编码部分),然后利用多模态训练数据在此基础上加上新的网络层训练;如果是几个模态从头开始一起训练,那么按理说应该都遵循 next token prediction的模式,就应该是 LVM 的那个路子,其它模态的数据打成 token,然后图片、视频等平面数据先转换成比如 16*16=256 个 token,然后搞成一维线性输入,让模型预测 next token,这样就把不同模态在训练阶段统一起来。
-
技术报告说应该是 Decoder only 的模型结构,针对结构和优化目标做了优化,优化目的是大规模训练的时候的训练和推理的稳定性,所以大结构应该是类似 GPT 的 Decoder-only 预测 next token prediction 的模式。目前支持 32K 上下文。
-
Gemini Nano 包含两个版本:1.8B 面向低端手机,3.25B 面向高端手机。文章说 Nano 首先从大模型蒸馏,然后 4bit 量化。我这里有个问题:为什么不用手机调用 API 的方式调用服务端的最强模型呢?能想到的一个可能的解释是用户隐私,这样手机不用把数据传到云端;另外一个推理成本从云端转移到了手机,能够大量节省推理成本。还有其他原因么?
-
从硬件描述部分来看,意思是动用了前所未有的 TPU 集群,所以推测 Gemini Ultra 的模型规模应该相当大,猜测如果是 MOE 大概要对标到 GPT 4 到 1.8T 的模型容量,如果是 Dense 模型估计要大于 200B 参数。考虑到引入视频音频多模态数据(当然是来自于 Youtube了,难道会来自 TikTok 么),所以总数据量*模型参数,会是非常巨大的算力要求,技术报告说可以一周或者两周做一次训练。
-
训练可能分成多个阶段,最后阶段提高了领域数据的混合配比,猜测应该指的是逻辑和数学类的训练数据增加了配比,目前貌似很多这么做的,对于提升模型逻辑能力有直接帮助。
-
看学科能力测试,技术报告指标有人为拔高的倾向,比如 MMLU,只有 CoT 给 32 个例子Gemini 才能超过 GPT4,当例子数量减少到 5 个,Gemini ultra 得分 83.7%,不如 GPT 4 得分86.4%,高于 GPT 3.5 的 70%。从测试具体情况看,Gemini Ultra 应该是和 GPT4 基本持平或者稍微弱于 GPT 4 的,Gemini Pro 和 Ultra 差距比较大,应该略微强于 GPT 3.5;而且 Llama2 在数学、推理等方面与最好的大模型效果差距非常明显,不同测试指标差距 20 到 40 分之间;
-
从学科能力测试数据看,目前大模型能力很可能顺序如下:GPT 4 略微强于 Gemini Ultra > Claude 2 > inflection-2 > GPT 3.5 = Grok 1 > Llama2。
-
AlphaCode2 是在 Gemini Pro 基础上,使用编程竞赛的数据 fine-tune 出来的,效果提升很明显,在编程竞赛上排名超过 85% 的人类选手,之前的 AlphaCode1 超过 50% 的人类选手;
-
Gemini Ultra 在多模态能力方面,在几乎所有测试数据上确实要比 GPT 4V 强一些。
-
命令理解方面:和 GPT 一样,采用多模态 instruct 数据进行 SFT + RM + RLHF 三阶段,这里的 RM 部分在训练打分模型的时候,采用了加权的多目标优化,三个目标 helpfulness factuality 和 safety,猜测应该是对于某个 prompt,模型生成的结果,按照三个指标各自给了一个排序结果。