Gemini 3 是 Google 最新的AI模型系列,在推理、代码、多模态理解方面实现了重大突破。配合丰富的生态工具,构建了从文本到图像、视频、音频的完整多模态能力矩阵。
| 模型 | 类型 | 核心能力 |
|---|---|---|
| Gemini 3 Pro | 文本/多模态 | 最强推理,百万上下文 |
| Gemini 3 Flash | 文本/多模态 | 高速推理,低延迟 |
| Nano-Banana 2 | 图像生成 | 原生图像生成,支持思考模式 |
| Nano-Banana Pro | 图像生成 | 4K质量图像生成 |
| Veo 3.1 | 视频生成 | 图生视频,视频扩展 |
| Lyria 3 | 音乐生成 | 30秒片段到完整歌曲 |
| Gemini Robotics-ER 1.5 | 空间理解 | 机器人应用 |
Gemini 原生集成图像生成能力,无需额外工具:
from google import genai
from google.genai import types
client = genai.Client()
response = client.models.generate_content(
model="gemini-3-pro",
contents="生成一张赛博朋克风格的城市夜景图",
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
)
)
for part in response.candidates[0].content.parts:
if part.inline_data:
with open("output.png", "wb") as f:
f.write(part.inline_data.data)
Veo 支持文本生成视频和图片生成视频:
# 异步视频生成
operation = client.models.generate_videos(
model="veo-3.1",
prompt="一只猫在月光下跳舞,电影级画质",
config=types.GenerateVideosConfig(
number_of_videos=1,
duration_seconds=8
)
)
# 等待完成
while not operation.done:
time.sleep(10)
operation = client.operations.get(operation)
# 下载视频
video = operation.response.generated_videos[0]
client.files.download(file=video, filepath="output.mp4")
Live API 支持实时的音视频交互:
import asyncio
async def live_session():
config = {"response_modalities": ["TEXT"]}
async with client.aio.live.connect(model="gemini-3-flash", config=config) as session:
await session.send(input="描述你看到的内容", end_of_turn=True)
async for response in session.receive():
print(response.text)
开源AI代理,在终端中直接使用 Gemini:
npm install -g @anthropic-ai/gemini-cli
gemini "分析这个项目的代码架构"
在线平台,支持:
托管的 RAG 系统,上传文件即可实现检索增强生成:
# 创建语料库
corpus = client.files.create_corpus(name="my_docs")
# 上传文件
client.files.upload(file="knowledge.pdf", corpus=corpus)
# 检索增强生成
response = model.generate_content(
"根据文档回答:...",
tools=[types.Tool(file_search=types.FileSearch(corpus=corpus.name))]
)
从 Gemini 2.x 迁移的主要变更:
gemini-2.5-pro → gemini-3-pro
评论区