多参考图生视频
根据多参考图片生成视频,支持上传音频、视频等文件,仅支持异步模式。调用该接口前,您需要先通过调用「上传文件」接口获取输入的原文件路径;调用该接口后,您可通过调用「查询任务生成结果」接口获取视频的生成结果。
POST
https://cloud.baicaiinfer.com/v1/videos/generations
Authorizations
Body
application/json
input:ObjectRequired
输入参数集合。
input.prompt:StringRequired
是生成视频时用于描述期望内容提示词。
取值范围:
1~1000默认值:-
约束限制:支持中文、英文、日语、印尼语、西班牙语、葡萄牙语。推荐使用“@图1xxx,@图2xxx,@音频1xxx,@视频1xxx”的方式来指定图片、音频、视频文件。
input.resolution:StringRequired
分辨率。
取值范围:
480p、720p默认值:-
约束限制:-
input.aspect_ratio:String
无需指定,系统自动适配宽高比。
取值范围:
-默认值:-
约束限制:-
input.duration:IntRequired
视频时长,单位s。
取值范围:
4~15或许-1默认值:-
约束限制:-1表示系统会根据提示词内容智能生成视频时长。
input.mutil_reference:Array<Object>Required
对象数组,表示系统需要处理多个独立的参考项。
取值范围:
1~15默认值:-
约束限制:-
input.mutil_reference.media_type:StringRequired
数组中每个对象的类型标识。
取值范围:
image、video、audio默认值:-
约束限制:-
input.mutil_reference.urls:Array<String>Required
原文件资源。
取值范围:
图片URL、视频URL、音频URL默认值:-
约束限制:图片要求(1~9张):格式为PNG或JPG,大小≤30MB;视频要求(1~3个):格式为MP4或MOV,分辨率为480p和720p,单个视频时长为2~15s,单个视频大小≤50MB;音频要求(1~3个):格式为wav和mp3,单个音频时长为2~15s,所有音频总时长不超过15s,单个音频大小≤15MB。请求体大小≤64MB,注意不可单独输入音频,应至少包含1个参考视频或图片。同时seedance2.0系列模型不支持直接上传含有真人人脸的参考图/视频。
input.number_of_videos:Int
指定生成视频的数量。
取值范围:
1~4默认值:1
约束限制:-
enable_web_search:Boolean
是否打开联网搜索。
取值范围:
true、false默认值:false
约束限制:-
need_expand_prompt:Boolean
是否打开提示词优化。
取值范围:
true、false默认值:false
约束限制:-
async:Boolean
是否采用异步方式处理请求。
取值范围:
true、false默认值:true
约束限制:-
Response
状态码:application/json
200
code:IntRequired
表示请求处理状态的状态码。
0
400
500
0是成功标识,表示接口正常返回预期结果。
message:StringRequired
返回请求的处理结果,通常配合状态码使用,直观告知用户当前请求的具体情况。
data:objectRequired
任务的核心结果数据。
data.taskId:StringRequired
任务的唯一标识ID。
ts:StringRequired
响应的时间戳。
cURL
Python
JavaScript
curl --location --request POST 'https://cloud.baicaiinfer.com/v1/videos/generations' \
--header 'Authorization: Bearer sk-ygktMgzqS9OnN3bmDbX*****' \
--header 'Content-Type: application/json' \
--data-raw '{
"selected_model": "Doubao-Seedance-2.0-fast-MR2V",
"task_type": "multi_ref_img2video",
"input": {
"prompt": "全程使用@视频1的第一视角构图,全程使用@音频1作为背景音乐。第一人称视角果茶宣传广告,seedance牌「苹苹安安」苹果果茶限定款;首帧为@图片1,你的手摘下一颗带晨露的阿克苏红苹果,轻脆的苹果碰撞声;2-4 秒:快速切镜,你的手将苹果块投入雪克杯,加入冰块与茶底,用力摇晃,冰块碰撞声与摇晃声卡点轻快鼓点,背景音:「鲜切现摇」;4-6 秒:第一人称成品特写,分层果茶倒入透明杯,你的手轻挤奶盖在顶部铺展,在杯身贴上粉红包标,镜头拉近看奶盖与果茶的分层纹理;6-8 秒:第一人称手持举杯,你将@图片2中的果茶举到镜头前(模拟递到观众面前的视角),杯身标签清晰可见,背景音「来一口鲜爽」,尾帧定格为@图片2。背景声音统一为女生音色。",
"resolution": "720p",
"duration": 5,
"mutil_reference":[
{
"media_type": "image",
"urls" : ["https://s1.llamafactory.online/baicai-infer/results/7008156537973444633/u4RaoZISKoOjlIqUNqP3qdtBxeYb16uHBjvPr50dj7HuEoXUj087UjVmuB5TEvVXGINYVByafQPDdwcqTV4hIA.png"]
},
{
"media_type": "image",
"urls" : ["https://s1.llamafactory.online/baicai-infer/results/dfc81accf20d42deb76ec7ef222134bc/IH3h22hhJ5q1nrHu1R5FBQ.png"]
},
{
"media_type": "video",
"urls" : ["https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_tea_video1.mp4"]
},
{
"media_type": "audio",
"urls" : ["https://ark-project.tos-cn-beijing.volces.com/doc_audio/r2v_tea_audio1.mp3"]
}
]
}
}'200
400
401
404
500
{
"code": 0,
"message": "任务提交成功",
"data": {
"taskId": "3524e0b3ba014b12ab1faf29f9f*****"
},
"ts": "2026-03-09T10:44:54.716004004+08:00[Asia/Shanghai]"
}