首页 > 正文

中信建投:海内外视频模型密集发布 API打开商业化空间

2024年10月17日 08:47
作者:阙福生
来源: 证券时报网
编辑:东方财富网

手机上阅读文章

  • 提示:
  • 微信扫一扫
  • 分享到您的
  • 朋友圈

  中信建投研报指出,1)AI视频模型密集发布。今年以来,Meta、谷歌、Runway、Pika,字节跳动、快手、阿里、Minimax均发布AI视频模型,都具备生成5秒以上视频的能力,色彩/动态/质量等水平普遍较高。以Meta为例,其AI视频功能将集成在Facebook、Instagram等社交平台,用户渗透率将进一步提升。目前国内模型公司中,Kimi、阶跃星辰等尚未发布视频模型,后续有望推出。

  2)API逐步开放,商业化有望打开空间近期快手可灵、智谱、Runway等模型均开放视频模型API,平均生成一段5秒的视频收费在0.5元—2元不等。展望未来,随着AI视频在C端娱乐社交、B端影视内容制作等场景之下,应用渗透率提升,叠加API成本的持续下降,AI视频的商业化空间将打开。

  全文如下

  中信建投 | AI视频:海内外视频模型密集发布,API打开商业化空间

图片

  我们在7月份发布的AI视频报告系列(一)《国产AI视频:可用度强性价比高,快手可灵开启C端付费》中,率先提示国产视频模型在可用度、性价比等方面赶超海外。近期全球视频模型密集发布和迭代,无论是效果优化、功能创新还是应用落地,均有超预期表现。

  6-10月海内外超10款视频模型更新。6月快手可灵1.0率先发布;7月智谱、PixVerse、Vidu推出;9月快手可灵更新1.5模型,阿里万相和字节豆包发布,海外Runway、Luma和国内快手可灵、Vidu发布API接口;10月海外Meta Movie Gen和Pika 1.5发布。

图片

  年内还有两家明星AI公司的视频模型有望发布。国产视频模型主要由大厂和AI创业公司研发,AI创业公司中,Minimax和智谱AI均已发布视频模型,我们认为整体性能位于国内第一梯队。据36氪等媒体报道,月之暗面、阶跃星辰有望在年内发布视频模型,叠加Minimax、智谱的视频模型持续迭代,我们预计国产视频模型的技术能力有望再上新台阶。

图片

  科技大厂的视频模型同样密集更新迭代。快手可灵自6月发布至今已完成10次迭代,其AI视频编辑功能也即将上线,增加可灵的实用性;字节的豆包视频模型已经在内测API和应用,国庆节后会放出更多公开API。此外,Meta深耕社交场景,用户规模大,期待Meta Movie Gen在25年全面开放,Instagram等应用有望集成AI视频能力,推动AI视频技术全球普及。

图片

  我们认为近期新模型发布,反映三大产业趋势:

  1)性能迭代:动态效果提升,AI视频功能创新。视频动态和运镜效果持续提升,且在常规的文生和图生视频基础上,创新推出视频编辑、视频特效等功能,提高视频生成的可控性和趣味性。

  2)应用落地:API接口密集发布,看好AI视频三大落地场景。海外Runway、Luma和国内快手可灵、Vidu等均已发布API接口,更多AI应用有望集成视频生成功能。我们预计应用将面向C端社交、创作者和B端影视三大场景加速落地。

  3)技术创新:Meta提出全新技术路线,完整技术论文推动产业进步。2月初Sora验证了DiT架构在视频生成方面的可行性,后续海内外公司普遍沿用Sora的技术路径。近期Meta Movie Gen发布,创新采用区别于DiT的Transformer+Flow Matching架构,且发布92页技术报告详细披露训练方法、架构设计等,有望为其他厂商提供新的视频模型开发思路。

  一、性能迭代:动态效果提升,AI视频功能创新

  核心能力:动态效果更自然流畅,通过运镜增加画面动感。物体进行自然流畅的运动,并保持一致性和物理性是AI视频的主要难点之一。同时我们认为动态表现是AI视频能否大规模应用的主要影响因素之一,一方面,随着动态效果优化,AI视频内容可以从单纯的背景、转场拓展至物体运动,另一方面,动态效果在影视制作中成本高、耗时长,亟需AI技术进行降本增效。现有产品中,国内可灵、豆包和海外Meta Movie Gen在动态效果方面表现较好。

  快手可灵:1.5模型的动态质量显著提升。对比1.5模型和1.0模型在可灵AI出圈案例“小男孩吃面”中的表现,1.5模型更逼真地展现面条从被夹起到入口的过程,弹性、垂坠感表现较好,同时小男孩手握筷子和咀嚼面条的动作,也相比1.0模型更加自然流畅,整体运动合理性增强。

  字节豆包:动作连贯,运镜表现突出。根据Demo视频,人物可以完成“摘下墨镜、站起身、走向雕像”的连贯动作,且实现360度围绕主体环绕、前后景变焦、目标跟随、升降镜头等视角切换,提高物体动态的动感和沉浸式感受。

图片

  创新能力:AI视频功能创新,提高可控性和趣味性。除了常规的文生视频和图生视频能力,近期新产品增加了视频编辑、音效匹配、个性化视频和视频特效等一系列新功能,用户可以一站式完成视频生成和剪辑,提高工具的可用性。我们认为后续视频模型除了进一步优化视频生成核心能力,还会陆续在视频编辑、音效匹配等创新能力方面展开竞争,进一步提高AI视频的实用性、趣味性。

图片

  1)视频编辑:实现视频内容的高效调整。AI视频可控性较弱,仅靠提示词难以达到预期效果。Runway和爱诗科技分别在23年11月和24年6月发布运动笔刷功能,通过箭头、滑块等控制物体的运动方向和距离。近期发布的Meta Movie Gen可以通过文本提示词,对视频局部元素进行编辑,例如添加、移除和替换元素、修改背景、修改视频风格等,视频编辑的精准度、便利性显著提高。

  2)音效匹配:AI视频告别“哑剧”。现有产品普遍只能生成静音的视频,主要是因为AI配音需要克服较多难点,包括物体和场景识别、声音模式检索、声音元素重组等。Pika在今年3月率先推出音效生成功能Sound Effects,支持根据Prompt或视频内容生成音效,例如车鸣声、广播声和欢呼声。今年9月发布的阿里万相同样带有音效,经我们实测,目前音效是自动生成的,无法通过提示词定制或修改。Meta Movie Gen包含最大参数130亿的音频生成模型,可以基于视频和可选的文本提示词生成最长45秒的高质量保真音频,包括环境声音、音效和背景音乐,音效将与视频内容同步。

图片

  3)个性化视频:多次生成的视频角色保持一致。当前公开可用的视频模型,生成视频的时长最长约10秒,如果想生成微短剧等影视作品,则需要将多个视频拼接到一起,并保证各个视频中的人物、风格是一致的。

  PixVerse:视频一致性进展较快。24年4月就率先推出“角色”功能,基于用户输入的人物图像,生成该人物的视频;7月在V2版本中进一步升级一致性功能,支持一次性生成最多5段8秒视频,且片段之间会保持主体形象、画面风格和场景元素的一致。

  Meta Movie Gen:同样支持个性化视频生成。该功能的应用过程与PixVerse的“角色”功能类似。随着这类功能普及,我们预计AI视频有望在短剧制作等对情节一致性要求较高的场景加速落地。

  4)视频特效:增加AI视频趣味性和可玩性。Pika 1.5增加Pikaffects,包含压扁、融化、被切开、爆炸、挤压、膨胀等一系列物理特效功能,我们预计有望拓展趣味视频、表情包生成等C端场景,增加AI视频的趣味性。

图片

  二、应用落地:API接口密集发布,看好AI视频三大落地场景

  视频模型API接口密集发布,更多AI应用有望集成视频生成能力。

  7月:智谱推出基于视频模型CogVideoX的API接口,该模型即为智谱清影的底层模型,生成6秒视频的价格为0.5元。

  9月中下旬:Runway和Luma AI同步推出视频生成模型的API接口,均已全面开放。Runway的API接口来自最新的Gen-3 Alpha Turbo模型,采用积分制的定价方式,生成5秒视频折合约0.25美元,价格比快手可灵的C端价格高40%。Luma AI的API接口已向所有用户开放,生成一段5秒钟720p分辨率的视频需支付约0.35美元。

  9月底:国内Vidu和快手可灵相继推出API接口。另据火山引擎总裁谭待,豆包视频生成大模型也已经在内测API和应用,国庆节后会放出更多公开API。

图片

  在视频报告系列(一)中,我们详细展望AI对中短视频内容创作的影响。随着字节豆包、Meta、Pika等新模型发布和更新,以及Runway、快手可灵等产品与影视行业开展合作,我们预计AI视频有望率先落地C端社交娱乐、中短视频内容创作和专业级影视创作三大场景。

  场景一:C端社交娱乐。去年至今出圈的妙鸭相机、Remini粘土特效、对嘴型唱歌等AI玩法,均验证用户对娱乐类AI多模态场景的高需求。对于普通用户而言,视频剪辑和生成都不是高频功能,且现有视频模型对prompt的要求仍比较高,C端产品需要聚焦具体且刚需的社交娱乐场景。我们预计字节豆包、Meta均有望在社交娱乐场景率先落地视频能力。

  以Meta为例,旗下社交应用有望集成AI视频能力。当前Meta AI集成在公司旗下各个App中,提供资料搜索、文字和图像生成、图像理解等功能,Meta Connect大会披露当前Meta AI月活已超5亿,成为全球月活最高的AI应用,在Meta旗下应用的月活渗透率已超10%。据Meta官网,AI视频能力有望在25年集成至Instagram等社交应用中,用途包括制作生活日常短视频并在Reels上发布、定制生日问候并通过WhatsApp发送给朋友等。

  以字节为例,AI硬件产品有望提供新的AI音视频应用体验。字节豆包首款AI智能体耳机Ola Friend已于24年10月发布,售价1199元。该产品接入豆包大模型,是字节旗下首款AI硬件设备。用户戴上耳机后,无需打开手机,就可以直接通过语音唤起豆包进行对话,成为豆包的人机交互新渠道。耳机的语音识别能力较强,我们预计在日常信息查询、旅游出行、英语学习等场景用途较大。据豆包官网、钛媒体,Ola Friend的AI功能在发售后仍会持续进行更新,且字节还有一款AI眼镜在研。随着豆包视频模型全面开放,我们预计AI硬件有望为豆包的AI技术提供新的落地方式,我们预计新AI玩法可能包括自动剪辑设备录制的音视频、实时AI虚拟人对话等。

图片

  场景二:中短视频内容创作。目前快手可灵和字节即梦已分别集成至快影和剪映两大视频剪辑App中,重构短视频创作工作流。AI短片产品落地也较快,美图公司的AI短片创作工具MOKI已全面开放,昆仑万维旗下AI短剧平台SkyReels已发布,我们预计近期将开启内测。过去动画短片、MV、网文短剧等短片制作需要经历剧本创作、分镜设计、角色挑选、视频拍摄、后期剪辑等多个流程,此类AI短片产品用AI工作流重构上述流程。

  以美图的MOKI为例,用户只需经过三大步骤就可以完成AI短片制作:a)前期设定:设定好脚本、角色形象和视觉风格;b)生成视频素材:AI生成相应的分镜图,再生成视频片段;c)连接成完整的长视频:各个视频片段组合成完整的长视频,支持用户为特定篇端增加音效、驱动角色说话等。

图片

  场景三:专业级影视创作。专业的影视创作场景对AI工具需求高、付费意愿强。据动画艺术家工会(Animation Guild)今年上半年对美国55万名影视行业从业者进行的问卷调查,目前已经有69%的公司在使用生成式AI技术,其中约44%的公司将其应用于生成3D模型,39%的公司应用于设计角色和环境。因此Sora、Runway、Meta Movie Gen、快手可灵等头部视频模型均积极与影视行业开展合作。

  9月Runway与狮门影业达成AI电影制作的合作。狮门影业将开放其丰富的影视资源库,包含超两万部影视作品,其中包括《饥饿游戏》系列和即将上映的《大都市》等影片。Runway将基于该影视数据,构建一个定制化的 AI 视频生成和编辑模型,旨在辅助狮门影业的创意团队提升制作效率。同期快手可灵携手李少红、贾樟柯等九位中国导演,共同启动了中国首个AIGC电影短片共创计划,智谱也与华策影视合作开发视频模型。我们认为AI 技术有望逐步渗透影视行业制作全流程,推动AI视频技术在影视行业加速落地。

图片

  三、技术创新:Meta提出视频生成新路线,加速全球AI视频产业进步

  Meta Movie Gen提出新的AI视频技术路线。2月初Sora验证了DiT架构在视频生成方面相较扩散模型更具优势,此后全球主流模型普遍沿用Sora的技术路径,在DiT架构上进行微创新来研发视频生成模型。Meta Movie Gen则创新采用Transformer+流匹配(Flow Matching)的技术架构。具体而言:

  Sora的DiT架构需要多步迭代,以靠近目标。扩散模型的生成过程通常是从随机噪声开始,通过去除噪声来生成样本,用大量的迭代步数逐步逼近目标分布;DiT架构是把Transformer的能力引入到这个扩散模型里,更好完成模型对全局上下文信息的捕捉能力,本质上还是扩散的思路,需要大量的迭代来接近目标。

  Transformer+ Flow Matching新思路,视频生成效率更快。Transformer+ Flow Matching的思路,则是直接学习样本从噪声向目标数据分布转化的速度,模型只需通过估计如何在每个时间步中演化样本,即可生成高质量的结果,无需大量的逐步迭代,因此与扩散模型相比,新方法训练更加高效,计算成本更低,并且生成的结果在时间维度上具有更好的连续性和一致性。

图片

  Meta发布92页技术报告,详细披露架构和训练细节,为其他厂商提供更多参考。不同于OpenAI发布Sora时只进行产品演示和模型简要介绍,Meta对外展示了Meta Movie Gen的92页技术论文,包括架构、训练细节、测评方法和结果等,延续了Meta在大模型领域较为开放、共享的思路。根据技术论文,Movie Gen由两个模型组成,包括300亿参数的视频模型Movie Gen Video和130亿参数的音频模型Movie Gen Vide,沿用了较多Llama3的架构设计。在测评方面,由于视频模型涉及一致性、流畅度、色彩等大量主观评价标准,Meta主要采用人工比较的方式,对现有视频模型进行多维度的评估,结果显示Movie Gen的视频生成效果小幅度超越Sora和可灵1.5,显著超过Runway Gen-3和Luma。此外Meta还开源了多个基准测试数据集,包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench,为其他视频厂商和研究者提供了权威的评测工具和方法,有利于加速AI视频领域的进步。

图片
图片

  版权保护力度不及预期,知识产权未划分明确的风险,IP影响力下降风险,与IP或明星合作中断的风险,大众审美取向发生转变的风险,竞争加剧的风险,用户付费意愿低的风险,消费习惯难以改变的风险,关联公司公司治理风险,内容上线表现不及预期的风险,生成式AI技术发展不及预期的风险,产品研发难度大的风险,产品上线延期的风险,营销买量成本上升风险,人才流失的风险,人力成本上升的风险,政策监管的风险,商业化能力不及预期的风险。

(文章来源:证券时报网)

(原标题:中信建投:海内外视频模型密集发布 API打开商业化空间)

(责任编辑:6)

 
 
 
 

网友点击排行

 
  • 基金
  • 财经
  • 股票
  • 基金吧
 
郑重声明:天天基金网发布此信息目的在于传播更多信息,与本网站立场无关。天天基金网不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资决策建议,据此操作,风险自担。数据来源:东方财富Choice数据。

将天天基金网设为上网首页吗?      将天天基金网添加到收藏夹吗?

关于我们|资质证明|研究中心|联系我们|安全指引|免责条款|隐私条款|风险提示函|意见建议|在线客服|诚聘英才

天天基金客服热线:95021 |客服邮箱:vip@1234567.com.cn|人工服务时间:工作日 7:30-21:30 双休日 9:00-21:30
郑重声明:天天基金系证监会批准的基金销售机构[000000303]。天天基金网所载文章、数据仅供参考,使用前请核实,风险自负。
中国证监会上海监管局网址:www.csrc.gov.cn/pub/shanghai
CopyRight  上海天天基金销售有限公司  2011-现在  沪ICP证:沪B2-20130026  网站备案号:沪ICP备11042629号-1

A
安信基金安信证券资产安联基金
B
博时基金渤海汇金博道基金贝莱德基金管理北京京管泰富基金百嘉基金北信瑞丰宝盈基金博远基金
C
长盛基金长城基金诚通证券财通基金长安基金淳厚基金创金合信基金长城证券财通资管长信基金财达证券长江证券(上海)资管财信证券
D
东方红资产管理东莞证券东海基金德邦基金东方阿尔法基金东财基金东海证券德邦证券资管东兴证券东兴基金第一创业东吴基金达诚基金东证融汇证券资产管理大成基金东方基金东吴证券
F
方正富邦基金富国基金富达基金(中国)方正证券富荣基金富安达基金蜂巢基金
G
国海富兰克林基金国投瑞银基金广发资产管理国寿安保基金国联安基金国联证券资产管理光大保德信基金国投证券国联证券国都证券国海证券国新国证基金国泰基金国新证券股份国金基金国信证券国融基金格林基金广发基金国联基金工银瑞信基金国元证券
H
华润元大基金华泰证券(上海)资产管理华宸未来基金华泰柏瑞基金华富基金宏利基金华鑫证券华安证券资产管理汇百川基金汇丰晋信基金华安基金华商基金红土创新基金华泰保兴基金弘毅远方基金华安证券华西基金泓德基金汇泉基金合煦智远基金恒越基金惠升基金汇安基金恒生前海基金华夏基金红塔红土恒泰证券华创证券汇添富基金华宝基金海富通基金
J
嘉实基金金鹰基金建信基金金元顺安基金江信基金九泰基金景顺长城基金嘉合基金金信基金交银施罗德基金