9

视频生成模型最新发展与二次剪辑小工具

乐果   发表于   2026 年 04 月 07 日 标签:aivideo

最近我家孩子学校举办视频制作大赛,因此周末关注了视频生成模型最新发展, 以抖音字节为代表的国产模型Seedance 2.0确实很惊艳,但也同时发现了视频生成后的 二次剪辑小工具之类还存在很多细分商机。

字幕去除

虽然很多视频生成模型,都自称具备多模态能力,但生成的视频存在很多问题。 例如字幕存在错别字,当花了很长时间成本得到了一段视频发现字幕上有几个错别字,却很尴尬。因为如果重新生成又要等很长时间,并且还是不能百分百保证完全没问题。

因此,最好的办法是二次剪辑处理。目前针对硬字幕去除的开源项目有: video-subtitle-remover

用视频生成模型时,最好在提示词强调不要出现字幕,这样就免去字幕错别字的困扰。字幕可以在二次剪辑中再添加,例如通过剪映字幕自动补全功能。

语音处理

对于一个短片来说,例如学校举办的比赛:制作一段3~5分钟的历史人物生平事迹、高光时刻、遗憾的视频,目前的模型最长时间是15秒,因此需要分片场分段生成,然后再用剪辑工具串联。

但是模型生成的视频在不同分段的视频中,语音语调有很大差异,这就需要二次剪辑中重新调整。 例如通过剪映工具分离出语音,用“语音模型”重新生成(用临近分段视频中的语音作为“模仿”)。 目前开源的语音模型项目有:ChatTTSPlus

其他关于视频相关的模型

下面例举一些比较有意识,或有价值的开源模型,随着技术后续发展将持续更新:

视频生成模型(以人为中心):HuMo

脸部处理(换脸) facefusion

乐果   发表于   2026 年 04 月 07 日 标签:aivideo

0

文章评论