视频生成模型最新发展与二次剪辑小工具

乐果发表于 2026 年 04 月 07 日标签：ai video

最近我家孩子学校举办视频制作大赛，因此周末关注了视频生成模型最新发展，以抖音字节为代表的国产模型Seedance 2.0确实很惊艳，但也同时发现了视频生成后的二次剪辑小工具之类还存在很多细分商机。

虽然很多视频生成模型，都自称具备多模态能力，但生成的视频存在很多问题。例如字幕存在错别字，当花了很长时间成本得到了一段视频发现字幕上有几个错别字，却很尴尬。因为如果重新生成又要等很长时间，并且还是不能百分百保证完全没问题。

因此，最好的办法是二次剪辑处理。目前针对硬字幕去除的开源项目有： video-subtitle-remover

用视频生成模型时，最好在提示词强调不要出现字幕，这样就免去字幕错别字的困扰。字幕可以在二次剪辑中再添加，例如通过剪映字幕自动补全功能。

对于一个短片来说，例如学校举办的比赛：制作一段3～5分钟的历史人物生平事迹、高光时刻、遗憾的视频，目前的模型最长时间是15秒，因此需要分片场分段生成，然后再用剪辑工具串联。

但是模型生成的视频在不同分段的视频中，语音语调有很大差异，这就需要二次剪辑中重新调整。例如通过剪映工具分离出语音，用“语音模型”重新生成（用临近分段视频中的语音作为“模仿”）。目前开源的语音模型项目有：ChatTTSPlus

下面例举一些比较有意识，或有价值的开源模型，随着技术后续发展将持续更新：

视频生成模型（以人为中心）：HuMo

脸部处理（换脸） facefusion

乐果发表于 2026 年 04 月 07 日标签：ai video

流年