视频生成模型最新发展与二次剪辑小工具
最近我家孩子学校举办视频制作大赛,因此周末关注了视频生成模型最新发展, 以抖音字节为代表的国产模型Seedance 2.0确实很惊艳,但也同时发现了视频生成后的 二次剪辑小工具之类还存在很多细分商机。
字幕去除
虽然很多视频生成模型,都自称具备多模态能力,但生成的视频存在很多问题。 例如字幕存在错别字,当花了很长时间成本得到了一段视频发现字幕上有几个错别字,却很尴尬。因为如果重新生成又要等很长时间,并且还是不能百分百保证完全没问题。
因此,最好的办法是二次剪辑处理。目前针对硬字幕去除的开源项目有: video-subtitle-remover
用视频生成模型时,最好在提示词强调不要出现字幕,这样就免去字幕错别字的困扰。字幕可以在二次剪辑中再添加,例如通过剪映字幕自动补全功能。
语音处理
对于一个短片来说,例如学校举办的比赛:制作一段3~5分钟的历史人物生平事迹、高光时刻、遗憾的视频,目前的模型最长时间是15秒,因此需要分片场分段生成,然后再用剪辑工具串联。
但是模型生成的视频在不同分段的视频中,语音语调有很大差异,这就需要二次剪辑中重新调整。 例如通过剪映工具分离出语音,用“语音模型”重新生成(用临近分段视频中的语音作为“模仿”)。 目前开源的语音模型项目有:ChatTTSPlus
其他关于视频相关的模型
下面例举一些比较有意识,或有价值的开源模型,随着技术后续发展将持续更新:
……