ai - 流年 ℃

326

视频生成模型最新发展与二次剪辑小工具

乐果发表于 2026 年 04 月 07 日

最近因孩子学校举办视频制作大赛，周末关注了视频生成模型最新发展，以抖音字节为代表的国产模型Seedance 2.0确实很惊艳，但也同时发现了视频生成的质量也不完全无懈可击，或多或少都需要二次剪辑，因此发现一些二次微调的小工具还存在很多细分商机。

字幕去除

虽然很多视频生成模型，都自称具备多模态能力，但生成的视频存在很多问题。例如字幕存在错别字，当花了很长时间成本得到了一段视频发现字幕上有几个错别字，却很尴尬。因为如果重新生成又要等很长时间，并且还是不能百分百保证完全没问题。

因此，最好的办法是二次剪辑处理。目前针对硬字幕去除的开源项目有： video-subtitle-remover

用视频生成模型时，最好在提示词强调不要出现字幕，这样就免去字幕错别字的困扰。字幕可以在二次剪辑中再添加，例如通过剪映字幕自动补全功能。

语音处理

对于一个短片来说，例如学校举办的比赛：制作一段3～5分钟的历史人物生平事迹、高光时刻、遗憾的视频，目前的模型最长时间是15秒，因此需要分片场分段生成，然后再用剪辑工具串联。

但是模型生成的视频在不同分段的视频中，语音语调有很大差异，这就需要二次剪辑中重新调整。例如通过剪映工具分离出语音，用“语音模型”重新生成（用临近分段视频中的语音作为“模仿”）。目前开源的语音模型项目有：ChatTTSPlus

其他关于视频相关的模型

下面例举一些比较有意识，或有价值的开源模型，随着技术后续发展将持续更新：

……

标签：ai video 继续阅读

0

4930

N卡环境下以Docker方式一键部署ComfyUI

乐果发表于 2025 年 02 月 08 日

之前直接在N卡物理机上跑模型难免因为各种依赖兼容的问题反复折腾，并且当模型升级时依赖环境又得升级。特别当跑多个不同模型时，环境的兼容性就成了“鱼与熊掌不可兼得”尴尬。最近发现可以用Docker方式部署，不得不说英伟达的生态还是非常棒的，也难怪成为显卡一哥。

下面把折腾笔记记录一下。

假设在debian12服务器系统下已安装好如下基础环境：

安装好英伟达显卡驱动；
安装好Docker；

安装英伟达为Docker容器工具包

检查 NVIDIA 容器工具包是否安装：

dpkg -l | grep nvidia-container-toolkit

确认 NVIDIA 容器工具包是否已正确安装

如果没有任何信息出现，则使用以下命令安装:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
    && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
    && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
 
sudo apt update
sudo apt install -y nvidia-container-toolkit
sudo systemctl restart docker

注意，如果是ubuntu18.04之类的系统，上面步骤是可以的。但是debian12可能会报错，可能是debian12作为debian最新发行版显卡一哥还没来得及更新。

不过没关系用deiban11也是可以，如下：

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey > /etc/apt/keyrings/nvidia-docker.key
curl -s -L https://nvidia.github.io/nvidia-docker/debian11/nvidia-docker.list > /etc/apt/sources.list.d/nvidia-docker.list
sed -i -e "s/^deb/deb \[signed-by=\/etc\/apt\/keyrings\/nvidia-docker.key\]/g" /etc/apt/sources.list.d/nvidia-docker.list
apt update
apt -y install nvidia-container-toolkit
systemctl restart docker

部署ComfyUI

拉取第三方ConfyUI镜像：

docker pull dockerproxy.net/yanwk/comfyui-boot:cu124-cn

定义工作空间:

mkdir -p /data/comfyui/storage

启动镜像容器:

……

标签：Docker ai 继续阅读

0

3789

insightface人脸识别算法的应用

乐果发表于 2024 年 05 月 08 日

在研究 stable-diffusion 的一些 ai 功能时，发现了 insightface 这个开源的人脸检测识别、比对算法模型库。

github 源码

python 类库： https://pypi.org/project/insightface/

在对它应用时发现一些环境兼容性的问题，因此作一下笔记。

insightface 安装

insightface 目前 python 官方的版本是 0.7.3

pip install insightface

命令即可安装

环境兼容性问题

由于 0.7.3 版本大概两年前，彼时 numpy 版本应该是 1.22.3 ，
因此它使用了 numpy.ini 这个属性，但目前 numpy 版本已经迭代到 1.26 以上， numpy.int 在NumPy 1.20中已弃用，在NumPy 1.24中已被删除，所以没有numpy.int

因此，insightface 实际使用时会报错：

Traceback (most recent call last):
  File "/data/work/py/sd-api/main.py", line 80, in <module>
    start(sys.argv[1:])
  File "/data/work/py/sd-api/main.py", line 72, in start
    img2img.img2img(filename)
  File "/data/work/py/sd-api/img2img.py", line 150, in img2img
    cv2.imwrite(faceSaveName, face_analyser.draw_on(faceCheckImg, faces))
  File "/home/xiao/anaconda3/envs/sd/lib/python3.10/site-packages/insightface/app/face_analysis.py", line 84, in draw_on
    box = face.bbox.astype(np.int)
  File "/home/xiao/anaconda3/envs/sd/lib/python3.10/site-packages/numpy/__init__.py", line 324, in __getattr__
    raise AttributeError(__former_attrs__[attr])
AttributeError: module 'numpy' has no attribute 'int'.
`np.int` was a deprecated alias for the builtin `int`. To avoid this error in existing code, use `int` by itself. Doing this will not modify any behavior and is safe. When replacing `np.int`, you may wish to use e.g. `np.int64` or `np.int32` to specify the precision. If you wish to review your current use, check the release note link for additional information.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations. Did you mean: 'inf'?

解决办法，要么根据提示，将代码中对应的 numpy.ini 修改成 numpy.ini_，即修改 insightface 源码。

……

标签：python ai 继续阅读

0

2226

作图Ai工具 Stable Diffusion WebUI 插件汉化

乐果发表于 2024 年 03 月 28 日

最近在 rtx4060 显卡笔记本上安装了 stable-diffusion-webui，显然 8G 显存跑这个工具还是很吃力，很多算法模型运行时提示显存不足，好在有个优化分支版本：stable-diffusion-webui-forge，对显存要求没有那么高，但可能对某些算法存在兼容性问题，没办法—-谁让自己的硬件不行呢，于是下载它捣腾试试。

stable-diffusion-webui-forge 在 github 地址，可直接 git clone 下来按文档安装环境(略)。

目前测试了工具的基础n功能 文生图 、 图生图 ，以及几个常用的算法扩展插件：换脸（ReActor）、视频动漫（Ebsynth Utility）效果还是挺不错的。这种工具对于美工、漫画、动画创作者来说确实是个大神器，例如出一个海报之类的，创作一个人物原型上色之类的，都是非常高效的。

但发现装了汉化包 stable-diffusion-webui-chinese 后，只对 Stable Diffusion 本身做了汉化，安装的插件并没有汉化。

基础语言包地址：stable-diffusion-webui-chinese

通过梳理源码，发现汉化语言包存发在 extensions/stable-diffusion-webui-chinese/localizations 目录下，例如设置中英双语的语言包文件为 chinese-english-0313.json

插件汉化

既然找到对应的语言包文件，那么对插件的汉化，可以自己向语言包文件添加”键值对” 即可。

例如，我安装了 Ebsynth Utility 插件，汉化方法：把界面中的英文复制到翻译工具中翻译，并整理成json格式，然后添加到语言包配置文件中。

具体如下：

进入 extensions/stable-diffusion-webui-chinese/localizations 目录，编辑 chinese-english-0313.json (语言包通过json文件配置)文件添加。

……

标签：ai 继续阅读

0

1593

ONNX：深度学习模型的开源标准

乐果发表于 2024 年 03 月 24 日

在 Ai 项目中经过会有 .onnx 格式的模型文件，那么它到底是干什么的呢？

了解这个首先要了解 ONNX 是什么。

ONNX

ONNX（即开放神经网络交换）是一种用于深度学习模型的开源标准，用来表示深度学习模型的开放格式。所谓开放就是 ONNX 定义了一组与环境、平台均无关的标准格式，来增强各种 AI 模型的可交互性。是由 Facebook 和 Microsoft 共同开发的，目的是让研究人员和工程师更容易在不同的深度学习框架和硬件平台之间迁移模型。

ONNX 的主要优点之一是它允许轻松地从一个框架（例如 PyTorch ）导出模型，并导入到另一个框架（例如 TensorFlow）中。这对于想要尝试不同框架来训练和部署模型的研究人员，或者需要在不同硬件平台上部署模型的工程师特别有吸引力。

……

标签：ai 继续阅读