Image to Video by COMFY UI

2025/09/25

上週開始感覺最近AI繪圖以及產製影片的詐騙案例開始比較多，而通常最常見的是提用AI詐騙讓人提供資訊，或是上傳照片等個人訊息為了使用某些線上AI工具。為了和家人說明這些風險，決定自己先嘗試製作一些AI應用讓家人可以使用，也至少盡可能讓他們想玩的東西本地端化，至少可以減少一點洩漏風險。

文字轉語音的部分在另一篇已經介紹過了，目前也已經串接上LINE BOT讓不少群組使用，而這篇會主要在說明我在製作一些AI影片和圖片時的一些過程記錄。不過因為真人資訊會有一些個資問題，所以最終產出的結果會盡量以非真人的方式示意。

先提供一個成果當作開頭吧。

圖片.png

這部影片是我一個我利用COMFYUI產製的圖片轉文字成果，為了避免有真人的個資疑慮問題，我使用的是明日方舟的角色塑心(Virtuosa/ヴィルトゥオーサ，本名:阿爾圖羅·吉亞洛Arturia Giallo)

並先用AI圖轉圖工具建立了一套兔女郎裝扮，再用圖片轉影片得到最終的結果。

關於Comfy UI的安裝不是本篇的主要內容，只會提供一些簡單的環境說明

作業系統: Win 11
CPU: AMD 9800X3D 8-Core
GPU: 4060 TI
COMFYUI環境: Windows protable v0.3.58 (python 3.13)
Nvidia Driver: NVIDIA-SMI 560.94
CUDA Version: 12.6
記憶體: 64G

要提醒的事情是在我撰寫這篇文章截止前，由於Google團隊還尚未支援mediapipe 到python 3.13這個版本，所以如果要使用像是controlnet_aux或是套件相依性會觸碰到mediapipe 的人建議要選擇其他版本。

那接著就是關於本篇文章的主要資訊，由於低顯存的顯卡經常會難以有輸出，所以早期看到的影片或文字轉影片的模型原本都是吃不了也摸不著。

不過前陣子看到 **Wan: Open and Advanced Large-Scale Video Generative Models (論文可以直接點入查看) 官方套件:** https://github.com/Wan-Video/Wan2.1 這次主要是使用阿里巴巴開源的 Wan2.1 模型來達到最主要的文字轉影片的部分，不僅是因為這次是個開源的模型權重，他的參數和相關的資訊對我這樣的一般用戶而言終於有個比較合算的嘗試機會。

我大致的工作流如下(文轉圖的部分不再這次範圍)

載入模型
擷取想要轉換的人(或角色)的圖片資訊特徵
提取影片中有關於動作相關的資訊(更進一步可以進行遮罩或背景處理)