ChatGPT 外,我用這方法搞定 AI 系列圖片生成!

ChatGPT 外,我用這方法搞定 AI 系列圖片生成!

我想從上週以來,各位讀者的社群都被 ChatGPT 最新的生圖模型洗版了吧,那鋪天蓋地的吉卜力風格圖片,是否也讓你躍躍欲試?但當你興奮地想用它為專案製作一系列主角相同、動作各異的圖片時,是否發現——生成的結果雖然不錯,但是由於服務的爆火,導致生圖的限制越來越多,耗費時間越來越長,讓你耗費大量時間卻得不到滿意的素材?如果你也遇到了這個「系列圖片」生成的瓶頸,那麼這篇文章或許能提供一個 ChatGPT 之外的有效解方。

這個生圖模型為何能紅?又為何讓人卡關?

ChatGPT 更新的這個「自迴歸模型」生圖功能,無疑是近期 AI 界的焦點。相較於先前主流的「擴散模型」(如 Stable Diffusion、Midjourney),它在理解自然語言、直接生成多樣化內容上似乎更勝一籌。理論上,生成系列圖片——比如讓同一個角色擺出不同姿勢——應該是它的強項。很多人也確實用它快速製作了 LINE 貼圖等創意內容,這也是它爆紅的主因。

然而,熱潮的背後是現實的骨感。首先是使用體驗的下滑:生成速度變慢、額度限制變多、有時甚至「降智」般地無法理解指令。更關鍵的是,在我嘗試將它用於遊戲專案的素材製作時,發現了更深層的問題。

我近期需要為一款遊戲化健身 APP 製作一系列由同一位教練演示不同動作的圖片。起初我寄望於 ChatGPT,但實際使用後發現,即使是新模型,在要求嚴格的人物一致性時,表現仍不穩定。有時人物的臉部細節會模糊不清,五官比例偶爾失調,或是整體風格難以完美統一,總讓我覺得「差點意思」,不夠精美。

可以明顯的看出兩張圖的人物長相差異

同時,為了製作一款像素風桌面小遊戲的 Sprite Sheet(連續動畫圖),我也用 ChatGPT 進行了測試。雖然單張效果驚豔,但連續生成三張就常需等待冷卻,有時一張圖甚至要花 2-3 分鐘,這對於需要大量且快速產出素材的開發流程來說,效率實在太低。

小圖看上去很好,但放大後就有明顯的臉部模糊問題

ChatGPT 之外的選擇:ImageFX 的驚喜與挑戰

在 ChatGPT 的效率與美感瓶頸下,我轉向了 Google 的 ImageFX(目前仍需申請試用)。我之前文章的一些配圖就依靠它,其生成單張圖片的美感和質感往往更符合我的期待,速度也較快(通常一分鐘內生成四張供選擇)。

ImageFX不用太精細的提示詞,也能產出很好的圖片

但 ImageFX 同樣基於「擴散模型」,這意味著它在生成系列圖片時,「人物一致性」的老問題依然存在。常常是第一張圖令人滿意,但當我試圖讓同一個角色換個動作時,角色的服裝細節、髮型,甚至臉部特徵都可能悄悄「飄移」,一致性難以保證。

用同一組提示詞在ImageFX產生的圖片

Aha Moment 與步驟優化

就在我快要放棄,準備回頭硬啃 Stable Diffusion 或接受 ChatGPT 的不完美時,我意外發現了一個結合 Google 工具鏈的方法,有效地解決了 ImageFX 的一致性問題! 這個發現讓我的素材製作流程豁然開朗。

那麼,我是如何用 ImageFX 製作一系列高度一致的圖片呢?

  1. 起點:獲取基礎人物
    1. 在 ImageFX 或 Gemini (Flash 2.0 模型) 中,使用簡單提示詞生成一張你大致滿意的人物圖(例如:「一位穿著運動服的亞洲女性健身教練,笑容燦爛,背景為明亮的健身房」)。
  2. 關鍵一步:讓 Gemini Pro 優化提示詞
    • 將步驟 1 生成的滿意圖片 或 你對理想人物的詳細描述,提供給 Gemini 2.5 Pro (或其他強大的語言模型)。
    • 要求它:「請根據這張圖片/我的描述,為 Google 的 Imagen 3 模型 (ImageFX/Flash 2.0 使用的模型) 生成一段詳細的、結構化的英文提示詞,以確保能穩定重現這個人物的樣貌特徵。」
    • [為何要這樣做?] Gemini Pro 通常能生成比我們隨手寫的更精確、更符合 AI 模型偏好的提示詞,包含臉部特徵、服裝細節、光線、風格等,這是提高後續一致性的基礎。
  3. 生成基準圖:
    1. 將 Gemini Pro 生成的詳細提示詞貼回 ImageFX 或 Flash 2.0,生成圖片。微調提示詞(或讓 Gemini Pro 再次優化),直到獲得一張你非常滿意的「基準人物圖」。
  4. 生成系列動作 (核心技巧):
    • 使用 ImageFX:
      • 在生成滿意的基準圖後,找到並「鎖定 (Lock)」該圖片的「種子 (Seed)」
      • [為何鎖定 Seed 有效?] Seed 控制了生成過程中的隨機性。鎖定它,意味著 AI 在生成新圖時會基於與基準圖非常相似的初始噪點,更容易保持人物和風格的一致性。
      • 現在,在原提示詞後面加入你想要的動作描述(例如:", doing jumping jacks" 或 ", lifting dumbbells"),重新生成。你會發現人物一致性大大提高!主要需要調整的可能是動作的自然度和準確性。
    • 使用 Gemini (Flash 2.0):
      • 好消息是: 根據我的測試,Flash 2.0 對話模式下的 Imagen 3 似乎能更好地理解上下文
      • 在生成滿意的基準圖後,直接在對話中繼續要求:「很好,現在讓她做開合跳 (Now have her do jumping jacks)」。Flash 2.0 通常能較好地保持人物一致性,甚至對動作的理解有時優於 ImageFX。
      • [我的經驗]:同樣是「開合跳」這個動作,我在 ImageFX 中反覆調整提示詞並鎖定 Seed,最好也只得到差強人意的結果;但在 Flash 2.0 中直接要求,第二次生成就得到了一張動作合理、人物一致的滿意圖片。
  5. 迭代優化:
    • 如果生成的動作不理想,或一致性仍有偏差,可以嘗試:
      • 微調動作描述。
      • 回到步驟 2,讓 Gemini Pro 針對特定動作再提供更精確的提示詞片段。
      • 在 ImageFX 中嘗試不同的 Seed,有時會有意外收穫。
透過上述流程成功用ImageFX製作了一系列圖片,不過未​​固定場景

透過這個流程,我終於成功生成了所需的 15 張運動示範圖!不僅人物保持了高度一致(臉部、髮型、服裝基本不變),省去了大量手動修改或反覆生成的挫敗感,而且在真人照片風格上,Imagen 3 的質感和細節表現甚至超出了我最初用 ChatGPT 時的預期!後續我將此流程應用於像素 Sprite Sheet 的生成,同樣取得了非常好的效果。

美女教練測試連結:https://g.co/gemini/share/e0a00eb307ae

2D像素Sprite Sheet測試:https://g.co/gemini/share/1b4b9f5f04ee

正是這樣的探索與突破,促使我寫下這篇文章,當然,我自己在測試的過程中,也懷疑過,Google 應該有為了因應 ChatGPT,偷偷的提升了 Imagen 3 的能力但沒有明說,畢竟在之前也不是沒人做過我這樣的嘗試,但是生成效果都沒有那麼好,5月下旬就是今年的 Google I/O,到時候Google應該會丟出許多重磅AI產品,非常令我期待,畢竟目前最新的 Gemini 2.5 Pro 真的上帶給我最多AI幸福感的模型。

用 AI 做些什麼,真的很有意思!

這次解決圖片生成難題的經驗,也讓我更深刻體會到「用 AI 做些什麼」的樂趣與力量。這和我近期投入「Vibe Coding」(基本上是用自然語言和 AI 一起寫程式)的體驗不謀而合:AI 正在成為強大的槓桿,讓我們這些非技術背景的人也能跨越技能門檻,將創意和想法付諸實踐。

無論是克服圖片一致性的挑戰,還是透過 Vibe Coding 快速搭建 APP 原型,核心都是一種主動運用 AI 來解決問題、創造價值的思維。有了這樣的體驗之後,我真心認為,所有從事企劃、行銷、PM、營運,任何需要將想法落地、需要產出內容或產品原型的人,都值得去探索如何將 AI 融入自己的工作流。

如果你也是一位需要產出視覺素材的行銷人員、內容創作者、產品經理,或是任何卡在「想法很多,執行很難」階段的實踐者,希望我這次的 AI 系列圖片生成經驗分享,能為你帶來一些啟發與實用的幫助。 後續我也會繼續分享我使用 AI(包含 Vibe Coding)開發遊戲化健身 APP 的心得與思考,敬請期待!

Read more

茶水間新聞週報Vol.7(0421-0427)

茶水間新聞週報Vol.7(0421-0427)

自從上期開始應用新的工作流製作週報之後,整個製作效率就提高很多,我不用再等AI輸出完之後再去修修改改,甚至重新排版,而在上週將新格式訂好後,本週這篇更是一次輸出完,我直接貼上就好都不用另外修改,真是太爽了。 另外也附上本週Podcast連結:https://open.firstory.me/user/cm9jphsh20k2401tlc7my4ith/platforms 重要新作 《龍族拼圖》系列最新作品《龍族拼圖 0》正式決定推出 現正開放事前登錄 GungHo Online Entertainment 宣布,將於 2025 年 5 月下旬推出《龍族拼圖》系列最新作《龍族拼圖 0》。本作是一款益智 RPG,操作簡單,透過消除同色寶珠來通關地下城,支援直式或橫式螢幕。遊戲包含收集寵物、培育要素,並支援 11 種語言,預計在全球 150 多個國家・區域發行。

By Roland Zhong
茶水間新聞週報Vol.6(0414-0420)

茶水間新聞週報Vol.6(0414-0420)

這週總算是能在週末如期發出電子報,雖然也是有點晚了,另外本週週報也嘗試了新的工具進行製作流程的優化,後續感覺可以寫一篇文章來分享一下我的工作流及使用工具,以及也有賴於新流程,這次週報的格式也調整的比較好,我覺得在閱讀體驗上應該是比前五期提高不少。 市場趨勢 只有Supercell敢玩的狠活,《爆裂小队》国服要做“粉丝向游戏”? | 游戏大观 | GameLook.com.cn Supercell新作《爆裂小隊》國服將採用邀請制發行,優先面向Supercell真愛玩家。 遊戲將不買量、不大推,依靠社交裂變和口碑傳播。 官方將推出「爆裂合夥人」企劃和IP典藏計畫,提供實體周邊福利。 這種「逆宣發」模式是Supercell對外服發行模式的反思,強調核心玩家體驗。 這種模式需要遊戲品質和強大的品牌影響力。 點評: 之前的週報都有簡單點評過《MO.CO》的邀請碼行銷利弊,而《爆裂小隊》陸服居然也大膽的採用此形式進行陸服的宣傳,甚至將過往遊戲的玩家數據作為判斷玩家忠誠度的標準進行真愛玩家邀請的發放,不得不說這個操作在鞏固前期玩家的社群忠誠度會比單純發放邀請碼更加有效,而這個行銷方式是否能

By Roland Zhong
茶水間新聞週報Vol.5(0407-0413)

茶水間新聞週報Vol.5(0407-0413)

前言 上週我一直在用的Gemini 2.5 Pro也加上了深度研究功能,所以這期週報就來試試表現如何,結果沒想到又是再次讓我驚艷,第一次出來的結果就是完全可用,只讓我微調了部分內容,就基本把摘要的內容全部處理好了,而且研究速度也提升非常多。 另外之前本來預告了要發一下《鳴潮》韓國線下活動的文章,不過機緣巧合下與一個讀者朋友錄了這個主題的Podcast,所以放這週內一起發佈。 第一部分:重大產業動態與企業戰略 * Ubisoft-Tencent 交易深度解析:重塑核心 IP 生態 * 此前,育碧宣布成立一家新的子公司,並引入騰訊作為重要投資者。根據公告,騰訊將投資 11.6 億歐元,獲得這家新子公司約 25% 的經濟權益。該子公司的投前企業價值約為 40 億歐元,這意味著其估值基於 FY23 至 FY25E 平均銷售額的約 4 倍。這家新成立的子公司總部位於法國,在交易前由育碧 100% 擁有,未來將專注於育碧旗下最頂級的三大 IP:

By Roland Zhong
茶水間新聞週報Vol.4(0324-0405)

茶水間新聞週報Vol.4(0324-0405)

前言:這次雙週報的內容量很大,即使製作過程中盡量刪減了字數,但依然有12,000字之多,但我覺得這期的內容篩選算是滿精華的,希望不會讓各位讀者感到閱讀困難。 主要遊戲公司財務表現 * A. 金山軟件:金山軟件在2024年取得了突破性的財務表現,年度營收首次超過人民幣100億元,達到人民幣52億元,較去年同期增長21%。其中,遊戲業務表現突出,營收達到人民幣52億元,年增長率高達31%。這一亮眼的成績主要歸功於其經典IP《劍網3》的強勁表現,該遊戲在實現跨平台互通後,線上玩家人數創下新高。《劍網3:無界》手遊的推出進一步擴大了用戶群,月活躍用戶超過1000萬。此外,金山軟件在ACG(動畫、漫畫、遊戲)領域也取得了重大突破,其二次元射擊遊戲《塵白禁區》在2024年夏季的周年慶期間營收達到高峰,七月預估營收超過人民幣2億元。該遊戲在國內新增用戶超過1000萬,海外新增用戶近300萬,成為金山軟件第二款年營收超過人民幣10億元的遊戲。備受期待的科幻機甲遊戲《解限機》也計劃於2025年上半年發布,其大規模的Beta測試獲得了積極反饋,在Steam平台的玩家關注度和Twitch平台的觀看人

By Roland Zhong