之前用 LMArena 將圖片轉成 PVC 模型公仔照時,注意力完全都放在表現出色的謎樣 AI 圖像生成模型 nano-banana 上,想想也應該認識一下其他模型。正好畫了一張新圖,就拿圖來測試在同樣的指令下,LMArena 上各種能夠以圖生圖的 AI 模型會有怎麼樣的表現。
使用指令如下。可以提取圖片元素模擬生成「放在電腦桌上的 PVC 模型公仔」圖片。
Draw a prospective model of the character in the picture, commercialized as a 1/7 scale full body figure. Please make this image into a real-life figure photo. Place the figurine version of the photo I provided on a round black plastic pedestal. I would like the PVC material to be clearly visible. The background should be a computer desk.
使用的圖片則是下面這張。

首先是 gpt-image-1 的生成結果。雖然長得和圖片不太像,不過可以辨識出是根據同一張圖片和相同指令生成的結果。如果不介意像不像原圖,右邊那張還挺可愛的。


接著是 gemini-2.0-flash-preview-image-generation 的生成結果。重試十幾次也沒有一次能生成接近原圖的姿勢,怎麼產出都是邪神像,算是玩 LMArena 盲測圖生圖時的地雷。


seededit-3.0 也是一個自行詮釋原圖的奔放模型,不過至少願意擺出同樣姿勢。而生成的圖像完成度也比 gemini 高很多,有種獨特的質感。


然後是非常沒有誠意(?)的 flux-1-kontext-dev…雖然確實提取出了圖片裡的元素,但卻沒有辦法將其立體化成為 PVC 模型公仔。左圖還可以從髮梢、鞋子和手指等處看見一點立體感,如果能夠成功立體化的話或許效果會很棒?然而右圖則是完全放棄掙扎,像是一塊壓克力立牌。


接下來就是比較能忠於原圖生成模擬圖的模型了。首先是 flux-1-kontext-pro,成功重現耳機的造型,但或許是打光的關係,塗裝的感覺比較像是扭蛋或抽獎拿到的。


qwen-image-edit 也相當忠於原圖,而且生成結果非常穩定,使用同樣的圖片、同樣的指令就能得到幾乎同樣的結果。不想盲測抽獎的話,可以切換到 Direct Chat 模式直接調用這個模型來圖生圖。


最後是謎般的模型 nano-banana。塗裝質感和前面的幾個模型的生成結果完全不一樣,感覺就是狠狠地比較昂貴…喔不,應該說是比較細緻…電腦桌上出現的物件也比其他模型生成的圖片來得多,還有著濃厚宅宅的味道。


意外得到光源比較特殊的生成結果,好像真的存在一般。nano-banana 真嚇人。

由於 nano-banana 似乎是開發中模型,目前只有在 LMArena 的 Battle 模式出現,所以想得到這種忠於原圖的生成結果,就只能在盲測裡抽獎了。希望大家都能抽到大獎。














