返回首页

第五篇:GPT-Image-2 + XCrawl AI 主图自动化工作流

✏️ @zstmfhy · 2026-05-06
📎 查看原文
📎 **来源:** @zstmfhy 原帖

cover

>

**一句话:** GPT-Image-2 时代,真正值钱的不是 prompt,而是「参考图工作流」——用 XCrawl MCP 自动从 Behance 抓取高质量设计参考,让 AI 出图从「超市货架级」拉到「设计师品牌级」。

核心原则

prompt 决定下限,参考图决定上限。

GPT-Image-2 的美学基础已经足够强(比 DALLE-3 能打),继续卷 prompt 的边际收益在下降。真正要卷的是 **怎么给模型更好的视觉样本**。

AI主图自动化工作流流程图
GPT-Image-2 + XCrawl 主图自动化工作流总览

**同一个 prompt 的对比:**

裸prompt vs 参考图对比表
裸 prompt 反复调 vs 参考图驱动 (XCrawl + GPT-Image-2) 多维度对比
  • **裸 prompt:**「日式天然蜂蜜玻璃瓶包装,黑熊吉祥物」→ 能用,但像超市十几块钱的普通货
  • **prompt + 5 张 Behance 参考图:** → 接近设计师交付的品牌稿,有溢价感
  • 文字描述美学是「有损压缩」。参考图才是高质量样本。


    Step 1:为什么要用参考图,不是更好的 prompt

    维度裸 promptprompt + 参考图
    输出质量能用,但普通接近设计师水平
    风格控制靠文字堆砌视觉样本直接传递
    稳定性随机性大风格一致
    边际成本卷 prompt 收益递减几张参考图释放模型潜力

    GPT-Image-2 没有改变「ControlNet 永远比 prompt engineering 更接近控制」这个规律,只是把基础美学拉高了,让普通人更容易看见参考图的价值。


    Step 2:以前找参考图为什么这么痛

    方式痛点
    浏览器手工扒30 张图 1 小时起,最低效但最常用
    自己写 Python 爬虫反爬规则常改,代理池要维护,单 IP 一月几十刀
    headless Chrome / PlaywrightCloudflare 一上就跪,维护成本是工具本身的好几倍

    **核心问题:** 这些方式都把「找参考」当一次性任务。但每个新项目、新风格、新品类,都要重新找一遍。


    Step 3:XCrawl MCP 接入

    🔗 注册拿 key:https://xcrawl.com/?keyword=no64ek5v

    >

    Pay as You Go,注册送 1000 credits 免费额度。单次完整 scrape 约 5 credits。

    接入命令

    claude mcp add xcrawl --url https://mcp.xcrawl.com/你的KEY/mcp
    

    把「你的KEY」换成真实 key,不要带花括号,直接拼到 URL 里。

    验证接入

    在 Claude Code 里输入:

    /mcp
    

    看到 xcrawl 在列表里就接好了。

    Cursor、VS Code、Claude Desktop 也能接,配置写法不同,看文档:https://docs.xcrawl.com

    边界说明

    XCrawl **只抓公开页面**。登录态后、付费墙后、私密内容不碰。

    XCrawl MCP 集成界面
    XCrawl MCP 在 Claude Code 中的集成状态

    Step 4:完整工作流 — Behance 参考图 → GPT-Image-2 主图

    为什么要去 Behance 抓参考

    不用淘宝/拼多多/1688 的原因是:大家都在扒同行商品页,最后只会卷成同一种低端电商味。

    真正的杠杆是去 **Behance / Dribbble** 抓已经过审美验证的品牌设计和包装设计,让 GPT-Image-2 把你的商品图档次直接抬高。

    4.1 先抓一个具体项目页

    以 Pinch & Punch 做的 Chikuma Honey Packaging 为例(日本长野县蜂蜜品牌,黑熊吉祥物风格):

    在 Claude Code 里说:

    用 xcrawl 的 scrape 工具抓 https://www.behance.net/gallery/245101437/Chikuma-Honey-Packaging
    输出 markdown
    抽取 title / designer / description / tags[] / images[] / tools[]
    

    返回数据:

    title: Chikuma Honey Packaging
    designer: Pinch & Punch
    tags: branding / packaging / brand identity / honey / Japanese design / mascot
    images: 21 张高清原图 URL
    tools: Adobe Photoshop / Illustrator / After Effects
    
    Chikuma 蜂蜜品牌素材网格
    Chikuma 品牌项目 — 18 张品牌视觉素材
    Chikuma 三款蜂蜜
    Chikuma 蜂蜜系列 — Wild-flower / Apple / Acacia 三款产品

    单页消耗:**5 credits**(base 1 + json_extract 4)

    **真踩坑 1:** xcrawl_scrape 默认开 js_render.enabled=true,但对 Behance 这种 SPA 站点,必须显式加 `wait_until: networkidle` 才能等到图片懒加载完成——一次拿全 21 张,不需要二次重跑。

    >

    **真踩坑 2:** `output.formats: ["json"]` 在当前 Claude Code MCP 适配下不一定稳定透传 data.json 字段。**保险做法:只要 `["markdown"]`,自己 parse,省 4 credits/次。**

    4.2 批量发现同类高质量项目

    抓 Behance 搜索页找更多日系包装风格项目:

    # 用 xcrawl_scrape 抓搜索页
    # 加上 wait_until: networkidle
    # 从渲染后的 markdown 里用正则提取项目 URL
    /gallery/\d+/[^\s\)]+
    

    返回 24 个真实日系包装/品牌项目(例):

  • The Tokyo Restaurant
  • Japanese Food Menu Design
  • Chikuma Honey
  • umi clothing brand
  • Sando
  • Fuji Coffee House
  • Ramenoya
  • FISHI Japanese Restaurant
  • Fuji Coffee 项目文件
    Fuji Coffee House — 日系咖啡品牌项目素材
    **注意:** Behance 搜索结果有 20-30% 噪声(promoted 广告位、通用 mockup 模板等)。让 Claude Code 再过一道筛选:根据标题、描述、设计师、标签,只保留相关项目。

    4.3 把参考图变成 GPT-Image-2 的输入

    从 21 张图里挑 5 张视觉信息量最高的静帧(跳过 GIF),给 GPT-Image-2 这样的 prompt:

    基于以下参考图的视觉风格、色彩调性、字体感觉,
    设计一款新的日本天然蜂蜜玻璃瓶包装。
    
    保留参考的构图节奏和品牌识别风格,
    主体改为我自己的蜂蜜品牌:
    AI 奶爸 · 北海道天然はちみつ。
    
    要求:
    完美电商背景,
    适合商品主图,
    画面干净高级,
    1024x1024。
    

    附上 3-5 张同一项目里筛出来的参考图 URL。

    AI 奶爸蜂蜜成品图
    最终产出 — AI 奶爸 · 北海道天然蜂蜜成品包装
    AI 奶爸蜂蜜瓶特写
    AI 奶爸蜂蜜瓶特写 — 100%纯粹·非加热·無添加
    **关键:** 同一个项目里挑出来的参考图,视觉语言一致。再加上抽出来的设计标签、品牌信息、输出规格,稳定性比手工乱丢参考高很多。

    Step 5:这笔账怎么算

    对比项传统设计师AI + 参考图
    一个 SKU 成本几千块~4 美分/张出图
    风格探索反复沟通(高级一点/再日系一点)跑 20-50 个方向,几块钱铺开
    产出用途最终交付稿方向判断 + 投流素材测试

    **真正省的不是「一张图多少钱」,而是第一轮设计探索成本。**

    完整跑通这套工作流的总消耗:

  • Chikuma 单页:5 credits
  • Behance 搜索:5 credits
  • key_status:1 credit
  • **总计:11 credits**(1000 免费额度剩 989)

  • 踩坑 7 条(直接抄走)

  • **`wait_until: networkidle` 必加** — Behance 这种 SPA 站点不加,懒加载图拿不全
  • 2. **`output.formats: ["json"]` 不稳定** — 保险做法只要 markdown,自己 parse

    3. **SPA 搜索页别用 xcrawl_map** — map 只看初始 DOM,容易把首页 feed 当搜索结果

    4. **`ignore_query_parameters: true` 不是无脑开** — `?search=...` 这种真实路由参数会砍掉关键词

    5. **位置参数要匹配目标站地区** — 美区用 `United States`,日区用日本

    6. **批量前先跑 `xcrawl_key_status`** — 看余额,别跑一半中断

    7. **VS Code 集成可能遇到 JSON schema 校验失败** — 先关掉 VS Code 的 JSON validation,Cursor/Claude Code 更顺


    这个工作流适合谁

  • ✅ **做 AI 出图、漫剧、绘本的人** — 参考图驱动 GPT-Image-2,输出可用率明显高于纯 prompt
  • ✅ **做电商主图的人** — 去 Behance/Dribbble 抓成熟设计,把视觉从「货架图」往「品牌图」抬
  • ✅ **做行业情报和 RAG 数据集的人** — 公开站点结构化抓取后,直接清洗、入库、喂向量库
  • ✅ **给企业做 AI 落地的人** — 客户行业 top 10 站点抓一轮,当天整理出初版行业知识库和参考素材库
  • ❌ **一次性抓一个单页** — 浏览器复制粘贴可能更快
  • ❌ **抓登录态后/付费墙后/私密内容** — XCrawl 不适合
  • **核心心法:** 会写 prompt 说明你会用 AI。能自动找对的参考图、筛噪声、整理成结构化输入——说明你能用 AI 干活。


    🥳 **原文作者:** AI奶爸 @zstmfhy

    >

    📅 发布时间:2026-05-06
    📎 **出典:** @zstmfhy 元ポスト

    cover

    >

    **一言でいうと:** GPT-Image-2時代において、本当に価値があるのはプロンプトではなく「参考画像ワークフロー」——XCrawl MCPを使ってBehanceから高品質なデザイン参考を自動収集し、AIの出力を「スーパーの棚レベル」から「デザイナーブランドレベル」に引き上げる。

    核心となる原則

    プロンプトが下限を決め、参考画像が上限を決める。

    GPT-Image-2の美的基盤はすでに十分に強力です(DALLE-3より高性能)。これ以上プロンプトを詰めても限界効用は低下しています。本当に取り組むべきは **いかにモデルにより良い視覚サンプルを与えるか** です。

    **同じプロンプトの比較:**

  • **プロンプトのみ:**「和風天然蜂蜜ガラス瓶パッケージ、黒熊マスコット」→ 使えるが、スーパーで十数元の普通の商品レベル
  • **プロンプト + 5枚のBehance参考画像:** → デザイナーが納品するブランド稿に近く、付加価値感がある
  • テキストによる美の表現は「非可逆圧縮」。参考画像こそが高品質なサンプルです。


    Step 1:なぜより良いプロンプトではなく参考画像なのか

    観点プロンプトのみプロンプト + 参考画像
    出力品質使えるが普通デザイナーレベルに近い
    スタイル制御テキストの積み上げに依存視覚サンプルで直接伝達
    安定性ランダム性が大きいスタイルが一貫
    限界費用プロンプト改善の収穫逓減数枚の参考画像でモデルの潜在力を解放

    GPT-Image-2は「ControlNetが常にプロンプトエンジニアリングより制御に近い」という法則を変えたわけではなく、基礎的な美の水準を引き上げたことで、一般の人々が参考画像の価値をより認識しやすくなったのです。


    Step 2:従来の参考画像収集の痛点

    方法痛点
    ブラウザで手動収集30枚で1時間以上、最も非効率だが最も一般的
    自作Pythonスクレイパーアンチスクレイピングルールが頻繁に変更、プロキシプールの維持費がかさむ
    headless Chrome / PlaywrightCloudflare対策で頻繁に失敗、メンテナンスコストが本体の数倍

    **核心的な問題:** これらの方法は「参考収集」を一回限りのタスクとして扱っています。しかし、新しいプロジェクト、スタイル、カテゴリごとに毎回収集し直す必要があります。


    Step 3:XCrawl MCPへの接続

    🔗 登録してKeyを取得:https://xcrawl.com/?keyword=no64ek5v

    >

    Pay as You Go、登録時に1000 creditsの無料枠。1回の完全なスクレイプで約5 credits。

    接続コマンド

    claude mcp add xcrawl --url https://mcp.xcrawl.com/あなたのKEY/mcp
    

    「あなたのKEY」を実際のKeyに置き換え、中括弧は付けずにURLに直接組み込みます。

    接続の確認

    Claude Codeで以下を入力:

    /mcp
    

    xcrawlがリストに表示されれば接続完了です。

    Cursor、VS Code、Claude Desktopでも接続可能です。設定方法は異なります。ドキュメント:https://docs.xcrawl.com

    制限事項

    XCrawlは**公開ページのみ**を取得します。ログイン後、ペイウォール後、非公開コンテンツにはアクセスしません。


    Step 4:完全ワークフロー — Behance参考画像 → GPT-Image-2商品画像

    なぜBehanceから収集するのか

    淘宝/拼多多/1688を使わない理由:誰もが同業者の商品ページを収集しているため、結局同じ低品質なEC風になってしまいます。

    本当のレバレッジは **Behance / Dribbble** で既に美的検証を通過したブランドデザインやパッケージデザインを収集し、GPT-Image-2であなたの商品画像のレベルを直接引き上げることです。

    4.1 具体的なプロジェクトページを取得

    Pinch & Punchが手掛けたChikuma Honey Packaging(長野県の蜂蜜ブランド、黒熊マスコット風)を例に:

    Claude Codeで次のように指示:

    xcrawlのscrapeツールを使って https://www.behance.net/gallery/245101437/Chikuma-Honey-Packaging を取得
    markdownで出力
    title / designer / description / tags[] / images[] / tools[] を抽出
    

    返却データ:

    title: Chikuma Honey Packaging
    designer: Pinch & Punch
    tags: branding / packaging / brand identity / honey / Japanese design / mascot
    images: 21枚の高解像度原寸URL
    tools: Adobe Photoshop / Illustrator / After Effects
    

    1ページあたりの消費:**5 credits**(base 1 + json_extract 4)

    **実際の落とし穴 1:** xcrawl_scrapeのデフォルトではjs_render.enabled=trueですが、BehanceのようなSPAサイトでは、明示的に `wait_until: networkidle` を追加しないと画像の遅延ロードが完了せず、21枚すべてを一度に取得できません。再実行不要。

    >

    **実際の落とし穴 2:** `output.formats: ["json"]` は現在のClaude Code MCPアダプテーションではdata.jsonフィールドが安定して透過しない場合があります。**安全策:`["markdown"]` のみ指定し、自分でパースする。これで毎回4 credits節約。**

    4.2 同類の高品質プロジェクトを一括発見

    Behance検索ページからさらに和風パッケージスタイルのプロジェクトを発見:

    # xcrawl_scrapeで検索ページを取得
    # wait_until: networkidle を追加
    # レンダリング後のmarkdownから正規表現でプロジェクトURLを抽出
    /gallery/\d+/[^\s\)]+
    

    24件の実際の和風パッケージ/ブランドプロジェクトを返却(例):

  • The Tokyo Restaurant
  • Japanese Food Menu Design
  • Chikuma Honey
  • umi clothing brand
  • Sando
  • Fuji Coffee House
  • Ramenoya
  • FISHI Japanese Restaurant
  • **注意:** Behanceの検索結果には20〜30%のノイズ(プロモーション広告枠、汎用モックアップテンプレートなど)が含まれます。Claude Codeでさらにフィルタリング:タイトル、説明、デザイナー、タグに基づき、関連プロジェクトのみを保持。

    4.3 参考画像をGPT-Image-2の入力に変換

    21枚の画像から視覚情報量が最も高い5枚の静止フレーム(GIFは除外)を選び、GPT-Image-2に以下のようなプロンプトを与えます:

    以下の参考画像のビジュアルスタイル、色彩、フォントの感覚に基づいて、
    新しい日本製天然蜂蜜ガラス瓶パッケージをデザインしてください。
    
    参考画像の構図のリズムとブランド識別スタイルは保持しつつ、
    メインを自分の蜂蜜ブランドに変更:
    AI パパ · 北海道天然はちみつ。
    
    要件:
    完璧なEC背景、
    商品メイン画像に適した、
    クリーンで高級感のある画面、
    1024x1024。
    

    同じプロジェクトから選別した3〜5枚の参考画像URLを添付します。

    **ポイント:** 同じプロジェクトから選んだ参考画像はビジュアル言語が一貫しています。さらに抽出したデザインタグ、ブランド情報、出力仕様を加えることで、手作業でランダムに参考画像を選ぶよりも安定性が格段に向上します。

    Step 5:コスト計算

    比較項目従来のデザイナーAI + 参考画像
    1 SKUあたりのコスト数千円〜数万円約4セント/枚
    スタイル探索何度も打ち合わせ(もう少しかっこよく/もっと和風に)20〜50方向を一気に試行、数百円
    成果物の用途最終納品稿方向性判断+広告配信用素材テスト

    **本当に節約できるのは「1枚あたりの単価」ではなく、最初のデザイン探索コストです。**

    このワークフローを完全に実行した場合の総消費:

  • Chikuma単ページ:5 credits
  • Behance検索:5 credits
  • key_status:1 credit
  • **合計:11 credits**(1000無料枠の残り989)

  • 落とし穴7選(そのままコピーして使用可)

  • **`wait_until: networkidle` は必須** — BehanceのようなSPAサイトでは追加しないと遅延ロード画像が完全に取得できない
  • 2. **`output.formats: ["json"]` は不安定** — 安全策としてmarkdownのみを取得し、自分でパースする

    3. **SPA検索ページでxcrawl_mapを使わない** — mapは初期DOMしか見ないため、トップページのフィードを検索結果と誤認しやすい

    4. **`ignore_query_parameters: true` は無条件で使わない** — `?search=...` のような実際のルーティングパラメータが削除される

    5. **位置パラメータは対象サイトの地域に合わせる** — 米国なら `United States`、日本なら日本

    6. **一括実行前に `xcrawl_key_status` を実行** — 残高を確認し、途中で中断しないようにする

    7. **VS Code統合でJSON schema検証エラーが発生する可能性** — VS CodeのJSON validationを先にオフにし、Cursor/Claude Codeの方が安定


    このワークフローに向いている人

  • ✅ **AI画像生成、漫画、絵本制作をする人** — 参考画像駆動のGPT-Image-2で、出力の実用率が純粋なプロンプトより明らかに高い
  • ✅ **EC商品画像を制作する人** — Behance/Dribbbleで成熟したデザインを収集し、ビジュアルを「棚卸し写真」から「ブランドイメージ」へ引き上げる
  • ✅ **業界インテリジェンスやRAGデータセットを作成する人** — 公開サイトから構造化データを収集し、そのままクリーニング、データベース格納、ベクトルDBへ投入
  • ✅ **企業向けAI導入を支援する人** — クライアント業界のトップ10サイトを一括収集し、その日に初版業界知識ベースと参考素材ライブラリを整理
  • ❌ **1回だけ1ページを収集したい** — ブラウザのコピーペーストの方が早い場合もある
  • ❌ **ログイン後/ペイウォール後/非公開コンテンツの収集** — XCrawlは不適切
  • **核心の心構え:** プロンプトを書けることはAIを使いこなしている証拠。適切な参考画像を自動で見つけ、ノイズを除去し、構造化された入力に整理できること——それがAIで仕事ができるということです。


    🥳 **原文著者:** AIパパ @zstmfhy

    >

    📅 公開日:2026-05-06