石器时代からルネサンスまで:OpenAI画像生成 2.0 の背後にある技術的ブレークスルーと製品の考察

執筆:Techub News 整理

これはOpenAI公式ポッドキャスト第19回の内容です。司会のAndrew Mayneと研究員のKenji Hata、プロダクト責任者のAdele Liは、GPT Image 2.0(つまりImageGen 2.0)について深く対話しました。この対話はモデル正式リリースから約2週間後に行われ、その時点で毎週生成される画像数は15億枚を突破し、複数の利用トレンドが世界的に急速に広まりつつありました。これは単なる製品リリースの振り返りにとどまらず、画像生成技術のパラダイムシフトについての率直な議論でもあります。

投資家からプロダクト責任者へ:役割変換の物語

Adele LiはOpenAIに入る前、キャリアのほとんどを投資に費やしてきました。彼女はプライベートエクイティ機関やRedpoint Venturesで働き、AIとソフトウェア分野の早期投資に注力してきました。OpenAIに参加した当初は、データと計算基盤の構築計画を担当しており、画像生成とは遠い分野でした。しかし過去半年で、彼女は徐々にプロダクト側にシフトし、ImageGenのプロダクト業務を全面的に担当するようになりました。

彼女は、プロダクトマネージャーの本質は「必要とされることをやること」であり、それが何であれやるべきだと語ります。特にImageGenのプロジェクトは、彼女にとって多様な能力を動員できる場となっています。Kenjiのような研究者と密に協力しつつ、市場の空白やチャンスの窓を常に考える必要があるのです。

「これはもう1年前のImageGen 1.0リリース時の市場ではない」とAdeleは言います。現在、画像生成の競争は複数のプレイヤーがしのぎを削り、ChatGPT自体もまったく異なる製品になっています。この背景の中で、ImageGenがChatGPTエコシステム内でどのように進化していくかを考えることは、彼女にとって最も面白いことの一つです。

Kenji Hataもまた、約2年前にOpenAIに入社しました。最初は音声関連のプロジェクトに従事していましたが、その後偶然にImageGen 1.0のリリース前の作業に関わり、その後画像生成研究にフルタイムで取り組むようになり、2.0まで進化させました。

データが語る:リリース後2週間で15億枚の画像、週次

GPT Image 2.0が正式にリリースされた2週間以内に、ChatGPT上の画像生成利用量は50%以上増加し、週あたりの画像生成数は15億枚を突破しました。同時に、世界中でさまざまな利用トレンドが急速に広がっています。アジアのユーザーが熱中している色彩分析やステッカー風、アメリカのユーザーが好むクレヨン画や落書き風など、多岐にわたります。

Adeleは、このようなウイルス的な拡散は一つの問題を示していると考えています。それは、ユーザーがほぼ即座にモデルの能力向上を実感しているということです。「視覚的な伝達のフィードバックは最も直接的です」と彼女は言います。ユーザーは技術レポートを読む必要もなく、モデルに画像を生成させて、その出来栄えを一目で判断できるのです。

司会のAndrewも同じ感覚を共有しています。今回の能力向上の規模は非常に大きく、「2.0」と呼ぶよりも、新たなパラダイムと呼ぶ方がふさわしいと感じています。では、このパラダイムシフトは一体どのように起きたのでしょうか。

三大核心突破:テキスト、多言語、写実感

AdeleとKenjiは、ImageGen 2.0の能力向上をいくつかの重要な側面の同期的な突破と結びつけています。

第一はテキストレンダリング能力です。初期の画像生成モデルは、画像内の文字を処理する際にほぼ壊滅的でした。文字の歪み、単語の錯乱、レイアウトの乱れなどです。Andrewは冗談半分で、「昔のDALL-Eが生成した『OpenAI』の文字は、チンパンジーが書いたように見えた」と言います。しかし今や、モデルは画像内に明瞭かつ正確に長文の文字や複雑な情報グラフを表現できるようになっています。

Kenjiはこの進歩を定量化するために内部テストを行いました。モデルに100個のランダムな物体を格子状に配置した画像を生成させ、その正答率を測定したのです。DALL-E 3時代は5〜8個、ImageGen 1.0では約16個、バージョン1.5では安定して25〜36個、そして今の2.0ではほぼ100個すべて正解できるといいます。「これは突然の飛躍ではなく、継続的な安定成長の結果です」とKenjiは述べます。

第二は多言語対応です。チームは訓練過程で、多言語理解と生成能力を特に強化しました。リリース後、アジアやヨーロッパのユーザーからの活発なフィードバックも、この方向性の正しさを裏付けています。異なる言語環境のユーザーも高品質なローカライズ画像出力を得られるようになっています。

第三は写実的な写真感です。これは以前からユーザーフィードバックの最も多い課題の一つでした。旧モデルは人物画像に過度な美化や雑誌の表紙のような誇張感があり、顔や身体の比率が歪み、リアルさに欠けていました。2.0ではこの点に多くの改善を施し、「あなた自身により似た画像」を目指しています。Kenjiは、新モデルのチェックポイント出力を初めて見たときの感動を振り返ります。ImageGen 1.0の結果と並べて比較し、議論の余地もなく勝負がついたといいます。

彼が描写したのは、海辺で遠くを見つめる女性のシーンです。「私たちは二つの画像を見て、何も言わなかった。ただ……これが勝った、と。」

速度と品質の両立:後訓練フェーズの鍵

Andrewは、多くの人が気になっているであろう質問を投げかけました。モデルはより賢くなったのに、生成速度は遅くなっていない。これはどうやって実現したのか。

Kenjiは、各バージョン間で多くのエンジニアリングの学びが蓄積されていると説明します。速度の例では、モデルの「トークン効率」を向上させるために多くの作業を行ったといいます。より少ないトークンで高品質な画像を生成できるように最適化を重ねてきたのです。これは各バージョンのイテレーションで継続的に改善されてきたもので、単一の技術革新だけによるものではありません。

Adeleは後訓練段階の重要性を補足します。彼女は、モデルを訓練する際に、世界の知識や概念、数学的表現を理解させるだけでなく、「何が美しいか」「品があるか」といった主観的な評価も教える必要があると述べます。

これらの問いには標準的な答えはなく、モデルの出力の質の上限を直接左右します。そのため、チームは多くのアーティストやデザイナー、マーケターと密に連携し、これらの専門的な美的判断やベストプラクティスをモデルとユーザーのインタラクションに蒸留しています。

また、ソーシャルメディア上のユーザーフィードバックも重視し、実世界の使用上の問題点を次のイテレーションに反映させています。Kenjiは、「これらのフィードバックは緩和されるか、次のバージョンで徹底的に修正される」と述べています。

ウイルストレンドの背後:AIで「不完全さ」を表現する自己

リリース後に現れた利用トレンドの中で、チームが意外かつ面白いと感じたのは、ユーザーがこの高性能モデルを使って、あえて粗くて拙い「マイクロソフト風」画像を生成していることです。著名人の写真や人気画像を「劣化」させ、ピクセル感のある落書きに変換する例です。

Adeleはこれについて、非常に洞察に富んだ解釈を示します。「AIに『不完全』なものを生成させるには、実は高い知性が必要だ」と。これはモデルの失敗ではなく、むしろユーザーの意図を深く理解した結果だといいます。

彼女は、この現象の背景にある心理的トレンドを指摘します。人々はリアルさや不完全さ、懐かしさを求めているのです。クレヨン風、落書き風、レトロなピクセルスタイルなど、流行のキーワードはすべて「より本物らしく、面白く自己表現したい」という欲求を反映しています。

「AIを使った自己表現こそ、私たちが本当にワクワクする方向性です」とAdeleは語り、これはOpenAIの使命とも高く一致しています。すなわち、「これまで表現できなかった自分」をより多くの人が表現できるようにすることです。

エンターテインメントから生産性へ:教育、デザイン、産業横断的な浸透

ImageGen 2.0のもう一つの重要な変化は、エンタメ中心の利用から、実際の生産性ツールへの移行です。

教育分野では、教育者向けの内測チャンネルがあり、小学校から大学院までの教師が参加しています。Kenjiは、ある生物学教授が研究レベルの教科書内容を入力し、高精度の図解ページを生成した例を紹介しました。内容も完全に正確だったといいます。

Adeleは、複雑な概念を理解しやすいビジュアルに変換する能力がこのモデルの強みの一つだと述べます。特に「個別化学習」の方向性に注目しており、教師はImageGenを使って、多言語・多嗜好の学生向けにカスタマイズされた教材を作成できると考えています。これをChatGPTの学習シナリオに深く組み込むことも検討しています。

職場のシーンでは、Adeleは内部データも紹介しました。OpenAIのプレゼン資料の半数以上のスライドに、ImageGenで生成した画像が使われているといいます。「画像を使ったコミュニケーションの浸透は、予想以上に早い」とのことです。

また、さまざまな職種の利用例も挙げられます。不動産エージェントは物件紹介やバーチャルリフォームの画像を作成し、YouTubeクリエイターはサムネイルやプロモーション素材に使い、アーティストはファンとの交流に、作家はSNS用の画像を素早く生成しています。

司会のAndrewも自身の体験を共有しました。自分の書籍の表紙をモデルに生成させ、異なるSNSプラットフォームに適したサイズのプロモ画像を作ったところ、最初の生成で適切な比率とスタイルが得られたといいます。「まるで魔法のようだ」と。

360度パノラマ、スプライトシート、Codexとの連携:驚きの能力出現

予想通りの能力向上に加え、2.0ではチーム自身も予想していなかった「出現能力」もいくつか現れました。

その一つが360度パノラマ画像です。チームは、任意の縦横比での生成をサポートする過程で、ユーザーが自発的に超ワイドなパノラマや360度の囲み画像を作り始めたことに気づきました。これを製品機能にし、ChatGPTのウェブやモバイルから直接生成・没入型閲覧できるようになっています。Andrewは早速、「犬がポーカーをしている」360度バージョンを作成し、犬の視点から周囲を見回す体験をしました。

スプライトシートもまた、意外なヒットとなっています。ゲーム開発者やインディークリエイターは、ImageGenを使ってキャラクターの多姿態スプライトを作り、Codexのコード生成と連携させて、ゼロから自作のゲームを構築しています。Andrewは、「『カラスが欲しい』と頼むと、ImageGenが自動的にカラスのスプライトを生成し、それをCodexがゲームコードに組み込む」といった光景を目の当たりにしました。「これこそ魔法です」。

また、多画像の一貫性も2.0の大きな進歩です。Kenjiは、10ページの連続ストーリー漫画を作成し、キャラクターやスタイルの一貫性を保てているユーザーもいると述べます。以前は多大な手作業と技術が必要だったこの作業も、今やより信頼性高くスムーズに行えるようになっています。

次の展望:クリエイティブエージェントと個人化ビジュアルアシスタント

未来の方向性について、Adeleは「クリエイティブエージェント(Creative Agent)」のビジョンを明確に示しました。

彼女が描くのは、あなたの働き方や美意識、目標に真に理解を示すAIアシスタントです。これが、あなたのプライベートインテリアデザイナーや建築家、ウェディングプランナーとして機能し、すべての要素を一枚の画像に反映させることができるのです。

この方向性の核心は、「個人化」を画像生成のあらゆる段階に本格的に取り入れることです。Adeleは、自身の「me-me-me eval」を例に挙げます。100枚の自分や友人、家族の写真を評価用に使い、モデルが適切なシーンに個性を自然に盛り込めるかどうかをテストしています。たとえば、ChatGPTは彼女に弟がいることや両親の趣味を覚えており、誕生日カードにそれらを自然に反映できるかどうかです。

Kenjiは研究側から補足し、チームは引き続き多画像の一貫性やビジュアル制作の全体的な体験、そしてユーザーがより簡単に望む出力を得られるよう最適化を進めていると述べます。「現時点では完璧ではないが、方向性は見えている」と。

提示技術についても、両者はそれぞれのアドバイスを示します。Adeleは「ImageGen思考モード」を試すことを推奨します。Proや思考モデルでは、ImageGenがインターネット検索やファイル分析、ツール呼び出しを行い、品質や構図を向上させるのです。このモードでは、オープンなプロンプトを使い、モデルに探索と推論をさせながら、明確な美的スタイルをアンカーとして与えることを勧めています。Kenjiは個人的なスタイルを持ち、シンプルな情報グラフィックを好むため、「クリーンでシンプルに保つ」と明示します。

もしDALL-Eが画像生成の石器時代だとすれば、ImageGen 2.0はそのルネサンスです。芸術だけでなく、科学、建築、知識、美学の融合をもたらす進歩です。この対話の最後にAdeleはこう締めくくります。それは、もはや「絵を描くツール」だけではなく、「世界や人、そして美を理解し始めたビジュアルインテリジェンス体」だということです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め