1.Generative AI(生成系AI)とは
Generative AIは、Gartner社による2022年の「戦略的テクノロジのトップ・トレンド」の一つとして挙げられ、世間から大きな注目を集めています(※1)。Gartner社によるGenerative AIの定義は、「コンテンツやモノについてデータから学習し、それを使用して創造的かつ現実的な、まったく新しいアウトプットを生み出す機械学習手法」とされ、成長を加速する技術としての期待が高まっています。
Generative AIにおけるエポックメイキングな出来事として、2020年、OpenAI社のGenerative Pre-trained Transformer 3(GPT-3)の発表があります。GPT-3は、当時では最大規模の言語モデルとして発表されました。GPT-3は規模もさることながら、人々が驚いたのはその性能です。GPT-3が人間のように自然な文章を作ることから、海外掲示板ではあるユーザが作成したbotが1週間ほどbotであることに気付かれなかったり(※2)、ソーシャルニュースサイトでChatGPTによる記事が一時的にアクセス1位になったりして(※3)、大変話題になりました。
それ以降、2022年にStability AI社のStable DiffusionやGoogle社のPaLM、そして、OpenAI社のChatGPTなどが相次いでリリースされました。このことから2022年は、さまざまな技術分野の中でGenerative AIが最も活発だった分野だったと言えるでしょう。
Generative AIを含むAIの分野を理解しやすくする一つの切り口として画像、言語、音声など扱うデータの種類ごとに整理します。図1に画像、言語、音声、そしてそれらを組み合わせたマルチモーダルとして整理したGenerative AIのモデルを示します。
画像生成モデルでは、Stable DiffusionやDALL-E2など、作りたい画像の特徴を言葉(自然言語)で入力することで、入力に応じた画像を生成します。
言語モデルは、文章要約や、翻訳など、所望タスクにあわせて自然言語を入力することで、要約や翻訳の結果を生成します。
音声モデルは、モデルに音声データを入力することで、書き起こされたテキストなどを生成します。
上記の中でも一際注目を集めたのが2022年末にOpenAI社がリリースしたChatGPTです。すでにご存知で使用されている方も多いかもしれませんが、本記事ではChatGPTの特徴と活用例を分かりやすく紹介します。
図1:Generative AIのモデルの分野別整理
2.ChatGPT(GPT-4)とは
ChatGPTは、OpenAI社によって2022年11月30日に公開された人工知能チャットボットです。データサイエンティストを必要とせずに従来の自然言語処理のタスクのほとんどを実現できます。専門家でなくても誰もが使え、かつ人間と同等以上の高精度な回答ができる点から「新たな産業革命」とも言われています。その世界的インパクトは非常に大きく、公開からわずか1週間で100万ユーザ、2ヶ月で1億ユーザに到達するなど世界最速でユーザを獲得しました。
ChatGPTの高い能力として、解いたことのないドメイン固有の知識が必要な問題に対しても、ゼロショット(※4)で人間同等以上の性能発揮が可能であることが挙げられます。ペンシルベニア大学で一般的な経営学修士課程(MBA)の最終試験をChatGPTに受けさせたところ、「B」評価の合格点に相当する結果を出したという報告や、米国医療免許試験(USMLE)にも合格したという報告もあります。
このように高度な問題を解くことができるChatGPTは、どのような仕組みで作られているのでしょうか。ChatGPTは、図2に示すような従来の自然言語処理での知見を融合させた多段階学習で構築されています。
図2:ChatGPTの仕組み —全体像—
また、現時点ではChatGPTに関する査読済み技術論文は公開されておらず情報は限られますが、OpenAI社の公式HPから図3に示すようなSTEPによりモデルを強化することで、現在のような高精度モデルの構築に成功したことが分かっています。
図3:ChatGPTの仕組み —独自ポイント—
今もなおChatGPTは刻一刻と進化を続けており、発表当時のChatGPTはGPT-3.5が使用されていましたが、2023年3月15日にはGPT-4を使用した最新のChatGPTが発表されました。GPT-4には、入力された画像に対してテキストで回答ができるマルチモーダル(image-to-text)としての機能が追加されました。例えば、風船の写真(図4参照)に対して「風船のひもを切ったらどうなるのか」と質問すると、ChatGPTは「風船は飛んでいく」と回答することができます。また、論文の画像(図4参照)に対して、論文の画像とともに「要約をして」と質問をすると、ChatGPTはOCR技術を用いて論文の要約を回答します。
図4:GPT-4を用いたマルチモーダル処理の例
さらに、2023年3月24日には新たにplug-inの機能も追加されました。plug-inの例としては、スポーツ試合結果や株価といったリアルタイム情報の取得や、旅行予約や商品注文などのアクションの実行があります。plug-inによりサードパーティーのアプリと接続することで、ChatGPTが従来抱えていた欠点である2022年までのデータしか学習していないため最新の知識を持たない点、複雑な計算が苦手な点を補うことが可能になりました。(図5参照)
このようにChatGPTは日々進化しながら、高精度で誰もが使える様々な機能を提供し続けています。
図5:公式Plug-in
ゼロショットとは、一度も学習していない未知の問題に対して推定を行うこと。
3.ChatGPT(GPT-4)の活用事例とリスク
これまでに記載した通り、ChatGPTを含むGPTモデルは人間と同等以上の性能を持つことが分かっており、我々の労働市場も多大な影響を受ける可能性が指摘されています。一例として、OpenAI社から発表された調査論文では、米国労働者の約80%がGPTの導入により少なからず業務への影響を受ける可能性があると報告されています。(※5)
では具体的にどのようなユースケースで業務への影響が存在するのでしょうか。他社事例を3件ほど紹介します。
1.マイクロソフト
自社の検索サービスBingやブラウザのEdgeに導入しプレビュー版を公開。検索サービスの利用方法自体が大きく変化しつつある。
2.Shopify
買い物客がお気に入りの商品やブランドを見つけるために利用。ショッピングアシスタントとして買い物客が商品を検索すると、リクエストに基づいてパーソナライズされたレコメンデーションを作成し新しい体験を提供。
3.Instacart
顧客が食べ物について質問すると、買い物に関するアドバイスを独自のデータも絡めて返答。「どうすれば素晴らしいフィッシュタコスを作ることができるか?」などの比較的自由な質問にも対応。
現在、ChatGPTはOpenAI社からAPIが提供されており、上記以外のユースケースも次々に現れています。ビジネスメール、議事録などの文章の下書き、ソースコード・テストコードの生成など、応用次第で様々な活用が期待できます。(図6参照)
図6:ChatGPTの業務活用例
上記のように、広い分野への活用が期待できるChatGPTですが、活用に関して相応のリスクが存在することも事実です。例えば、非常に高精度な返答を行うChatGPTもその返答が100%正しいという保証はありません。誤った事実をまるで真実かのように返答することもあるため、誤りが許されない分野においては人手のチェックは不可欠でしょう。
また、ChatGPTの入力文(プロンプト)に悪意のあるデータを入力することで、想定していたモデルの挙動を変えてしまう「プロンプトインジェクション」という攻撃の存在も新たに生まれています。これら情報セキュリティの観点に加えて、その他、ChatGPTを含む生成系AIには、社会的批判や、法的な側面など、様々なリスクが存在しています。NTTデータでは、AIガバナンス組織を設立し、AIの不適切な利用を抑止することで、お客様へ安全なAIシステムを提供して参ります。(※6)(図7参照)
図7:生成系AIを活用する上で想定されるリスク
これまでの内容を含め、ChatGPTを利用する際の大事なポイントとして下記5点が挙げられます。(図8参照)
図8:生成系AIを活用する上でのポイント
ChatGPTが登場し、現在様々な企業や研究機関が研究を加速しています。おそらく、この2、3年でより大きな変化を迎えることになるのではないでしょうか。今後、ほぼ全ての人々が目まぐるしく変わる状況を臨機応変に捉え、変化に追随できる柔軟さが求められていくでしょう。
NTTデータでは、ChatGPTを含めた大規模自然言語モデルに関するPoCや業務導入のコンサルティングを行っております。ぜひ一緒にチャレンジしていきましょう。