2020年7月、人工知能に関する研究機関であるOpenAIは新たな深層学習モデルとして「GTP-3」を公開しました。GTP-3はこれまでのモデル以上に莫大なデータベースを事前学習しており、より人間的な文章の生成、チャットボットやメールなどでのオペレーション業務の向上、希望に近いWebデザインの作成を可能にしています。
今回の記事ではGTP-3とはどのような仕組みのものなのか、どのようなことができるのかについて初心者向けに解説しています。具体的な事例や課題についてもまとめていますので、ぜひ最後までご覧ください。
GTP-3とは
GTP-3は「Generative Pre-trained Transformer‐3」の略称です。その名前にある通り「Transformer」の3代目のタイプということになります。ここからはTransformerを理解する上での最低限の事前知識「Attention」についてとTransformerそのものの内容、GTP-3の歴史について解説していきます。
Attentionという技術
Transformerを理解する上での事前知識として抑えておきたいのがAttentionという技術です。Attentionとは日本語で「注意」を意味する単語ですが、その意味の通り文章のどの部分に注意を当てるのかを指示する技術のことを言います。
例えばこのような画像があったとします。この画像からは山、風景、日没、夕暮れ、霧などといった単語が連想できるでしょう。一方で「山」に焦点を当ててこの画像を抽出するときに、そのほかの画像全体の情報は抽出する必要がありません。むしろ検索時の負担が大きくなって検索速度が落ちてしまいます。
Attentionでは山なら山の部分、日没なら太陽の部分というように、画像の中での注目点をあらかじめ決めておく作業を行うのです。このように画像処理や自然言語処理の分野でAttentionの技術はスタンダードとなっています。
Transformerという深層学習モデル
TransformerとはAttentionの技術をさらに改良した「Self‐Attention」という技術を使った自然言語処理の深層学習モデルのことです。簡単に説明すると、入力した文章の中にある単語の中で関連度の高さをスコアにして抽出して、そのスコアが高いものを参考にして回答する手法です。
例えばチャットボットのようなAIとの会話の中で、関連度スコアは指示語の解釈や翻訳の手助けを行います。Transformerのおかげでより自然で人間的な文章の処理能力をAIは手に入れることができたのです。
GTP、GTP‐2から派生したもの
GTP-3は2020年7月に発表されたOpenAIの言語学習モデルです。OpenAIは2015年12月に設立された人工知能研究所で、テスラCEOのイーロンマスク氏を含む複数の有名投資家もこのプロジェクトに参加しています。
OpenAIでは2018年に初代GTP、2019年にGTP-2をそれぞれ発表しており、その続編としてGTP-3は誕生しました。今回の改良ではWikipediaやCommon Crawlといった巨大な情報データベースを事前学習に用いたことで、大幅に文章理解の能力が向上しています。近年目まぐるしいスピードでバージョンアップが進められている背景を考慮すると、今後もGTP-4、GTP-5と続編が発表される可能性は十分あると言えるでしょう。
参考:OpenAI「ホワイトペーパー」
GTP-3でできること、具体的な事例
GTP-3では追加学習による精度の高い予測、そしてその予測から生まれる人間らしい文章を作ることができます。今回の改良によって対応できるケースが大きく広がっており、例えば書類の作成、オペレーター業務、デザインの生成などが挙げられます。ここからはそれぞれの特徴について簡単に紹介します。
書類の自動作成
GTP-3を活用することで書類の文章を自動生成することができます。膨大なデータを取り込んで事前学習していることにより、フォーマットに沿った企業内の稟議書や企画書の作成、指導マニュアルやセリフの創造などが自然体で行えます。今後はGTP-3で作成した資料の方が人間の作成する資料よりも多くの情報量を取り込んだ優秀な文章と評価される時代が来てもおかしくありません。
オペレーター業務への応用
GTP-3では人間的で自然な文章を自動作成することができるため、チャットボットやメール返信などのオペレーター業務に応用されています。これまでオペレーター業務は複雑な質問に対しては回答することができず、検索エンジンを紹介するにとどまる事例が後を絶ちませんでした。しかしGTP-3の出現により、実際にオンライン掲示板で1週間にわたりAIであることを伏せた状態で、人間とのやり取りを続けることに成功するなど、その精度が高まりを見せています。
デザインの生成
GTP-3の学習範囲は英語や日本語のような日常会話の言語だけでなく、ソースコードやプログラミング言語にも対応しています。そのためコードを使ったWebデザインの作成も可能です。
例えばこれまで企業や個人のホームページを新しく作るというときには、デザイナーの存在が必要でした。しかしGTP-3に対して「Googleの検索ページのようなホームページのトップ画面を作りたい」と呼びかけると、ホームページのソースコードに関する事前学習から要望に限りなく近いWebデザインが完成するのです。
GPT-3の課題
これまでのAIの限界を大きく突破する強力なメリットがあるGPT-3ですが、一方でいまだに解決できない課題があるのも事実です。例えば物理的視点に弱いこと、生成した矛盾点に気が付かないこと、モデルの学習に時間と費用が掛かることが挙げられます。ここからはその課題についてそれぞれ詳しく紹介します。
物理的視点に弱い
GPT-3の未完成な部分の特徴として、人間ではほとんどが見分けることができる自然の摂理や物理的視点に弱いことが挙げられます。例えば冷凍庫での保管が必要なアイスを冷蔵庫に入れてしまった場合、AIに対して「解けますか?」と質問すると「解けません。」と回答する可能性があります。このように人間では常識の範囲内としている情報をGPT-3は苦手な分野としているのです。
生成した矛盾点に気が付かない
GPT-3は自動生成した文章やデザインの矛盾点に気が付かないことがあります。矛盾点とは文章の冒頭部分と結末の部分で相違が見られたり、過去の常識としては正しいものが現在の常識としては間違っているという部分のことです。
矛盾が生まれる理由は、あくまでGPT-3は文章の意味を理解しているわけではないためです。例えばGPT-3は、夏目漱石の「三四郎」というような歴史的名著も当然事前学習しているわけですが、三四郎の冒頭で主人公が弁当箱のごみを電車の窓から投げ捨てるシーンを現代の常識と捉えて、現在が時代の背景となっている物語の一部として使ってしまう可能性があります。現状ではこのような矛盾点を自己修正する技術を持つAIは存在していません。
モデルの学習に時間と費用が掛かる
GPT-3は膨大な学習時間と費用を必要とする深層学習モデルです。そもそもGPTのモデルがGPT-2、GPT-3と進化していく過程において、学習するデータベースの巨大化が必要不可欠でした。また事前学習の範囲が大きくなればなるほど、当然大きな資金が必要となります。
GPT-3はモデルの構造が大きく変化するのではなく、学習するデータの範囲を広げることによってのみ精度を上げていける深層学習モデルであるため、プロジェクトの資金が尽きてOpenAIの限界が来る日も近いかもしれません。
GTP-3まとめ
GTP-3はこれまでのOpenAIが提供する深層学習モデル以上に莫大なデータベースを事前学習しています。より人間的な文章の生成、チャットボットやメールなどでのオペレーション業務の向上、希望に近いWebデザインの作成を可能にしており、実用化に向けた取り組みも進んでいるのが現状です。
一方で物理的視点に弱いこと、生成した矛盾点に気が付かないこと、モデルの学習に時間と費用が掛かることが課題として挙げられます。先に費用面の限界が着てしまうことも懸念されています。また全く別のアルゴリズムを使った高性能のAIが出現する可能性も否定できません。
以前として完璧とは言えないGTP-3ですが、実用化に向けた取り組みの中で人間の生活の手助けをしてくれるシーンが増えていくことを期待しましょう。