チューリングテストとは？具体例や問題点を交えて徹底解説！

2022 10/02

2022.08.07 2022.10.02

「AI（人工知能）が人間の知能を超えて、数年後にはほとんどの仕事がとって代わられる」と言われてから久しいですが、ここで実際にAIが人間の知能を超えているかを判断する基準として使われてきたのがチューリングテストです。今回はチューリングテストの内容を説明したうえでテストの具体例や問題点について説明します。初めてチューリングテストを突破したEugene Goostman（ユージーン・グーツマン）について、そしてチューリングテストへの反論「中国語の部屋」についても解説しますので、ぜひ最後までご覧ください。

チューリングテストとは？

チューリングテストは人間かAIかを判断する実験です。このテストの目的はAI（＊）が人間的な知性があるのかを確かめることです。テスト結果を通して「AIは思考することができるのか？」という疑問を解決できます。ここからはチューリングテストの概要と歴史的背景、方法について解説していきます。

＊当時はコンピューターの知能について解明しようとしていた。以下AIで統一。

チューリングテストの概要と歴史的背景

チューリングテストとはイギリスの数学者アラン・М・チューリングが発表した、コンピューターやAI（人工知能）の能力を判断するテストです。テストの基準は「コンピューターまたはAIはいかに人間らしさがあるか」についてです。

その背景には1950年代に生まれた「機械は思考することができるのか？」という疑問に対する以下のような議論があります。

機械とは何を指すのか
思考するとはどのような状態か
どのような基準で知性を持つというのか

これらを定義することは困難を極めました。そこでチューリングは「機械が人間のようにふるまうことができるのか」をテストすることで、これらの定義なしに機械の人間性を証明しようとしたのです。

参考：総務省「人工知能（AI）の現状と未来」

チューリングテストの方法と登場するプレーヤー

チューリングテストはAIとその代役を担う人間、審査員の3者で行われます。テストの流れは以下の通りです。

「AI（人工知能）・代役の人間」と「審査員」別々の部屋に分ける
審査員がモニター越しに質問する
AI（人工知能）と代役の人間のそれぞれが質問に対して回答する
審査員はどちらのプレーヤーが人間かを判定する

この実験は反復して行われ、審査員が30％以上を人間と回答したAIには「人間的な知能がある」と判断されています。

チューリングテストの具体例

チューリングテストはこれまで1966年にELIZA（イライザ）、1972年にPARRY（パリー）、2014年にEugene Goostman（ユージーン・グーツマン）と多くのAI（人工知能）が挑戦してきました。ここからはそれぞれのテストの詳細と結果について解説していきます。

ELIZA（イライザ）の場合

チューリングテストは人間のような振る舞いをして、審査員をだませれば試験を突破できます。そのため、人間からの質問に対しての返答を高度にプログラミングされたAIは、チューリングテストに合格してしまいます。例えばマサチューセッツ工科大学が研究開発した心理カウンセリングロボットELIZA（イライザ）は、直前の人間の文章に対して高度な構造分析とキーワード抽出を行うことで、人間らしい返信ができます。

一方で直前の文章にしか焦点を当てることができないため、会話の前後で矛盾が生じてしまうという脆弱性も否めません。そのため反復継続するような会話においては人間らしさが失われていく傾向にあります。ELIZAの場合はあくまで人間の事前に行っているプログラムの範疇での返答に過ぎず、AI自身が思考しているとは言い切れないです。

参考：ELIZA（イライザ）「公式ページ」

PARRY（パリー）の場合

チューリングテストを突破するケースとして、AIにあらかじめキャラクターを設定しておくことが効果的だと考えられています。1972年に開発されたPARRY（パリー）というAIは、統合失調症の患者という設定でチューリングテストに挑み、高水準の結果を出しました。キャラクターを設定することでAIのプログラミングの範囲が限定され、より人間らしい返答をすることが可能です。

一方でPARRYは「コミュニケーションが円滑に行うことが困難な統合失調症の患者」というAI側に有利なキャラクターを設定しています。そのため多少の会話の齟齬が逆に人間らしさにつながってしまうことが考えられるのです。健常者との比較を行った場合には「人間らしくない」という判定が出てしまうことは避けられません。

参考：PARRY（パリー）「公式ページ」

Eugene Goostman（ユージーン・グーツマン）の場

チューリングテストに初めて合格したとされているAI（人工知能）がEugene Goostman（ユージーン・グーツマン）です。チューリングテストが発表されてから64年後の2014年に行われたこのテストでは、当時最新のスーパーコンピューターを使用しています。

またEugene GoostmanはPARRY（パリー）と同じくキャラクターの設定を行っていました。設定内容は「流暢な英語が使えないウクライナ出身の13歳の少年」というものです。より具体的なキャラクター設定を行ったことで、審査員に「人間的な回答である」と高確率で判断させることに成功しました。
参考：日経サイエンス「本当に賢いAIを見分ける新チューリングテスト」

しかしEugene Goostmanの場合にも、英語のコミュニケーションが流暢にできない設定を選択しています。またテストの質問項目が公表されていないことから、「審査員をだますことに特化したAIである」との指摘があるのも事実です。

チューリングテストの問題点

チューリングテストには人間の知性を再現するに過ぎない、実用性に欠けるという問題点があります。また「中国語の部屋」という実験では、チューリングテストはAI（人工知能）が人間並みの知性を持っていると証明するのは困難であると反論を示しています。ここからはそれぞれの問題点の特徴について解説していきます。

人間の知性を再現するに過ぎない

チューリングテストはあくまで人間を模倣したAIを判定するものであり、人工知能が知性を持ち、思考することができるかどうかの判定をすることはできないとの指摘があります。例えば人間であればタイプミスや会話の中の齟齬が発生する可能性はありますが、そのような知性の欠如ともいえる部分をもAIは学習して表現する必要があります。そのため知性があると考えられるAIであっても、人間的な表現を忠実に再現できないとチューリングテストには合格できないという問題点があるのです。

実用性に欠ける

チューリングテストは人間に近い行動をするAIを判定するものであり、この試験に合格したとしても実用化の未来は考えにくいとの指摘もあります。例えばAIのチャットボットに「医薬部外品とはどういう商品ですか？」と質問したとします。すると「医薬部外品についてあまり理解していないので、Google検索してみてはいかがでしょうか？」と返答された場合、いかにも人間らしい返答であるとはい言えますが、積極的に使いたいかといわれると疑問が残ります。

一方で「医薬部外品とは、人体に対する作用が緩和なもので、機械器具等ではないものです。」と返答するチャットボットのほうが商業的にも学術的にも魅力があるでしょう。チューリングテストは実用性に欠けるという理由で、研究の進展が遅れているとも考えられています。

反論「中国語の部屋」

「チューリングテストに合格したAIは本当に知性を持っていると言えるのか？」という疑問に対しての反論として「中国語の部屋」という思考実験が有名です。中国語の部屋は、「人間の動作を模倣することはできても、知能を持つことはできない」ということを示すための研究です。実験は以下の手順に沿って進められます。

中国語を理解していない英語話者の前に中国語のルールブックを用意する
質問者は英語話者に対して中国語で質問をする
英語話者はルールブックに沿って中国語で返答する
英語話者は中国語について一切の理解がないにもかかわらず、中国語の質問を中国語で回答することに成功する

このように中国語の部屋では、中国語を理解せずして人間らしい回答を作ることができることを証明する実験です。よってチューリングテストは、AIが人間並みの知性を持っていると証明するには足りない実験であると反論しています。

チューリングテストまとめ

AIが人間の知能を超えているかを判断する基準として使われてきたのがチューリングテストです。イギリスの数学者アラン・М・チューリングが1950年に発表した実験で、「機械は思考することができるのか？」という疑問に対する回答のために研究が進められてきました。Eugene Goostman（ユージーン・グーツマン）のように実際にチューリングテストに合格するAIが開発されていく中、この実験の内容では人間の知性を再現するに過ぎない、実用性に欠けるという問題点があります。今後チューリングテスト研究は進められていくのか、また合格したAIはどのように活用されていくのか目が離せません。