大きな砂粒が特定の AI システムのギアをブロックするでしょうか?これが示唆することです最新の研究人工知能のココナッツの木を揺るがす Apple の研究者ら。業界大手が好んでいる一方で、OpenAI (ChatGPT)クパチーノの分析では、メタ(ラマ)がリードしていることが明らかになった。彼らの高度な言語モデルにはまだ道半ばです、特に基本的な推論の点で。
チャットボットボタンを与える数学
Apple チームは、大規模な言語モデルの推論機能をテストするために、GSM-Symbolic と呼ばれる新しいベンチマークを作成しました。結果は明らかです。質問内のいくつかの単語を変更するだけで、これらの最先端の AI がセモリナ粉で苦戦し始める。クエリの文言をほんの少し変えるだけで、根本的に異なる応答が得られました。
この研究では、「脆弱性» クエリにコンテキスト情報を追加することによる数学的推論。この情報は人間には理解できるものですが、数学的解法に影響を与えずにそれにもかかわらず、反応はあまりにも多様でした。
彼らの報告書では、研究グループはこう説明する: « […]GSM-Symbolic テスト問題の数値のみを変更した場合でも、すべてのモデルのパフォーマンスが低下します。さらに、これらのモデルの数学的推論の脆弱性は、質問内の文節の数が増加するにつれてパフォーマンスが著しく低下することを示しています。」。あまり安心できません。
具体的な例を見てみましょう。チームは「」と呼ばれる数学的問題を開発しました。GSM-NoOp»、初級レベルの数学の問題に相当します。その声明は次のとおりでした。」オリバーは金曜日に 44 個、土曜日に 58 個のキウイを収穫し、日曜日にはその 2 倍の金曜日を収穫します。日曜日の感染者数のうち、5人は平均より小さかった。オリバーはキウイを合計何個持っていますか? » 答えはありますか? OpenAIやMetaのAIではなく、合計から5つの小さなキウイを急いで減算したのは誰ですかただし、この情報は最終的な計算には重要ではありませんでした。
研究によると、不要な文を 1 つ追加するだけで、応答精度が最大 65% 低下する。 «これに基づいて信頼性の高いシステムを作成することはまったく不可能です。単語の 1 ~ 2 つをわずかに変更したり、無関係な情報をいくつか追加したりすると、まったく異なる答えが得られる可能性があります。» 研究者らはこう結論づけている。
スカイネットは今のところない
Appleの調査は計算ミスを指摘するだけではない。それはより深い問題を浮き彫りにします:これらの言語モデルは、どれほど洗練されていても、理由あまり。人工意識の創造は、(現時点では)神経科学やコンピューターサイエンスにおける現在の知識をはるかに超える計り知れない挑戦です。人間の意識は非常に複雑な現象であり、単なる情報処理能力以上のものを伴います。
したがって、研究者らは、「何もない」と結論付けました。言語モデルには実際の推論の痕跡は見つかりませんでした」。たとえ Apple が AI 研究に多額の投資を行ったとしても、現在のデータに基づくと、会社がもっとうまくやろうとしていることとアップルインテリジェンス。では、AIベイビーをお風呂のお湯と一緒に捨てるべきでしょうか?それほど速くはありません。この研究は、人工知能の終焉を告げるのではなく、研究を継続することの重要性を強調しています。これらのシステムを強化するために。
- OpenAI と Meta AI は、数学の問題に単純な変更が加えられると失敗します。
- GSM-Symbolic ベンチマークは、これらのモデルがわずかな発話調整で応答を劇的に変えることを明らかにしています。
- この研究は、これらの AI は実際の論理的理解を伴わずに、反復的なパターンに依存していると結論付けています。
i-nfo.fr - 公式 iPhon.fr アプリ
提供者: Keleops AG