Apple の iA における最新の進歩をご覧ください。

Apple の研究者は最近、生成人工知能に関する研究を発表しました。大規模言語モデル (LLM) のトレーニング方法に対する新しいアプローチに焦点を当てています。 Venture Beat が報じているように、それは可能性があります。この分野における大きな進歩。

慎重な組み合わせ

Apple の研究者が開発したトレーニング方法は、より効率的で汎用性の高い人工知能システムへの道を開く可能性があります。これを達成するためのアイデアは、次を使用して LLM をトレーニングすることです。いくつかの要素の組み合わせ。研究報告書の中で、Appleの研究者は次のように説明しています。

大規模なマルチモーダル モデルを効果的にトレーニングするには、テキスト データだけでなく、画像キャプション、画像に関連付けられたテキストなど、さまざまなデータを使用することが重要であることがわかりました。

いくつかの要素の組み合わせを活用すれば、次のことが可能になります。研究者の予想を超えるいくつかの点で。特に、画像の説明、画像に基づく質問への回答、さらには自然言語の理解について話しています。

ビジュアルコンポーネントの適応とスケーリング

クパチーノの研究者らは、テストを通じて、視覚要素を処理するために適切なテクノロジーを選択することが重要であることも学びました。研究では次のように述べられています。

画像エンコーダ、画像解像度、画像トークンの数が大きな影響を与える一方で、ビジョン言語コネクタの設計は比較的無視できるほど重要であることを示します。

エンコーダーは画像をコンピューターが理解できるデータに変換します。エンコーダーは画像の解像度と同様にモデルのパフォーマンスにおいて重要な要素です。トークンの数に関しては、これらは LLM の能力を多かれ少なかれ活用できるデータの単位です。割り当てられるトークンが多いほど、画像をより正確に分析できます。

したがって、上で挙げた要因は、考慮すべき最も重要なことは、ビジョン言語コネクタの設計がそうではないほどです。後者は、モデルが視覚情報 (画像が示す内容) と言語 (関連するテキストの内容) を組み合わせる方法を指します。

Apple は人工知能に関して多くの研究を行っていますが、最新の Bloomberg レポートが示すように、人工知能を一般の人々が利用できるようにするための決定的な結果が得られるまでには時間がかかる可能性があります。私たちはそれを学びますAppleはGeminiをiOSに統合するためにGoogleと協議していると伝えられている、リンゴが独自のツールを提供すると考えたとき。

ChatGPT レベルの AI の開発は大きな課題であり、時間がかかります。より速く進むには、アップルは多くのAI企業を買収し、去年から。これは良い兆候かもしれませんが、次のことを示している可能性もあります膨大な数の買収を考慮すると、この分野で前進するのは困難です。

OpenAI の歴史を見ると、彼らは Apple のような AI 企業を約 30 社買収したのではなく、研究者に頼って現在の地位に到達したことがわかります。もちろん、これには膨大な時間と問題がかかりました。2018 年の GPT 1 は、現在 GPT 4 で提供されているものとは何の関係もありませんでした。OpenAI の最新の公式声明によると、GPT 5 は 2025 年頃にリリースされる可能性があることを考慮に入れています。しかし、おそらく Apple は同じレベルのものをもっと短期間で提供するだろう。時間が経てば分かるだろう。

i-nfo.fr - 公式 iPhon.fr アプリ

提供者: Keleops AG