chatGPT の登場以来、AI は毎月急速に進化しており、非常に多くのモデルと高速な反復により、多くの人は人間が本当に AGI の門の端に立っているようだと実感せずにはいられません。
最近、米国特許商標庁(USPTO)が公開した文書によると、OpenAIが7月18日に「GPT-5」の商標出願を行ったことが明らかになった。そして受け入れられました。
USPTO ファイルのスクリーンショット
今年前半には、さまざまなAI専門家や学者が共同で何度も公開書簡を発行し、生成AIの潜在的なリスクに注意を払うよう人々に呼びかけたが、OpenAIも当時、計画を立てないことを発表した。 GPT-5を短期間でトレーニングします。
しかし、科学技術の誘惑により、人類はついにタブーの境界を突破することができました。
今回公開されたアプリケーションでは、OpenAIは未リリースのGPT-5がGPT-4にはない多くの機能を備えると言及しており、ほぼすべての項目でAGIについて言及している。
では、このような変化はAIと人間にとって何を意味するのでしょうか?
今回は、OpenAIの申請書類に開示されている限られた情報から、GPT-5の考えられる機能、変更点、影響について簡単に分析してみたいと思います。
今回公開された文書では、OpenAIが最初に挙げた変更点の1つがマルチモーダル機能の強化だ。
具体的には、GPT-5 の機能には、テキストまたは音声をある言語から別の言語に翻訳する、音声認識、テキストおよび音声を生成するなどが含まれます。
現在の GPT-4 では異なる言語間の翻訳も実現できますが、ここでは翻訳機能に特化しているため、再最適化が行われているはずです。
OpenAI が GPT-5 の翻訳機能をこれほど強調するのはなぜですか?
これは、GPT がユニバーサルになるための前提条件の 1 つが、さまざまな言語で大規模なモデルを使用するコストのギャップを最小限に抑えることであるためと考えられます。
以前、オックスフォード大学の調査結果では、OpenAI などのサービスで採用されているサーバーコストの測定と請求方法のおかげで、英語の入出力のコストが他の言語のコストよりもはるかに低いことが示されました。
このうち、簡体字中国語は英語の約2倍、スペイン語は英語の1.5倍、ミャンマーのシャン語は英語の15倍となっています。
中国語のような言語は、異なるより複雑な構造を持っているため、より高い見出語化率が必要です。
たとえば、OpenAI の GPT3 トークナイザーによると、「あなたの愛情」のトークンには英語では 2 つのトークンだけが必要ですが、簡体字中国語では 8 つのトークンが必要です。
これは、英語以外の言語では、モデルの使用とトレーニングにはるかにコストがかかることを意味します。
そして、ひとたび「言語の壁」の敷居を越えれば、GPT の前にあるこの普遍的な壁は間違いなく直接クリアされるでしょう。
さらに、文書内で目立った音声認識機能は目立たない変更にすぎないようですが、これはある意味、AGI ブリックへの道における OpenAI の GPT-5 舗装のもう 1 つの部分です。
周知のとおり、今後の大規模モデルの開発の方向性においては、モデルが周縁化され、末端化する傾向がますます明らかになってきています。
今年7月にクアルコムが携帯電話上で動作可能な10億パラメータの大型モデルをリリースして以来、HonorやAppleなどのメーカーも自社の「ビッグモデル」携帯電話を発売すると発表している。
携帯電話をはじめ、今後のAIデータはカメラやセンサー、自動運転など端末側で処理されることが増えてきます。
このようなアプリケーション シナリオでは、音声認識の方が間違いなく便利で効率的です。
たとえば、AI 言語モデルにより、ドライバーは音声を通じて車両を制御できます。ドライバーの音声コマンドを、発進、停止、加速、ブレーキなどの操作などの実行可能なコマンドに変換します。
SIri のような携帯電話システムに存在するスマート アシスタントも、音声コマンドによる制御を優先します。
GPT-5 が端末側に導入されると、音声認識が単なるおまけではなく、「標準構成」になることがわかります。
そして、各端末デバイスのシンクを通じて、GPT-5 はさらに疎外された非言語的なデータ構造も取得することになります。
結局のところ、大規模なモデルの開発以来、吸収できるテキスト データはほとんど同じであり、AGI への道をさらに一歩進めたい場合、この種の「非テキスト」データは非常に重要です。
OpenAIが提出した文書には、上記の特徴に加えて、「GPT-5はデータを学習、分析、分類し、対応する能力も備えている可能性がある」とも言及されている。
これは、現在の人工知能の開発動向から判断すると、GPT-5が知的体と同様の能動学習能力を持っていることを意味しているのでしょう。
そしてこの機能により、GPT-5 は、人間がデータを入力することで受動的に新しい知識を学習することしかできない以前のモデルとは根本的に異なります。
具体的には、アクティブ ラーニングの機能とは、人間が提供するデータだけに依存するのではなく、モデルが独自の目標やニーズに応じてデータを独自に選択、取得、処理できることを意味します。
これにより、モデルは単に受動的にデータを受信して出力するのではなく、データ内の情報と知識をより効果的に利用し、さまざまなデータ環境やタスク シナリオにより柔軟に適応できるようになります。
そして、そのような能力は、GPT-5 が比較的馴染みのない垂直的な分野に直面する場合に特に重要です。
医学、法律、金融などの一部の特定の分野には、通常、独自の固有の用語、ルール、知識システムがあり、通常の言語モデルでは理解して処理することが難しい場合があります。
GPT-5 にアクティブ ラーニングの機能があれば、これらの分野の関連データをインターネットから自動的に収集および更新し、これらの分野の基本概念、重要な原則、最新の開発を分析および分類し、これらの分野に共通する問題に対応できます。 , 典型的なケースと実際のアプリケーション。
このようにして、GPT-5 はこれらの分野の専門知識をより迅速に習得し、これらの分野の対応するタスクをより正確かつ効率的に完了できます。
そしてこれらすべてが、実際の一般モデルへの鍵となります。
なぜなら、専門的なタスクを解決するために GPT が常に特定の「エキスパート モデル」に接続されている必要がある場合、それは真に「汎用的」であるとは言えないからです。
これは、GPT の違いと、さまざまな分野やシナリオのインテリジェンス機能への依存につながり、GPT と「エキスパート モデル」の間の通信と調整のコストも増加し、どのような環境でも高品質のサービスを達成できることを保証できないからです。状況。
これに先立ち、海外メディアのセミアナリシスは今年3月にリリースされたGPT-4の秘密を暴露し、OpenAIがGPT-4の構築に混合エキスパートモデルを使用していることを暴露した。
ニュースによると、GPT-4は1110億個のパラメータを持つ16の混合エキスパートモデル(エキスパートの混合)を使用し、各フォワードパスルートは2つのエキスパートモデルを経由するという。
ただし、モデルがより専門家になると、一般化して収束を達成することが難しくなります。
これは、各エキスパート モデルが独自のパラメーターと戦略を持っており、それらを調整するのが難しいことが多く、そのため GPT がバランスをとって「全体的な状況を考慮する」ことが困難になるためです。
アクティブ ラーニングの機能を備えた GPT-5 は、マルチモーダルな理解と推論機能、ナレッジ マップとデータベースを使用して、取得したデータを分析して理解し、クラスタリング アルゴリズムと分類子を通じて関連データをリンクして要約することができます。 。
このように、GPT-5 は、さまざまなデータ環境やタスク シナリオに応じて、データ内の情報と知識を効果的に使用できます。
前述のように、GPT-5 は言語の壁を乗り越え、便利な音声認識機能を備えた端末側に入った後、継続的なアクティブラーニング機能を通じてさまざまなシナリオ、分野、モダリティの知識を吸収し続け、AGI への道に進みます。高速で移動している。
このような強力な「普遍性」を持つ GPT-5 がさまざまな分野に普及し始めると、データ障壁のある一部の業界 (医療など) を除いて、ほとんどの垂直分野の大型モデルは徐々に影を潜めていくことが予想されます。
なぜなら、最終的に分析すると、相当数の専門家や垂直型大規模モデルは本質的に一部の企業の製品であり、コンピューティング能力とデータが不十分であり、「一般的な大規模モデル」を登ることができず、次善の策に落ち着かなければならないからです。 (これは特に中国で顕著です)。
汎用の大規模モデルがその強力な学習能力のおかげでほとんどの業界で習熟できる場合、誰が異なるモデルを退屈に切り替えたり、異なるモデルの複数のトレーニングと使用コストを負担したりするでしょうか?
この観点から、エキスパート モデルは徐々に一般モデルに置き換えられます。これは、AGI への道を歩む人類にとって避けられない歴史的プロセスです。
これに伴うもう 1 つの現象は、より細分化された些細なタスクが置き換えられることです。
なぜなら、より強力な一般モデルがあれば、実際に多くの役職の作業内容を統合して統合できることがわかるからです。
考えられる例としては、プロダクト マネージャーやデータ アナリストが挙げられます。
たとえば、新製品開発プロジェクトでは、GPT-5 は、特定の製品コンセプトや需要に応じて、関連する市場調査、競合製品分析、ユーザー ポートレート、その他のデータをインターネットから検索し、自身のメモリにダウンロードできます。
その後、独自のマルチモーダルな理解と論理的推論機能、ナレッジ グラフとデータベースを通じて、取得したデータを分析および理解します。
対応するデータを取得し、分類、整理した後、GPT-5は言語理解能力を通じて対話システムのフィードバックから関連するマーケティング戦略、ユーザーのフィードバック、その他の情報を学習し、与えられた製品コンセプトやニーズと比較します。そして評価した。
このようにして、プロダクト マネージャーとデータ アナリストという 2 つの立場が事実上「統合」されます。
AGI への未完の道のりには、統合され置き換えられる無数のジョブがあります。
したがって、より汎用性の高い GPT-5 は、生産性の向上に恩恵をもたらすだけでなく、業界における大地震の前兆でもあります。
そのとき、大規模なモデルを活用する能力がまだなく、業界の障壁に欠けている多くの企業は、砂で築いた城のように脆く崩壊するでしょう。
そして、常に入れ替わる立場に直面する、より普通の人々は、時代の不確実性をより深く感じることになるだろう...
4548 人気度
198328 人気度
23046 人気度
175894 人気度
2963 人気度
GPT-5が来るのか? AI業界にどんな劇的な変化が起こるのか
chatGPT の登場以来、AI は毎月急速に進化しており、非常に多くのモデルと高速な反復により、多くの人は人間が本当に AGI の門の端に立っているようだと実感せずにはいられません。
最近、米国特許商標庁(USPTO)が公開した文書によると、OpenAIが7月18日に「GPT-5」の商標出願を行ったことが明らかになった。そして受け入れられました。
USPTO ファイルのスクリーンショット
今年前半には、さまざまなAI専門家や学者が共同で何度も公開書簡を発行し、生成AIの潜在的なリスクに注意を払うよう人々に呼びかけたが、OpenAIも当時、計画を立てないことを発表した。 GPT-5を短期間でトレーニングします。
しかし、科学技術の誘惑により、人類はついにタブーの境界を突破することができました。
今回公開されたアプリケーションでは、OpenAIは未リリースのGPT-5がGPT-4にはない多くの機能を備えると言及しており、ほぼすべての項目でAGIについて言及している。
USPTO ファイルのスクリーンショット
では、このような変化はAIと人間にとって何を意味するのでしょうか?
今回は、OpenAIの申請書類に開示されている限られた情報から、GPT-5の考えられる機能、変更点、影響について簡単に分析してみたいと思います。
01 AGIへの道
今回公開された文書では、OpenAIが最初に挙げた変更点の1つがマルチモーダル機能の強化だ。
具体的には、GPT-5 の機能には、テキストまたは音声をある言語から別の言語に翻訳する、音声認識、テキストおよび音声を生成するなどが含まれます。
現在の GPT-4 では異なる言語間の翻訳も実現できますが、ここでは翻訳機能に特化しているため、再最適化が行われているはずです。
OpenAI が GPT-5 の翻訳機能をこれほど強調するのはなぜですか?
これは、GPT がユニバーサルになるための前提条件の 1 つが、さまざまな言語で大規模なモデルを使用するコストのギャップを最小限に抑えることであるためと考えられます。
以前、オックスフォード大学の調査結果では、OpenAI などのサービスで採用されているサーバーコストの測定と請求方法のおかげで、英語の入出力のコストが他の言語のコストよりもはるかに低いことが示されました。
このうち、簡体字中国語は英語の約2倍、スペイン語は英語の1.5倍、ミャンマーのシャン語は英語の15倍となっています。
中国語のような言語は、異なるより複雑な構造を持っているため、より高い見出語化率が必要です。
たとえば、OpenAI の GPT3 トークナイザーによると、「あなたの愛情」のトークンには英語では 2 つのトークンだけが必要ですが、簡体字中国語では 8 つのトークンが必要です。
これは、英語以外の言語では、モデルの使用とトレーニングにはるかにコストがかかることを意味します。
そして、ひとたび「言語の壁」の敷居を越えれば、GPT の前にあるこの普遍的な壁は間違いなく直接クリアされるでしょう。
さらに、文書内で目立った音声認識機能は目立たない変更にすぎないようですが、これはある意味、AGI ブリックへの道における OpenAI の GPT-5 舗装のもう 1 つの部分です。
周知のとおり、今後の大規模モデルの開発の方向性においては、モデルが周縁化され、末端化する傾向がますます明らかになってきています。
今年7月にクアルコムが携帯電話上で動作可能な10億パラメータの大型モデルをリリースして以来、HonorやAppleなどのメーカーも自社の「ビッグモデル」携帯電話を発売すると発表している。
携帯電話をはじめ、今後のAIデータはカメラやセンサー、自動運転など端末側で処理されることが増えてきます。
このようなアプリケーション シナリオでは、音声認識の方が間違いなく便利で効率的です。
たとえば、AI 言語モデルにより、ドライバーは音声を通じて車両を制御できます。ドライバーの音声コマンドを、発進、停止、加速、ブレーキなどの操作などの実行可能なコマンドに変換します。
SIri のような携帯電話システムに存在するスマート アシスタントも、音声コマンドによる制御を優先します。
GPT-5 が端末側に導入されると、音声認識が単なるおまけではなく、「標準構成」になることがわかります。
そして、各端末デバイスのシンクを通じて、GPT-5 はさらに疎外された非言語的なデータ構造も取得することになります。
結局のところ、大規模なモデルの開発以来、吸収できるテキスト データはほとんど同じであり、AGI への道をさらに一歩進めたい場合、この種の「非テキスト」データは非常に重要です。
02 チャレンジエキスパートモデル
OpenAIが提出した文書には、上記の特徴に加えて、「GPT-5はデータを学習、分析、分類し、対応する能力も備えている可能性がある」とも言及されている。
これは、現在の人工知能の開発動向から判断すると、GPT-5が知的体と同様の能動学習能力を持っていることを意味しているのでしょう。
そしてこの機能により、GPT-5 は、人間がデータを入力することで受動的に新しい知識を学習することしかできない以前のモデルとは根本的に異なります。
具体的には、アクティブ ラーニングの機能とは、人間が提供するデータだけに依存するのではなく、モデルが独自の目標やニーズに応じてデータを独自に選択、取得、処理できることを意味します。
これにより、モデルは単に受動的にデータを受信して出力するのではなく、データ内の情報と知識をより効果的に利用し、さまざまなデータ環境やタスク シナリオにより柔軟に適応できるようになります。
そして、そのような能力は、GPT-5 が比較的馴染みのない垂直的な分野に直面する場合に特に重要です。
医学、法律、金融などの一部の特定の分野には、通常、独自の固有の用語、ルール、知識システムがあり、通常の言語モデルでは理解して処理することが難しい場合があります。
GPT-5 にアクティブ ラーニングの機能があれば、これらの分野の関連データをインターネットから自動的に収集および更新し、これらの分野の基本概念、重要な原則、最新の開発を分析および分類し、これらの分野に共通する問題に対応できます。 , 典型的なケースと実際のアプリケーション。
このようにして、GPT-5 はこれらの分野の専門知識をより迅速に習得し、これらの分野の対応するタスクをより正確かつ効率的に完了できます。
そしてこれらすべてが、実際の一般モデルへの鍵となります。
なぜなら、専門的なタスクを解決するために GPT が常に特定の「エキスパート モデル」に接続されている必要がある場合、それは真に「汎用的」であるとは言えないからです。
これは、GPT の違いと、さまざまな分野やシナリオのインテリジェンス機能への依存につながり、GPT と「エキスパート モデル」の間の通信と調整のコストも増加し、どのような環境でも高品質のサービスを達成できることを保証できないからです。状況。
これに先立ち、海外メディアのセミアナリシスは今年3月にリリースされたGPT-4の秘密を暴露し、OpenAIがGPT-4の構築に混合エキスパートモデルを使用していることを暴露した。
ニュースによると、GPT-4は1110億個のパラメータを持つ16の混合エキスパートモデル(エキスパートの混合)を使用し、各フォワードパスルートは2つのエキスパートモデルを経由するという。
ただし、モデルがより専門家になると、一般化して収束を達成することが難しくなります。
これは、各エキスパート モデルが独自のパラメーターと戦略を持っており、それらを調整するのが難しいことが多く、そのため GPT がバランスをとって「全体的な状況を考慮する」ことが困難になるためです。
アクティブ ラーニングの機能を備えた GPT-5 は、マルチモーダルな理解と推論機能、ナレッジ マップとデータベースを使用して、取得したデータを分析して理解し、クラスタリング アルゴリズムと分類子を通じて関連データをリンクして要約することができます。 。
このように、GPT-5 は、さまざまなデータ環境やタスク シナリオに応じて、データ内の情報と知識を効果的に使用できます。
03 さらに作業を置き換えます
前述のように、GPT-5 は言語の壁を乗り越え、便利な音声認識機能を備えた端末側に入った後、継続的なアクティブラーニング機能を通じてさまざまなシナリオ、分野、モダリティの知識を吸収し続け、AGI への道に進みます。高速で移動している。
このような強力な「普遍性」を持つ GPT-5 がさまざまな分野に普及し始めると、データ障壁のある一部の業界 (医療など) を除いて、ほとんどの垂直分野の大型モデルは徐々に影を潜めていくことが予想されます。
なぜなら、最終的に分析すると、相当数の専門家や垂直型大規模モデルは本質的に一部の企業の製品であり、コンピューティング能力とデータが不十分であり、「一般的な大規模モデル」を登ることができず、次善の策に落ち着かなければならないからです。 (これは特に中国で顕著です)。
汎用の大規模モデルがその強力な学習能力のおかげでほとんどの業界で習熟できる場合、誰が異なるモデルを退屈に切り替えたり、異なるモデルの複数のトレーニングと使用コストを負担したりするでしょうか?
この観点から、エキスパート モデルは徐々に一般モデルに置き換えられます。これは、AGI への道を歩む人類にとって避けられない歴史的プロセスです。
これに伴うもう 1 つの現象は、より細分化された些細なタスクが置き換えられることです。
なぜなら、より強力な一般モデルがあれば、実際に多くの役職の作業内容を統合して統合できることがわかるからです。
考えられる例としては、プロダクト マネージャーやデータ アナリストが挙げられます。
たとえば、新製品開発プロジェクトでは、GPT-5 は、特定の製品コンセプトや需要に応じて、関連する市場調査、競合製品分析、ユーザー ポートレート、その他のデータをインターネットから検索し、自身のメモリにダウンロードできます。
その後、独自のマルチモーダルな理解と論理的推論機能、ナレッジ グラフとデータベースを通じて、取得したデータを分析および理解します。
対応するデータを取得し、分類、整理した後、GPT-5は言語理解能力を通じて対話システムのフィードバックから関連するマーケティング戦略、ユーザーのフィードバック、その他の情報を学習し、与えられた製品コンセプトやニーズと比較します。そして評価した。
このようにして、プロダクト マネージャーとデータ アナリストという 2 つの立場が事実上「統合」されます。
AGI への未完の道のりには、統合され置き換えられる無数のジョブがあります。
したがって、より汎用性の高い GPT-5 は、生産性の向上に恩恵をもたらすだけでなく、業界における大地震の前兆でもあります。
そのとき、大規模なモデルを活用する能力がまだなく、業界の障壁に欠けている多くの企業は、砂で築いた城のように脆く崩壊するでしょう。
そして、常に入れ替わる立場に直面する、より普通の人々は、時代の不確実性をより深く感じることになるだろう...