GOAT.AI - Task to AI Agentsの紹介
エージェントタスクの目標指向のオーケストレーション。基本的に、AI エージェントは相互に通信してタスクを実行します。
例: 「来月の 20 km のセミマラソンに最適な日を選択してください」。 AI は連携を開始します。天気エージェントは天気予報を取得し、Web 検索エージェントは最適な走行条件を特定し、Wolfram エージェントは「最良の日」を計算します。これはコネクテッド AI の芸術であり、複雑なタスクを高度に簡素化します。
自律エージェントの中央メインフレームとしての LLM は、興味深い概念です。 AutoGPT、GPT-Engineer、BabyAGI などのデモは、このアイデアの簡単な例として機能します。 LLM の可能性は、よく書かれたコピー、ストーリー、エッセイ、プログラムの生成や完成を超えて広がります。これらは強力な一般タスク ソルバーとして構成できます。これが、エージェント タスクフォースの目標指向オーケストレーション (GOAT.AI) の構築において私たちが達成することを目指していることです。
LLM エージェント タスク フォース システムの目標指向のオーケストレーションが存在し、適切に機能するには、システムの 3 つの主要なコア コンポーネントが適切に機能する必要があります。
- 概要
1) 企画
- サブ目標と分解: エージェントは、大きなタスクを管理しやすい小さなサブ目標に分割し、複雑な割り当てを効率的に処理しやすくします。
- 反省と改善: エージェントは、過去の行動について自己批判と反省を行い、間違いから学び、将来のステップへのアプローチを改善することで、結果の全体的な質を向上させます。
2) 記憶
- 短期記憶: 品質を低下させることなく、モデルが回答する前に処理できるテキストの量を指します。現状では、LLM は約 128,000 のトークンに対して品質を低下させることなく回答を提供できます。
- 長期記憶: これにより、エージェントは長期間にわたってコンテキストに関する無制限の量の情報を保存および呼び出すことができます。これは多くの場合、効率的な RAG システムの外部ベクトル ストアを使用することで実現されます。
3) アクションスペース
- エージェントは、外部 API を呼び出して、モデルの重みでは利用できない追加情報 (事前トレーニング後に変更するのが難しい場合が多い) を取得する機能を獲得します。これには、現在の情報へのアクセス、コードの実行、独自の情報ソースへのアクセス、そして最も重要なことに、情報を取得するために他のエージェントを呼び出すことが含まれます。
- アクション空間には、何かを取得することを目的としたものではなく、特定のアクションを実行して結果を取得することを伴うアクションも含まれます。このようなアクションの例には、電子メールの送信、アプリの起動、玄関ドアの開閉などが含まれます。これらのアクションは通常、さまざまな API を通じて実行されます。さらに、エージェントは、アクセス権のあるアクション可能なイベントのために他のエージェントを呼び出すこともできることに注意することが重要です。
例: 「来月の 20 km のセミマラソンに最適な日を選択してください」。 AI は連携を開始します。天気エージェントは天気予報を取得し、Web 検索エージェントは最適な走行条件を特定し、Wolfram エージェントは「最良の日」を計算します。これはコネクテッド AI の芸術であり、複雑なタスクを高度に簡素化します。
自律エージェントの中央メインフレームとしての LLM は、興味深い概念です。 AutoGPT、GPT-Engineer、BabyAGI などのデモは、このアイデアの簡単な例として機能します。 LLM の可能性は、よく書かれたコピー、ストーリー、エッセイ、プログラムの生成や完成を超えて広がります。これらは強力な一般タスク ソルバーとして構成できます。これが、エージェント タスクフォースの目標指向オーケストレーション (GOAT.AI) の構築において私たちが達成することを目指していることです。
LLM エージェント タスク フォース システムの目標指向のオーケストレーションが存在し、適切に機能するには、システムの 3 つの主要なコア コンポーネントが適切に機能する必要があります。
- 概要
1) 企画
- サブ目標と分解: エージェントは、大きなタスクを管理しやすい小さなサブ目標に分割し、複雑な割り当てを効率的に処理しやすくします。
- 反省と改善: エージェントは、過去の行動について自己批判と反省を行い、間違いから学び、将来のステップへのアプローチを改善することで、結果の全体的な質を向上させます。
2) 記憶
- 短期記憶: 品質を低下させることなく、モデルが回答する前に処理できるテキストの量を指します。現状では、LLM は約 128,000 のトークンに対して品質を低下させることなく回答を提供できます。
- 長期記憶: これにより、エージェントは長期間にわたってコンテキストに関する無制限の量の情報を保存および呼び出すことができます。これは多くの場合、効率的な RAG システムの外部ベクトル ストアを使用することで実現されます。
3) アクションスペース
- エージェントは、外部 API を呼び出して、モデルの重みでは利用できない追加情報 (事前トレーニング後に変更するのが難しい場合が多い) を取得する機能を獲得します。これには、現在の情報へのアクセス、コードの実行、独自の情報ソースへのアクセス、そして最も重要なことに、情報を取得するために他のエージェントを呼び出すことが含まれます。
- アクション空間には、何かを取得することを目的としたものではなく、特定のアクションを実行して結果を取得することを伴うアクションも含まれます。このようなアクションの例には、電子メールの送信、アプリの起動、玄関ドアの開閉などが含まれます。これらのアクションは通常、さまざまな API を通じて実行されます。さらに、エージェントは、アクセス権のあるアクション可能なイベントのために他のエージェントを呼び出すこともできることに注意することが重要です。
表示