TOM - gpt api speech & visionの紹介
OpenAI API が公開され、TOM を使用すると、モバイル デバイスで GPT-4 Turbo と GPT-4 Vision のパワーを解き放つことができます。
話しかけたり、ディスカッションを開始したり、写真を撮って質問したりできます。
システムプロンプトをタップして動作を変更します。任意の役割を果たせるようにします。
OpenAI の Whisper では最も正確な音声認識を、OpenAI の TTS では完全に人間の音声認識をお楽しみください。あるいは、無効のままにして Google のサービスを使用すると、遅延とコストが低くなり、ユーザー エクスペリエンスが高速になります。
GPT 3.5 Turbo を使用してコストを最小限に抑えることもできます。
APIクライアント
GPT 4 Turbo または GPT 4 Vision を楽しむためにサブスクリプションは必要ありません。API キーのみが必要です。そして良いニュースは、API キーが OpenAI のサイトで無料であることです。開始方法は次のとおりです。
1. https://openai.com にアクセスします。
2. 無料で登録します。
3. 登録すると、5 ドルの API クレジットが付与され、TOM の機能を幅広く探索できるようになります。
4. API キーを無料で作成する
5. TOM で API キーを使用して、THE BEAST を解き放ちます
使用している API キーを更新または変更する必要がある場合は、いつでも [KEY] ボタンをタップします。
コントロール
上部のセレクターを使用して GPT-3.5 Turbo と GPT-4 Turbo を切り替え、コストを管理したり、より迅速な応答を実現したりできます。写真を撮るたびに GPT-4 Vision が自動的に選択されます。
トムの説明をタップして、独自のシステム プロンプトを設定します。 GPT があなたとどのように対話するかをガイドします。
SPEAK ボタンをタップして GPT と話します。
カメラボタンをタップして写真を撮り、それについて何でも質問してください。
その後「話す」をタップすると、その写真についての議論を続けることができます。
ただし、コンテキストは成長します。
どういう背景があるのでしょうか?
コンテキストには、撮影した写真も含め、現在の会話で話されたすべての内容が含まれます。 GPT はそれを記憶するため、毎回 API に送信されます。
それは新しい文ごとに、特に新しい写真ごとに成長します。 API に送信されるコンテキストが大きくなるほど、応答時間も長くなります。そして重要なことに、OpenAI はコンテキストのサイズに基づいて料金を請求します。
適切なバランスを見つけるために、TOM はコンテキストが特に重くなったときに常にコンテキストをクリアする機能を提供します。ただし、GPT は以前の対話をすべて忘れます。この目的には、BIN ボタンを使用します。
画像サイズ
TOM は、GPT に送信される画像に対して、高速、中、品質の 3 つの設定を提供します。
「高速」がデフォルトで、GPT との迅速な対話のために小さい画像が提供されます。テキストやほとんどの種類の画像に適しています。
「中」ではより詳細な情報が得られますが、画像がわずかに大きくなります。
精度を最大限に高めるには「品質」を使用します。これらのイメージは、OpenAI API の中で最も重く、最もコストがかかります。
ささやきとTTS
Whisper は、音声認識において人間レベルの堅牢性と精度に近づく OpenAI ニューラル ネットワークです。有効にすると、TOM が GPT に送信する音声認識の精度がさらに高まりますが、追加料金がかかります。
TTS (Text-to-Speech) は、テキストを本物のような音声に変換する OpenAI システムです。追加の費用もかかります。
どちらのオプションも遅延時間が発生するため、ユーザー エクスペリエンスを高速化するためにデフォルトで無効になっています。ただし、両方を有効にすると、そのエクスペリエンスは本当に素晴らしいものになります。
話しかけたり、ディスカッションを開始したり、写真を撮って質問したりできます。
システムプロンプトをタップして動作を変更します。任意の役割を果たせるようにします。
OpenAI の Whisper では最も正確な音声認識を、OpenAI の TTS では完全に人間の音声認識をお楽しみください。あるいは、無効のままにして Google のサービスを使用すると、遅延とコストが低くなり、ユーザー エクスペリエンスが高速になります。
GPT 3.5 Turbo を使用してコストを最小限に抑えることもできます。
APIクライアント
GPT 4 Turbo または GPT 4 Vision を楽しむためにサブスクリプションは必要ありません。API キーのみが必要です。そして良いニュースは、API キーが OpenAI のサイトで無料であることです。開始方法は次のとおりです。
1. https://openai.com にアクセスします。
2. 無料で登録します。
3. 登録すると、5 ドルの API クレジットが付与され、TOM の機能を幅広く探索できるようになります。
4. API キーを無料で作成する
5. TOM で API キーを使用して、THE BEAST を解き放ちます
使用している API キーを更新または変更する必要がある場合は、いつでも [KEY] ボタンをタップします。
コントロール
上部のセレクターを使用して GPT-3.5 Turbo と GPT-4 Turbo を切り替え、コストを管理したり、より迅速な応答を実現したりできます。写真を撮るたびに GPT-4 Vision が自動的に選択されます。
トムの説明をタップして、独自のシステム プロンプトを設定します。 GPT があなたとどのように対話するかをガイドします。
SPEAK ボタンをタップして GPT と話します。
カメラボタンをタップして写真を撮り、それについて何でも質問してください。
その後「話す」をタップすると、その写真についての議論を続けることができます。
ただし、コンテキストは成長します。
どういう背景があるのでしょうか?
コンテキストには、撮影した写真も含め、現在の会話で話されたすべての内容が含まれます。 GPT はそれを記憶するため、毎回 API に送信されます。
それは新しい文ごとに、特に新しい写真ごとに成長します。 API に送信されるコンテキストが大きくなるほど、応答時間も長くなります。そして重要なことに、OpenAI はコンテキストのサイズに基づいて料金を請求します。
適切なバランスを見つけるために、TOM はコンテキストが特に重くなったときに常にコンテキストをクリアする機能を提供します。ただし、GPT は以前の対話をすべて忘れます。この目的には、BIN ボタンを使用します。
画像サイズ
TOM は、GPT に送信される画像に対して、高速、中、品質の 3 つの設定を提供します。
「高速」がデフォルトで、GPT との迅速な対話のために小さい画像が提供されます。テキストやほとんどの種類の画像に適しています。
「中」ではより詳細な情報が得られますが、画像がわずかに大きくなります。
精度を最大限に高めるには「品質」を使用します。これらのイメージは、OpenAI API の中で最も重く、最もコストがかかります。
ささやきとTTS
Whisper は、音声認識において人間レベルの堅牢性と精度に近づく OpenAI ニューラル ネットワークです。有効にすると、TOM が GPT に送信する音声認識の精度がさらに高まりますが、追加料金がかかります。
TTS (Text-to-Speech) は、テキストを本物のような音声に変換する OpenAI システムです。追加の費用もかかります。
どちらのオプションも遅延時間が発生するため、ユーザー エクスペリエンスを高速化するためにデフォルトで無効になっています。ただし、両方を有効にすると、そのエクスペリエンスは本当に素晴らしいものになります。
表示