Azure Communication Services Call Automation API を使用すると、開発者は、テレフォニー、VoIP、WebRTC など、Azure Communication Services を介して行われた呼び出しを制御できます。 これらの API では、リアルタイム イベント トリガーを使用します。これにより、各開発者のドメインに固有のカスタム ビジネス ロジックに基づくアクションが有効になります。 Call Automation API を使用すると、開発者は単純な AI を利用した機能を使用できます。 たとえば、パーソナライズされたあいさつ文を再生したり、話された応答を認識して顧客から情報を収集したり、センチメントを分析してサービスを改善したりできます。 これらのターゲット API は、開発者が AI モデルをカスタマイズできる Azure AI Foundry を介して管理されます。 重要なのは、開発者はメディア ストリームに対処したり、これらの AI 関数のために Azure に送り返したりする必要はありません。処理はシームレスに行われます。
この機能はすべて 1 回のクリックで実行でき、企業はセキュリティで保護されたソリューションにアクセスし、ポータルを介してモデルをリンクできます。 また、開発者や企業は資格情報を管理する必要はありません。 Azure AI サービスを接続するには、マネージド ID を使用してユーザー所有のリソースにアクセスします。 管理者はマネージド ID を使用すると、Microsoft Entra 認証をサポートするあらゆるリソースに対して認証を行うことができます。
Azure AI サービスは、プログラミング言語に関係なく、任意のアプリケーションに簡単に統合できます。 Azure portal で Azure リソースを作成する場合は、このオプションを有効にして、Azure AI サービスの URL を指定します。 このシンプルなエクスペリエンスにより、開発者はニーズを満たし、スケーリングし、カスタム ソリューションの設計と保守に時間とリソースを投資しないようにすることができます。
注
この統合では、マルチサービス Cognitive Service リソースのみがサポートされます。新しい Azure AI サービス リソースを作成する場合は、マルチサービス Cognitive Service リソースを作成するか、既存のリソースを接続するときに、それがマルチサービス Cognitive Service リソースであることを確認することをお勧めします。
一般的なユース ケース
音声を再生して認識できるアプリケーションを構築する
Azure AI サービスを Azure Communication Services に接続する機能を使用すると、 テキスト読み上げと音声合成マークアップ言語 (SSML) 構成を使用してカスタム再生機能を有効にし、ユーザーに対してよりカスタマイズされた自然に聞こえる音声を再生できます。 Azure AI サービス接続を通じて、音声テキスト変換サービスを使用して音声応答の認識を組み込むこともできます。音声応答は、アプリケーションのビジネス ロジックを通じて実用的なタスクに変換できます。 これらの関数は、次の方法で Azure AI サービス内でさらに強化できます。
- ドメインとリージョンに合わせて調整されたカスタム モデルの作成
- 話される言語と認識される言語の選択
- カスタム音声の設計
- エクスペリエンスに基づいて追加のモデルを構築する
ラン タイム フロー
Azure portal での操作
Azure Portal を使用して、Azure Communication Services リソースを Azure AI リソースに接続する必要があります。 この手順を実行するには、次の 2 つの方法があります。
- Azure Communication Services の [Cognitive Services] タブの手順に移動します (推奨)。
- マネージド ID を Azure Communication Services リソースに手動で追加する。 この手順の方が高度であり、Azure Communication Services を Azure AI サービスに接続するにはもう少し作業が必要です。
前提条件
- アクティブなサブスクリプションを持ち、Azure portal にアクセスできる Azure アカウントの詳細については、「無料でアカウントを作成する」を参照してください。
- Azure Communication Services リソース。 Azure Communication Services リソースの作成に関する記事を参照してください。
- Azure Communication Service
Microsoft.Authorization/roleAssignments/write
アクセス許可。一般的には Azure RBAC を介して行われます。 「Azure portal を使用して Azure ロールを割り当てる」を参照してください。 - Azure AI サービス リソース。
Azure portal を使用した接続
Azure Communication Services リソースを開き、[Cognitive Services] タブをクリックします。
システム割り当てマネージド ID が有効になっていない場合は、有効にする必要があります。
[Cognitive Services] タブで、[マネージド ID を有効にする] ボタンをクリックします。
システム割り当て ID を有効にします。 この操作により、ID の作成が開始されます。要求が処理されていることを通知するポップアップ通知が表示されます。
マネージド ID が有効になっている場合、[Cognitive Service] タブには、2 つのサービスを接続するための [コグニティブ サービスの接続] ボタンが表示されます。
[Cognitive Service を接続する] をクリックし、[サブスクリプション]、[リソース グループ]、[リソース] を選択して、開いたコンテキスト ペインで [接続] をクリックします。
接続に成功すると、接続が成功したことを確認する緑色のバナーが表示されます。
高度なオプション: マネージド ID を Azure Communication Services リソースに手動で追加する
または、リソースを手動で接続するプロセスを実行する場合は、次の手順に従います。
システム割り当て ID を有効化する
- Azure portal で、Azure Communication Services リソースに移動します。
- [ID] タブを選択します。
- システム割り当て ID を有効にします。 この操作により、ID の作成が開始されます。 要求が処理されていることを通知するポップアップ通知が表示されます。
オプション 1: Azure portal で Azure Cognitive Services からロールを追加する
- Azure Cognitive Services リソースに移動します。
- [アクセス制御 (IAM)] タブを選択します。
- [+ 追加] ボタンをクリックします。
- メニューから [ロールの割り当ての追加] を選択します。
- 割り当てる [Cognitive Services ユーザー] ロールを選択し、[次へ] をクリックします。
- [アクセスの割り当て先] フィールドで、[ユーザー、グループ、またはサービス プリンシパル] を選択します。
- [+ メンバーの選択] を押すと、サイド タブが開きます。
- テキスト ボックスで Azure Communication Services リソース名を検索し、リソースが表示されたらクリックして、[選択] をクリックします。
- [確認と割り当て] をクリックすると、マネージド ID にロールが割り当てられます。
オプション 2: Azure Communication Services の [ID] タブを使用してロールを追加する
- Azure portal で、Azure Communication Services リソースに移動します。
- [ID] タブを選択します。
- [Azure でのロールの割り当て] をクリックします。
- [ロールの割り当ての追加 (プレビュー)] ボタンをクリックすると、[ロールの割り当ての追加 (プレビュー)] タブが開きます。
- [スコープ] で [リソース グループ] を選択します。
- [サブスクリプション] を選択します。
- Cognitive Service を含む [リソース グループ] を選択します。
- ロール [Cognitive Services ユーザー] を選択します。
- [保存] をクリックします。
これで、Azure Communication Service が Azure Cognitive Service リソースにリンクされました。
サポートされている Azure AI サービス リージョン
Azure Communication Services (ACS) と Azure AI の統合は、Azure AI Foundry のリージョン別の可用性と完全に一致しています。 つまり、ACS から Azure AI への統合は、Azure AI Foundry を使用できるすべてのリージョンでサポートされます。
サポートされているリージョンの最新の一覧については、公式の Azure AI Foundry のドキュメントを参照してください。
既知の制限事項
- テキスト読み上げテキスト プロンプトでは最大 4,000 文字がサポートされます。プロンプトがこれより長い場合は、テキスト読み上げベースの再生アクションに SSML を使用することをお勧めします。
- Speech サービスのクォータ制限を超過したシナリオの場合、こちらに記載されている手順に従って、この制限の引き上げを要求できます。
次のステップ
- テキスト読み上げを使用して呼び出し元に音声を再生する方法について説明します。
- 音声テキスト変換を使用してユーザーによる入力を収集する方法について説明します。