Azure AI Foundry モデルで Azure OpenAI を使用してモデルをカスタマイズする - Azure OpenAI

Azure AI Foundry ポータルには、次の 2 つの固有のファインチューニングエクスペリエンスがあります。

ハブ/プロジェクトビュー - Azure OpenAI、Meta Llama、Microsoft Phi など、複数のプロバイダーのモデルのファインチューニングをサポートします。
Azure OpenAI 中心のビュー - Azure OpenAI モデルのファインチューニングのみをサポートしますが、Weights & Biases (W&B) プレビュー統合などの追加機能のサポートを備えています。

Azure OpenAI モデルのみをファインチューニングする場合は、Azure OpenAI 中心のファインチューニングエクスペリエンスをお勧めします。これは、https://ai.azure.com/resource/overview に移動することによってご利用いただけます。

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

Azure OpenAI
ハブ/プロジェクト

前提条件

Azure OpenAI の微調整ガイドを使用する場合を参照してください。
Azure サブスクリプション。無料で作成できます。
Azure OpenAI モデルの微調整をサポートするリージョンにある Azure OpenAI リソース。リージョン別の使用可能なモデルとサポートされている機能の一覧については、「モデルの概要テーブルとリージョンの可用性」を参照してください。詳細については、「Azure OpenAI を使用してリソースを作成し、モデルをデプロイする」を参照してください。
アクセスの微調整には、Cognitive Services OpenAI 共同作成者が必要です。
Azure AI Foundry ポータル内でクォータを表示する、およびモデルをデプロイするためのアクセスがまだない場合は、追加のアクセス許可が必要になります。

サポートされているモデル

現在微調整をサポートしているリージョンを確認するには、モデルに関するページを参照してください。

または、base-model.ft-{jobid} として書式設定された、以前に微調整されたモデルを微調整することもできます。

Azure AI Foundry ポータルのワークフローを確認する

少し時間を取って、Azure AI Foundry ポータルを使用するためのファインチューニングワークフローを確認してください。

トレーニングおよび検証用のデータを準備します。
Azure AI Foundry ポータルの [微調整されたモデルの作成 ] ダイアログを使用して、カスタムモデルをトレーニングします。
1. トレーニング方法を選択します。
2. 基本モデルを選択します。
3. トレーニングの種類を選択する
4. トレーニングデータを選択します。
5. 必要に応じて、検証データを選択します。
6. 必要に応じて、微調整ジョブのタスクパラメーターを構成します。
7. 必要に応じて、結果のカスタムモデルの自動デプロイを有効にします。
8. 選択内容を確認して、新たにカスタマイズしたモデルをトレーニングします。
カスタム微調整モデルの状態を確認します。
カスタムモデルをデプロイして、使用できるようにします。
カスタムモデルを使用します。
必要に応じて、カスタムモデルのパフォーマンスと適合度を分析します。

トレーニングデータと検証データを準備する

トレーニングデータと検証データのセットは、モデルの実行方法に関する入力と出力の例で構成されます。

使用するトレーニングデータと検証データは、JSON Lines (JSONL) ドキュメントとして書式設定する必要があり、チャット入力候補 API で使用される会話形式で書式設定する必要があります。

一般に、すべてのトレーニング例で最適に動作した手順とプロンプトを使用することをお勧めします。これは、特に 100 個未満の例がある場合に最適な結果を得るのに役立ちます。

ファイル形式の例

{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who discovered Antarctica?"}, {"role": "assistant", "content": "Some chaps named Fabian Gottlieb von Bellingshausen and Mikhail Lazarev, as if they don't teach that in every school!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the biggest ocean?"}, {"role": "assistant", "content": "The Pacific Ocean. It's not like it's a small pond or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest planet?"}, {"role": "assistant", "content": "It's called Jupiter, you might have heard of it...or not."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who painted the Mona Lisa?"}, {"role": "assistant", "content": "Oh, some obscure artist named Leonardo da Vinci. Not that he is famous or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the boiling point of water?"}, {"role": "assistant", "content": "Exciting fact of the day: it's 100 degrees Celsius. Life-changing, isn't it?"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'The Odyssey'?"}, {"role": "assistant", "content": "Oh, just some poet named Homer. Nothing special, really."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest mammal?"}, {"role": "assistant", "content": "Blue Whale. Quite a big fish isn't it? Oh wait, it's not a fish!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the highest mountain peak?"}, {"role": "assistant", "content": "Everest. Brace yourself, it's not a walk in the park."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who invented the telephone?"}, {"role": "assistant", "content": "A guy named Alexander Graham Bell. Bet you didn't guess that one!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the distance from Earth to the Sun?"}, {"role": "assistant", "content": "About 93 million miles. Just a quick drive, really."}]}

マルチターンチャットファイル形式 Azure OpenAI

jsonl トレーニングファイルの 1 行での会話の複数のターンもサポートされています。特定のアシスタントメッセージの微調整をスキップするには、オプションの weight キー値ペアを追加します。現在、weight は 0 または 1 に設定できます。

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already.", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "William Shakespeare", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "384,400 kilometers", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters.", "weight": 1}]}

vision でのチャット補完

{"messages": [{"role": "user", "content": [{"type": "text", "text": "What's in this image?"}, {"type": "image_url", "image_url": {"url": "https://raw.githubusercontent.com/MicrosoftDocs/azure-ai-docs/main/articles/ai-services/openai/media/how-to/generated-seattle.png"}}]}, {"role": "assistant", "content": "The image appears to be a watercolor painting of a city skyline, featuring tall buildings and a recognizable structure often associated with Seattle, like the Space Needle. The artwork uses soft colors and brushstrokes to create a somewhat abstract and artistic representation of the cityscape."}]}

JSONL 形式に加えて、トレーニングおよび検証のデータファイルは UTF-8 でエンコードしてバイトオーダーマーク (BOM) を含める必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

データセットのサイズに関する考慮事項

トレーニング例が多いほど適切になります。微調整ジョブは、少なくとも 10 個のトレーニング例なしでは続行されませんが、このような少数のジョブでは、モデルの応答に大きな影響を与えるほどではありません。成功するには、数千ではないにしても数百のトレーニング例を提供することをお勧めします。適切に作成された 50 個のトレーニングデータから開始することをお勧めします。

一般的に、データセットサイズを 2 倍にすると、モデルの品質を直線的に向上させることができます。ただし、低品質の例はパフォーマンスに悪影響を与える可能性があることに注意してください。大量の内部データでモデルをトレーニングする場合、最初に最高品質の例についてのみデータセットを排除しないと、予想よりもはるかにパフォーマンスの低いモデルになる可能性があります。

微調整されたモデルの作成

Azure AI Foundry ポータルには 微調整されたモデルの作成 ダイアログが用意されているため、1 か所で Azure リソース用に微調整されたモデルを簡単に作成およびトレーニングできます。

https://ai.azure.com/で Azure AI Foundry ポータルに移動し、Azure OpenAI リソースにアクセスできる資格情報でサインインします。サインインワークフローの途中で、適切なディレクトリ、Azure サブスクリプション、Azure OpenAI リソースを選択します。
Azure AI Foundry ポータル内で [ツール] > [ファインチューニング] ペインに移動し、[モデルのファインチューニング] を選択します。
微調整するモデルを選択し、[ 次へ ] を選択して続行します。

[ 微調整されたモデルの作成 ] ダイアログが表示されます。

トレーニング方法を選択する

最初の手順では、モデルの選択とトレーニング方法を確認します。すべてのモデルがすべてのトレーニング方法をサポートしているわけではありません。

教師あり微調整 (SFT): すべての非推論モデルでサポートされます。
ダイレクト基本設定の最適化 (プレビュー) (DPO): GPT-4o でサポートされています。
強化微調整 (プレビュー) (RFT): o4-mini などの推論モデルでサポートされます。

モデルを選択するときに、以前に微調整したモデルを選択することもできます。

トレーニングの種類を選択します

微調整ジョブに使うトレーニングレベルを選びます。

Standard: トレーニングは、現在の Azure OpenAI リソースのリージョンで行われ、データ所在地が提供されます。
グローバル (プレビュー): トークンごとのより手頃な価格のトレーニングでは、データの保存場所は提供されません。

データ所在地の要件がない場合は、グローバルを選択すると、現在のリージョンを超えてトレーニング容量を活用できる良い選択になります。パブリックプレビュー段階では、現在のリージョン内でグローバルを使用できない場合があります。コンサルティング

場合によっては、現在のリージョン内で Standard を使用できない場合があります。データ所在地が必要な場合は、選択したモデルのモデルの可用性に関する一覧のリージョンを参照してください。

トレーニングデータを選択する

次の手順では、既存の準備済みトレーニングデータを選択するか、[トレーニングデータの追加] を選択して、モデルをカスタマイズするときに使用する新しい準備済み トレーニングデータをアップロードします。

[ トレーニングデータ ] ダイアログには、以前にアップロードした既存のデータセットが表示され、新しいトレーニングデータをアップロードするためのオプションも表示されます。

Azure AI Foundry ポータルのカスタムモデルの作成ウィザードの [トレーニングデータ] ウィンドウのスクリーンショット。

トレーニングデータが既にサービスにアップロードされている場合は、[ 接続済み AI リソース] から [ファイル] を選択します。
- 表示されたドロップダウンリストからファイルを選択します。
新しいトレーニングデータをアップロードするには、次のいずれかのオプションを使用します。
- [ ファイルのアップロード] を選択して、トレーニングデータをローカルファイルからアップロードします。
- Azure BLOB またはその他の共有 Web の場所を選択して、Azure BLOB または別の共有 Web の場所からトレーニングデータをインポートします。

大きなデータファイルの場合は、Azure BLOB ストアからインポートすることをお勧めします。大きなファイルは、マルチパートフォームを介してアップロードすると不安定になる場合があります。要求がアトミックであり、再試行または再開ができないためです。 Azure Blob Storage の詳細については、「Azure Blob Storage とは」を参照してください。

注

トレーニングデータファイルは、JSONL ファイル形式にし、バイトオーダーマーク (BOM) を使用して UTF-8 でエンコードする必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

検証データを選択する (省略可能)

検証データセットがある場合は、[ トレーニングデータの追加] を選択します。既存の準備済み検証データを選択するか、モデルをカスタマイズするときに使用する新しい準備済み検証データをアップロードできます。

[ 検証データ ] ダイアログには、以前にアップロードされた既存のトレーニングデータセットと検証データセットが表示され、新しい検証データをアップロードできるオプションが表示されます。

Azure AI Foundry ポータルのカスタムモデルの作成ウィザードの [検証データ] ウィンドウのスクリーンショット。

検証データが既にサービスにアップロードされている場合は、[データセットの選択] を選択します。
- [検証データ] ウィンドウに表示される一覧からファイルを選択します。
新しい検証データをアップロードするには、次のいずれかのオプションを使用します。
- ローカルファイルから検証データをアップロードするには、[ローカルファイル] を選択します。
- Azure BLOB またはその他の共有 Web の場所を選択して、Azure BLOB または別の共有 Web の場所から検証データをインポートします。

大きなデータファイルの場合は、Azure BLOB ストアからインポートすることをお勧めします。大きなファイルは、マルチパートフォームを介してアップロードすると不安定になる場合があります。要求がアトミックであり、再試行または再開ができないためです。

注

検証データファイルは、トレーニングデータファイルと同様に JSONL ファイル形式にし、バイトオーダーマーク (BOM) を使用して UTF-8 でエンコードする必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

モデルを識別可能にする (省略可能)

また、微調整されたモデルのさまざまなイテレーションを区別しやすくするために、 suffix パラメーターを含めておくことをお勧めします。 suffixは最大 18 文字の文字列を受け取り、結果の微調整されたモデルに名前を付けるときに使用されます。

トレーニングパラメーターを構成する (省略可能)

オプションの シード を指定し、追加のハイパーパラメーターを調整できます。

シードはジョブの再現性を制御します。同じシードとジョブパラメーターを渡すと同じ結果が得られますが、まれに異なる場合があります。シードが指定されていない場合は、ランダムに生成されます。

Azure AI Foundry ポータルのカスタムモデルの作成ウィザードのパラメーターセクションのスクリーンショットを閉じます。

次のハイパーパラメーターは、Azure AI Foundry ポータルを介したチューニングに使用できます。

名前	タイプ	説明
バッチサイズ	整数 (integer)	トレーニングに使用するバッチサイズ。バッチサイズは、単一の順方向および逆方向の合格をトレーニングするために使用するトレーニング例の数です。一般的に、大規模なデータセットでは、バッチサイズが大きいほど適切に機能する傾向があることがわかっています。このプロパティの既定値と最大値は、基本モデルに固有です。バッチサイズが大きいほど、モデルパラメーターの更新頻度は低くなりますが、分散は小さくなります。
学習率乗数	数値	トレーニングに使用する学習率乗数。微調整の学習率は、事前トレーニングに使用された元の学習率にこの値を掛けた値です。学習率が高いほど、大きいバッチサイズでのパフォーマンスが向上する傾向があります。 0.02 から 0.2 の範囲の値を試して、最適な結果が得られるものを確認することをお勧めします。学習率を小さくすると、オーバーフィットを避けるのに役立つ場合があります。
エポックの数	整数 (integer)	モデルをトレーニングするエポックの数。エポックとは、トレーニングデータセット全体での 1 つの完全なサイクルを指します。

自動デプロイを有効にする (省略可能)

時間を節約するために、必要に応じて、結果のモデルの自動デプロイを有効にすることができます。トレーニングが正常に完了すると、選択したデプロイの種類を使用してモデルがデプロイされます。デプロイには、カスタムモデル用に生成された一意の名前と、前に指定したオプションの サフィックス に基づいて名前が付けられます。

Azure AI Foundry ポータルのカスタムモデルの作成ウィザードの自動デプロイトグルのスクリーンショット。

注

自動デプロイでは、現在、グローバル標準および開発者向けのデプロイのみがサポートされています。どちらのオプションもデータの保存場所を提供しません。詳細については、デプロイの種類に関するドキュメントを参照してください。

選択内容をレビューしてモデルをトレーニングする

選択内容を確認し、[送信] を選択して、新しい微調整されたモデルのトレーニングを開始します。

カスタムモデルの状態を確認する

微調整ジョブを送信すると、微調整されたモデルに関する詳細が表示されるページが表示されます。微調整されたモデルの状態と詳細については、Azure AI Foundry ポータルの 微調整 ページを参照してください。

ジョブは、システム上の他のジョブの後にキューに入れられる場合があります。モデルのトレーニングには、モデルおよびデータセットのサイズに応じて、数分または数時間かかる場合があります。

チェックポイント

各トレーニングエポックが完了すると、チェックポイントが生成されます。チェックポイントは、完全な機能を持つモデルのバージョンであり、デプロイすることも、後続の微調整ジョブのターゲットモデルとして使用することもできます。チェックポイントは、オーバーフィットの前にスナップショットを提供する可能性があるため、特に便利です。微調整が完了すると、3 つの最新バージョンのモデルをデプロイできるようになります。

カスタムモデルを分析する

Azure OpenAI では、各微調整ジョブが完了すると、results.csv という名前の結果ファイルが添付されます。この結果ファイルを使用して、カスタムモデルのトレーニングと検証のパフォーマンスを分析できます。結果ファイルのファイル ID は、Azure AI Foundry ポータルの [モデル] ペイン上の [結果ファイル ID] 列に、カスタムモデルごとに一覧表示されます。ファイル ID を使用して、Azure AI Foundry ポータルの [データファイル] ペインから結果ファイルを特定してダウンロードできます。

結果ファイルは、ヘッダー行と、微調整ジョブによって実行される各トレーニングステップの行が含まれる CSV ファイルです。この結果ファイルには、次の列が含まれています。

列名	説明
`step`	トレーニングステップの数。トレーニングステップは、トレーニングデータのバッチに対する前方と後方の 1 回のパスを表します。
`train_loss`	トレーニングバッチの損失。
`train_mean_token_accuracy`	モデルによって正しく予測されたトレーニングバッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`valid_loss`	検証バッチの損失。
`validation_mean_token_accuracy`	モデルによって正しく予測された検証バッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`full_valid_loss`	各エポックの終了時に計算される検証損失。トレーニングがうまくいった場合は、損失は減少します。
`full_valid_mean_token_accuracy`	各エポックの終了時に計算された有効平均トークン精度。トレーニングがうまくいった場合は、トークンの精度が向上します。

Azure AI Foundry ポータル内で、results.csv ファイル内のデータをプロットとして表示することもできます。トレーニング済みのモデルのリンクを選択すると、損失、平均トークンの精度、トークンの精度の 3 つのグラフが表示されます。検証データを指定した場合、両方のデータセットが同じプロットに表示されます。

時間の経過と同時に減少する損失を探し、精度を向上させます。トレーニングデータと検証データの間に相違がある場合は、オーバーフィットしていることを示している可能性があります。エポックが少ない、または学習率の乗数が小さいトレーニングを試してみてください。

微調整されたモデルをデプロイする

微調整ジョブのメトリックに満足した後、または推論に移行するだけの場合は、モデルをデプロイする必要があります。

さらなる検証のためにデプロイする場合は、Developer デプロイを使用したテスト用のデプロイを検討してください。

運用環境にデプロイする準備ができている場合、または特定のデータ所在地のニーズがある場合は、デプロイガイドに従ってください。

デプロイ済みの微調整されたモデルを使用する

微調整されたモデルをデプロイした後は、他のデプロイ済みモデルと同様に使用できます。 Azure AI Foundry 内の [プレイグラウンド] を使用して、新しいデプロイを試すことができます。 REST API を使用して、独自のアプリケーションから微調整されたモデルを呼び出すこともできます。プロンプトフローでこの新しい微調整されたモデルを使用することから始め、生成 AI アプリケーションを構築することもできます。

注

チャットモデルの場合、微調整されたモデルをガイドするために使用するシステムメッセージは、展開されているか、プレイグラウンドでテストに使用できるかに関係なく、トレーニングに使用したシステムメッセージと同じである必要があります。別のシステムメッセージを使用する場合、モデルが期待どおりに動作しない可能性があります。

継続的な微調整

微調整されたモデルを作成したら、さらに微調整を行い時間をかけてモデルを改良し続けることができます。継続的な微調整は、既に微調整されたモデルを基本モデルとして選び、新しいトレーニングサンプルのセットでさらに微調整する反復プロセスです。

以前に微調整したモデルに対して微調整を実行するには、微調整されたモデルの作成で説明したのと同じプロセスを使用しますが、汎用基本モデルの名前を指定する代わりに、既に微調整されたモデルを指定します。カスタムの微調整されたモデルは gpt-4o-2024-08-06.ft-d93dda6110004b4da3472d96f4dd4777-ft のようになります

デプロイ、カスタムモデル、トレーニングファイルをクリーンアップする

カスタムモデルの利用が完了したら、デプロイとモデルを削除できます。必要に応じて、サービスにアップロードしたトレーニングおよび検証のファイルを削除することもできます。

モデルデプロイの削除

重要

カスタマイズされたモデルをデプロイした後、デプロイが 15 日を超えて非アクティブのままである場合、デプロイは削除されます。カスタマイズされたモデルのデプロイは、モデルが 15 日以上前にデプロイされ、15 日間連続して完了またはチャット完了の呼び出しが行われなかった場合、"非アクティブ" になります。

非アクティブなデプロイを削除しても、基になるカスタマイズされたモデルは削除されることも影響を受けることもなく、カスタマイズされたモデルはいつでも再デプロイできます。 Azure AI Foundry Models の価格に関する Azure OpenAI で説明されているように、デプロイされるカスタマイズされた (微調整された) 各モデルでは、完了またはチャット完了の呼び出しがモデルに対して行われているかどうかに関係なく、1 時間ごとのホスティングコストが発生します。 Azure OpenAI を使用したコストの計画と管理の詳細については、「Azure OpenAI のコストを管理する計画」のガイダンスを参照してください。

Azure AI Foundry ポータル内の [デプロイ] ペイン上でカスタムモデルのデプロイを削除できます。削除するデプロイを選択し、[削除] を選択してデプロイを削除します。

カスタムモデルを削除する

Azure AI Foundry ポータル内の [モデル] ペイン上でカスタムモデルを削除できます。 [Customized models](カスタマイズされたモデル) タブから削除するカスタムモデルを選択し、[削除] を選択してカスタムモデルを削除します。

注

既存のデプロイがある場合は、カスタムモデルを削除できません。カスタムモデルを削除する前に、まずモデルデプロイを削除する必要があります。

トレーニングファイルの削除

必要に応じて、トレーニング用にアップロードしたトレーニングおよび検証のファイルと、トレーニング中に生成された結果ファイルを、Azure AI Foundry ポータル内の [管理]>[データとインデックス] ペインで削除できます。削除するファイルを選択し、[削除] を選択してファイルを削除します。

前提条件

Azure OpenAI の微調整ガイドを使用する場合を参照してください。
Azure サブスクリプション。無料で作成できます。
Azure AI Foundry ポータル内の Azure AI プロジェクト。
微調整がサポートされているリージョン内のリソースへの Azure OpenAI 接続。

注

Azure OpenAI モデルを Azure AI Foundry プロジェクト内で使用する場合とプロジェクトの外部で使用する場合とでは、サポートされるリージョンが異なる可能性があります。
アクセスの微調整には、Azure OpenAI リソースに対する Cognitive Services OpenAI 共同作成者ロールが必要です。
Azure AI Foundry ポータル内でクォータを表示する、およびモデルをデプロイするためのアクセスがまだない場合は、追加のアクセス許可が必要です。

サポートされているモデル

現在微調整をサポートしているリージョンを確認するには、モデルに関するページを参照してください。

または、base-model.ft-{jobid} として書式設定された、以前に微調整されたモデルを微調整することもできます。

Azure AI Foundry のワークフローを確認する

少し時間を取って、Azure AI Foundry を使用するためのファインチューニングワークフローを確認してください。

トレーニングおよび検証用のデータを準備します。
Azure AI Foundry ポータルの 微調整されたモデルの作成 ウィザードを使用して、カスタムモデルをトレーニングします。
1. トレーニング方法を選択します。
2. 基本モデルを選択します。
3. トレーニングデータを選択します。
4. 必要に応じて、検証データを選択します。
5. 必要に応じて、微調整ジョブのパラメーターを構成します。
6. 選択内容を確認して、新たにカスタマイズしたモデルをトレーニングします。
微調整されたモデルの状態を確認します。
必要に応じて、微調整されたモデルを分析してパフォーマンスと適合を確認します。
使用するために微調整されたモデルをデプロイします。
微調整されたモデルを使用します。

トレーニングデータと検証データを準備する

トレーニングデータと検証データのセットは、モデルの実行方法に関する入力と出力の例で構成されます。

使用するトレーニングデータと検証データは、JSON Lines (JSONL) ドキュメントとして書式設定する必要があり、チャット入力候補 API で使用される会話形式で書式設定する必要があります。

一般に、すべてのトレーニング例で最適に動作した手順とプロンプトを使用することをお勧めします。これは、特に 100 個未満の例がある場合に最適な結果を得るのに役立ちます。

ファイル形式の例

{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who discovered Antarctica?"}, {"role": "assistant", "content": "Some chaps named Fabian Gottlieb von Bellingshausen and Mikhail Lazarev, as if they don't teach that in every school!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the biggest ocean?"}, {"role": "assistant", "content": "The Pacific Ocean. It's not like it's a small pond or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest planet?"}, {"role": "assistant", "content": "It's called Jupiter, you might have heard of it...or not."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who painted the Mona Lisa?"}, {"role": "assistant", "content": "Oh, some obscure artist named Leonardo da Vinci. Not that he is famous or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the boiling point of water?"}, {"role": "assistant", "content": "Exciting fact of the day: it's 100 degrees Celsius. Life-changing, isn't it?"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'The Odyssey'?"}, {"role": "assistant", "content": "Oh, just some poet named Homer. Nothing special, really."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest mammal?"}, {"role": "assistant", "content": "Blue Whale. Quite a big fish isn't it? Oh wait, it's not a fish!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the highest mountain peak?"}, {"role": "assistant", "content": "Everest. Brace yourself, it's not a walk in the park."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who invented the telephone?"}, {"role": "assistant", "content": "A guy named Alexander Graham Bell. Bet you didn't guess that one!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the distance from Earth to the Sun?"}, {"role": "assistant", "content": "About 93 million miles. Just a quick drive, really."}]}

マルチターンチャットファイル形式

jsonl トレーニングファイルの 1 行での会話の複数のターンもサポートされています。特定のアシスタントメッセージの微調整をスキップするには、オプションの weight キー値ペアを追加します。現在、weight は 0 または 1 に設定できます。

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already.", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "William Shakespeare", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "384,400 kilometers", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters.", "weight": 1}]}

vision でのチャット補完

{"messages": [{"role": "user", "content": [{"type": "text", "text": "What's in this image?"}, {"type": "image_url", "image_url": {"url": "https://raw.githubusercontent.com/MicrosoftDocs/azure-ai-docs/main/articles/ai-services/openai/media/how-to/generated-seattle.png"}}]}, {"role": "assistant", "content": "The image appears to be a watercolor painting of a city skyline, featuring tall buildings and a recognizable structure often associated with Seattle, like the Space Needle. The artwork uses soft colors and brushstrokes to create a somewhat abstract and artistic representation of the cityscape."}]}

JSONL 形式に加えて、トレーニングおよび検証のデータファイルは UTF-8 でエンコードしてバイトオーダーマーク (BOM) を含める必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

データセットのサイズに関する考慮事項

トレーニング例が多いほど適切になります。微調整ジョブは、少なくとも 10 個のトレーニング例がないと実行されませんが、このような少数では、目に見えるほどの影響をモデルの応答に与えられません。成功するには、数千ではないにしても数百のトレーニング例を提供することをお勧めします。適切に作成された 50 個のトレーニングデータから開始することをお勧めします。

一般的に、データセットサイズを 2 倍にすると、モデルの品質を直線的に向上させることができます。ただし、低品質の例はパフォーマンスに悪影響を与える可能性があることに注意してください。大量の内部データでモデルをトレーニングする場合、最初に最高品質の例についてのみデータセットを排除しないと、予想よりもはるかにパフォーマンスの低いモデルになる可能性があります。

微調整モデルの作成

既存の Azure AI Foundry プロジェクト内で Azure OpenAI モデルをファインチューニングするには、次の手順に従います。

Azure AI Foundry にサインインし、プロジェクトを選択します。まだプロジェクトがない場合は、最初にプロジェクトを作成します。
折りたたみ可能な左側のメニューから [微調整]>+ [モデルを微調整する] を選択します。
微調整するベースモデルを選択します。この選択は、モデルのパフォーマンスとコストの両方に影響します。この例では、gpt-35-turbo モデルを選択します。次に、[確認] を選択します。
gpt-35-turbo の場合、微調整に使用できるバージョンが異なるので、微調整するバージョンを選択してください。 (0125) を選択します。
また、微調整モデルの異なるイテレーションを区別しやすくするために、suffix パラメーターを含めることをお勧めします。 suffix は文字列を受け取り、微調整されたモデルを特定するように設定されます。 OpenAI Python API では、微調整されたモデル名に追加される最大 18 文字の文字列がサポートされています。

微調整のために複数の Azure OpenAI 接続が有効になっている場合は、使用するリソースを選択します。 Azure OpenAI リソースにアクセスできるすべてのユーザーは、この微調整されたモデルにアクセスできます。

[次へ] を選択します。

トレーニングデータを選択する

次の手順では、既存の準備済みトレーニングデータを選択するか、モデルをカスタマイズするときに使用する新しい準備済みトレーニングデータをアップロードします。 [トレーニングデータ] ウィンドウには、以前にアップロードされた既存のデータセットが表示されるほか、新しいトレーニングデータをアップロードできるオプションも表示されます。

トレーニングデータがプロジェクトに既にある場合は、[ Azure AI Foundry のデータ] を選択します。
- [トレーニングデータ] ウィンドウに表示される一覧からファイルを選択します。
トレーニングデータが既に Azure OpenAI サービスにアップロードされている場合は、[ 接続済み AI リソース] で Azure OpenAI 接続を選択します。
トレーニングデータをアップロードしてモデルを微調整するには、[データのアップロード] を選択し、[ファイルのアップロード] を選択します。
- すべてのトレーニング例が、推論に必要な形式に従っていることを確認します。モデルを効果的に微調整するには、バランスのとれた多様なデータセットを確保してください。つまり、データバランスを維持し、さまざまなシナリオを含み、社会の実情に合わせてトレーニングデータを定期的に調整することで、最終的にはより正確でバランスの取れたモデル応答が得られます。詳細については、「データ準備」を参照してください。
- 大きなデータファイルの場合は、Azure BLOB ストアからインポートすることをお勧めします。大きなファイルは、マルチパートフォームを介してアップロードすると不安定になる場合があります。要求がアトミックであり、再試行または再開ができないためです。 Azure Blob Storage の詳細については、「Azure Blob Storage とは」を参照してください。

注

トレーニングデータファイルは、JSONL ファイル形式にし、バイトオーダーマーク (BOM) を使用して UTF-8 でエンコードする必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

ファイルをアップロードすると、トレーニングデータのプレビューが表示されます。 [次へ] を選択して続行します。

検証データを選択する

必要に応じて、検証データを提供してモデルを微調整することもできます。検証データを使用しない場合は、[なし] を選択し、[次へ] を選択して、モデルの詳細オプションに進むことができます。

それ以外の場合は、検証データセットがあれば、以前にアップロードしたデータから選択するか、新しく準備した検証データをアップロードしてモデルの微調整に使用できます。

注

検証データファイルは、トレーニングデータファイルと同様に JSONL ファイル形式にし、バイトオーダーマーク (BOM) を使用して UTF-8 でエンコードする必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

パラメーターを構成する

必要に応じて、微調整ジョブのパラメーターを構成します。次の機能を使用できます:

名前	タイプ	説明
`batch_size`	整数 (integer)	トレーニングに使用するバッチサイズ。バッチサイズは、単一の順方向および逆方向の合格をトレーニングするために使用するトレーニング例の数です。一般的に、大規模なデータセットでは、バッチサイズが大きいほど適切に機能する傾向があることがわかっています。このプロパティの既定値と最大値は、基本モデルに固有です。バッチサイズが大きいほど、モデルパラメーターの更新頻度は低くなりますが、分散は小さくなります。 -1 に設定すると、batch_size はトレーニングセットの例の 0.2% として計算されます。最大値は 256 です。
`learning_rate_multiplier`	数値	トレーニングに使用する学習率乗数。微調整の学習率は、事前トレーニングに使用された元の学習率にこの値を掛けた値です。学習率が高いほど、大きいバッチサイズでのパフォーマンスが向上する傾向があります。 0.02 から 0.2 の範囲の値を試して、最適な結果が得られるものを確認することをお勧めします。学習率を小さくすると、オーバーフィットを避けるのに役立つ場合があります。
`n_epochs`	整数 (integer)	モデルをトレーニングするエポックの数。エポックとは、トレーニングデータセット全体での 1 つの完全なサイクルを指します。 -1 に設定すると、入力データに基づいてエポックの数が動的に決定されます。
`seed`	整数 (integer)	シードはジョブの再現性を制御します。同じシードとジョブパラメーターを渡すと同じ結果が得られますが、まれに異なる場合があります。シードが指定されていない場合は生成されます。
`Beta`	整数 (integer)	dpo 損失の温度パラメーター (通常は 0.1 から 0.5 の範囲)。これは、参照モデルをどれだけ重視するのかを制御します。ベータが小さいほど、モデルが参照モデルから逸れることを許容します。ベータが小さくなるにつれて、参照モデルは無視されます。

既定の構成のままにするか、設定に合わせて値をカスタマイズできます。構成の作成が完了したら、[次へ] を選択します。

選択内容をレビューしてモデルをトレーニングする

選択内容を確認し、[送信] を選択して、新しい微調整されたモデルのトレーニングを開始します。

微調整されたモデルの状態を確認する

微調整ジョブを送信すると、微調整されたモデルに関する詳細が表示されたページが表示されます。微調整されたモデルの状態と詳細については、Azure AI Foundry ポータルの 微調整 ページを参照してください。

ジョブは、システム上の他のジョブの後にキューに入れられる場合があります。モデルのトレーニングには、モデルおよびデータセットのサイズに応じて、数分または数時間かかる場合があります。

チェックポイント

各トレーニングエポックが完了すると、チェックポイントが生成されます。チェックポイントは、完全な機能を持つモデルのバージョンであり、デプロイすることも、後続の微調整ジョブのターゲットモデルとして使用することもできます。チェックポイントは、オーバーフィットの前にスナップショットを提供する可能性があるため、特に便利です。微調整が完了すると、3 つの最新バージョンのモデルをデプロイできるようになります。

微調整されたモデルを分析する

微調整が正常に完了したら、[詳細] タブの微調整されたモデルページから results.csv という名前の結果ファイルをダウンロードできます。この結果ファイルを使用して、カスタムモデルのトレーニングと検証のパフォーマンスを分析できます。

結果ファイルは、ヘッダー行と、微調整ジョブによって実行される各トレーニングステップの行が含まれる CSV ファイルです。この結果ファイルには、次の列が含まれています。

列名	説明
`step`	トレーニングステップの数。トレーニングステップは、トレーニングデータのバッチに対する前方と後方の 1 回のパスを表します。
`train_loss`	トレーニングバッチの損失。
`train_mean_token_accuracy`	モデルによって正しく予測されたトレーニングバッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`valid_loss`	検証バッチの損失。
`validation_mean_token_accuracy`	モデルによって正しく予測された検証バッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`full_valid_loss`	各エポックの終了時に計算される検証損失。トレーニングがうまくいった場合は、損失は減少します。
`full_valid_mean_token_accuracy`	各エポックの終了時に計算された有効平均トークン精度。トレーニングがうまくいった場合は、トークンの精度が向上します。

また、微調整されたモデルの [ 監視 ] タブで、results.csv ファイル内のデータをプロットとして Azure AI Foundry ポータルで表示することもできます。トレーニング済みのモデルのリンクを選択すると、損失とトークンの精度の 2 つのグラフが表示されます。検証データを指定した場合、両方のデータセットが同じプロットに表示されます。

時間の経過と同時に減少する損失を探し、精度を向上させます。トレーニングデータと検証データの間に相違がある場合は、オーバーフィットしていることを示している可能性があります。エポックが少ない、または学習率の乗数が小さいトレーニングを試してみてください。

微調整されたモデルをデプロイする

モデルを微調整したら、モデルをデプロイし、独自のアプリケーションで使用できます。

モデルをデプロイするときは、モデルを推論に使用できるようにし、これには 1 時間ごとのホスティング料金が発生します。ただし、ファインチューニングされたモデルは使用する準備ができるまで、Azure AI Foundry ポータル内に無料で格納できます。

重要

カスタマイズされたモデルをデプロイした後、デプロイが 15 日を超えて非アクティブのままである場合、デプロイは削除されます。カスタマイズされたモデルのデプロイは、モデルが 15 日以上前にデプロイされ、15 日間連続して完了またはチャット完了の呼び出しが行われなかった場合、"非アクティブ" になります。

非アクティブなデプロイを削除しても、基になるカスタマイズされたモデルは削除されることも影響を受けることもなく、カスタマイズされたモデルはいつでも再デプロイできます。 Azure AI Foundry Models の価格に関する Azure OpenAI で説明されているように、デプロイされるカスタマイズされた (微調整された) 各モデルでは、完了またはチャット完了の呼び出しがモデルに対して行われているかどうかに関係なく、1 時間ごとのホスティングコストが発生します。 Azure OpenAI を使用したコストの計画と管理の詳細については、「Azure OpenAI のコストを管理する計画」のガイダンスを参照してください。

デプロイの進行状況は、Azure AI Foundry ポータル内の [デプロイ] ページ上で監視できます。

デプロイ済みの微調整されたモデルを使用する

微調整されたモデルをデプロイした後は、他のデプロイ済みモデルと同様に使用できます。 Azure AI Foundry 内の [プレイグラウンド] を使用して、新しいデプロイを試すことができます。 REST API を使用して、独自のアプリケーションから微調整されたモデルを呼び出すこともできます。プロンプトフローでこの新しい微調整されたモデルを使用することから始め、生成 AI アプリケーションを構築することもできます。

注

チャットモデルの場合、微調整されたモデルをガイドするために使用するシステムメッセージは、展開されているか、プレイグラウンドでテストに使用できるかに関係なく、トレーニングに使用したシステムメッセージと同じである必要があります。別のシステムメッセージを使用する場合、モデルが期待どおりに動作しない可能性があります。

デプロイ、微調整モデル、トレーニングファイルをクリーンアップする

微調整モデルの利用が完了したら、デプロイとモデルを削除できます。必要に応じて、サービスにアップロードしたトレーニングおよび検証のファイルを削除することもできます。

微調整されたモデルのデプロイを削除する

重要

カスタマイズされたモデルをデプロイした後、デプロイが 15 日を超えて非アクティブのままである場合、デプロイは削除されます。カスタマイズされたモデルのデプロイは、モデルが 15 日以上前にデプロイされ、15 日間連続して完了またはチャット完了の呼び出しが行われなかった場合、"非アクティブ" になります。

非アクティブなデプロイを削除しても、基になるカスタマイズされたモデルは削除されることも影響を受けることもなく、カスタマイズされたモデルはいつでも再デプロイできます。 Azure AI Foundry Models の価格に関する Azure OpenAI で説明されているように、デプロイされるカスタマイズされた (微調整された) 各モデルでは、完了またはチャット完了の呼び出しがモデルに対して行われているかどうかに関係なく、1 時間ごとのホスティングコストが発生します。 Azure OpenAI を使用したコストの計画と管理の詳細については、「Azure OpenAI のコストを管理する計画」のガイダンスを参照してください。

ファインチューニングされたモデルのデプロイは、Azure AI Foundry ポータル内の [デプロイ] ページ上で削除できます。削除するデプロイを選択し、[削除] を選択してデプロイを削除します。

微調整モデルの削除

ファインチューニングされたモデルは、Azure AI Foundry ポータル内の [ファインチューニング] ページ上で削除できます。削除する微調整されたモデルを選択し、[削除] を選択して微調整されたモデルを削除します。

注

既存のデプロイがある場合、微調整されたモデルは削除できません。微調整したモデルを削除する前に、まずモデルデプロイを削除する必要があります。

前提条件

Azure OpenAI の微調整ガイドを使用する場合を参照してください。
Azure サブスクリプション。無料で作成できます。
Azure OpenAI リソース。詳細については、「Azure OpenAI を使用してリソースを作成し、モデルをデプロイする」を参照してください。
次の Python ライブラリ: os、json、requests、openai。
OpenAI Python ライブラリは、バージョン 0.28.1 以上である必要があります。
アクセスの微調整には、Cognitive Services OpenAI 共同作成者が必要です。
Azure AI Foundry ポータル内でクォータを表示する、およびモデルをデプロイするためのアクセスがまだない場合は、追加のアクセス許可が必要になります。

注

REST API は現在、グローバルトレーニングジョブをサポートしていません。 API を使用してグローバルトレーニングジョブを検査すると、正しくない情報が返される場合があります。

サポートされているモデル

現在微調整をサポートしているリージョンを確認するには、モデルに関するページを参照してください。

または、base-model.ft-{jobid} として書式設定された、以前に微調整されたモデルを微調整することもできます。

Python SDK のワークフローを確認する

少し時間を取って、Python SDK と Azure OpenAI を使用するための微調整ワークフローを確認してください。

トレーニングおよび検証用のデータを準備します。
基本モデルを選択します。
トレーニングデータをアップロードします。
新たにカスタマイズしたモデルをトレーニングします。
カスタマイズしたモデルの状態を確認します。
カスタマイズしたモデルをデプロイして使用できるようにします。
カスタマイズしたモデルを使用します。
必要に応じて、カスタマイズしたモデルをパフォーマンスと適合度を分析します。

トレーニングデータと検証データを準備する

トレーニングデータと検証データのセットは、モデルの実行方法に関する入力と出力の例で構成されます。

使用するトレーニングデータと検証データは、JSON Lines (JSONL) ドキュメントとして書式設定する必要があり、チャット入力候補 API で使用される会話形式で書式設定する必要があります。

gpt-4o-mini-2024-07-18 の微調整の詳細な手順については、Azure OpenAI の微調整に関するチュートリアルを参照してください。

ファイル形式の例

{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who discovered Antarctica?"}, {"role": "assistant", "content": "Some chaps named Fabian Gottlieb von Bellingshausen and Mikhail Lazarev, as if they don't teach that in every school!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the biggest ocean?"}, {"role": "assistant", "content": "The Pacific Ocean. It's not like it's a small pond or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest planet?"}, {"role": "assistant", "content": "It's called Jupiter, you might have heard of it...or not."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who painted the Mona Lisa?"}, {"role": "assistant", "content": "Oh, some obscure artist named Leonardo da Vinci. Not that he is famous or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the boiling point of water?"}, {"role": "assistant", "content": "Exciting fact of the day: it's 100 degrees Celsius. Life-changing, isn't it?"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'The Odyssey'?"}, {"role": "assistant", "content": "Oh, just some poet named Homer. Nothing special, really."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest mammal?"}, {"role": "assistant", "content": "Blue Whale. Quite a big fish isn't it? Oh wait, it's not a fish!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the highest mountain peak?"}, {"role": "assistant", "content": "Everest. Brace yourself, it's not a walk in the park."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who invented the telephone?"}, {"role": "assistant", "content": "A guy named Alexander Graham Bell. Bet you didn't guess that one!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the distance from Earth to the Sun?"}, {"role": "assistant", "content": "About 93 million miles. Just a quick drive, really."}]}

マルチターンチャットファイル形式

jsonl トレーニングファイルの 1 行での会話の複数のターンもサポートされています。特定のアシスタントメッセージの微調整をスキップするには、オプションの weight キー値ペアを追加します。現在、weight は 0 または 1 に設定できます。

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already.", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "William Shakespeare", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "384,400 kilometers", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters.", "weight": 1}]}

vision でのチャット補完

{"messages": [{"role": "user", "content": [{"type": "text", "text": "What's in this image?"}, {"type": "image_url", "image_url": {"url": "https://raw.githubusercontent.com/MicrosoftDocs/azure-ai-docs/main/articles/ai-services/openai/media/how-to/generated-seattle.png"}}]}, {"role": "assistant", "content": "The image appears to be a watercolor painting of a city skyline, featuring tall buildings and a recognizable structure often associated with Seattle, like the Space Needle. The artwork uses soft colors and brushstrokes to create a somewhat abstract and artistic representation of the cityscape."}]}

JSONL 形式に加えて、トレーニングおよび検証のデータファイルは UTF-8 でエンコードしてバイトオーダーマーク (BOM) を含める必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

トレーニングおよび検証のデータセットを作成する

トレーニング例が多いほど適切になります。微調整ジョブは、少なくとも 10 個のトレーニング例がないと続行されませんが、このような少数ではモデルの応答に顕著な影響を与えるには不十分です。成功するには、数千ではないにしても数百のトレーニング例を提供することをお勧めします。

一般的に、データセットサイズを 2 倍にすると、モデルの品質を直線的に向上させることができます。ただし、低品質の例はパフォーマンスに悪影響を与える可能性があることに注意してください。大量の内部データでモデルをトレーニングする場合、最初に最高品質の例についてのみデータセットを排除しないと、予想よりもはるかにパフォーマンスの低いモデルになる可能性があります。

トレーニングデータをアップロードする

次の手順では、既存の準備済みトレーニングデータを選択するか、モデルをカスタマイズするときに使用する新しい準備済みトレーニングデータをアップロードします。トレーニングデータを準備したら、ファイルをサービスにアップロードできます。トレーニングデータをアップロードする方法は 2 つあります。

大きなデータファイルの場合は、Azure BLOB ストアからインポートすることをお勧めします。大きなファイルは、マルチパートフォームを介してアップロードすると不安定になる場合があります。要求がアトミックであり、再試行または再開ができないためです。 Azure Blob Storage の詳細については、「Azure Blob Storage とは」を参照してください。

注

トレーニングデータファイルは、JSONL ファイル形式にし、バイトオーダーマーク (BOM) を使用して UTF-8 でエンコードする必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

次の Python の例では、Python SDK を使用してローカルのトレーニングおよび検証ファイルをアップロードし、返されたファイル ID を取得します。

# Upload fine-tuning files

import os
from openai import AzureOpenAI

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-10-21"  # This API version or later is required to access seed/events/checkpoint capabilities
)

training_file_name = 'training_set.jsonl'
validation_file_name = 'validation_set.jsonl'

# Upload the training and validation dataset files to Azure OpenAI with the SDK.

training_response = client.files.create(
    file=open(training_file_name, "rb"), purpose="fine-tune"
)
training_file_id = training_response.id

validation_response = client.files.create(
    file=open(validation_file_name, "rb"), purpose="fine-tune"
)
validation_file_id = validation_response.id

print("Training file ID:", training_file_id)
print("Validation file ID:", validation_file_id)

カスタマイズしたモデルを作成する

トレーニングおよび検証ファイルをアップロードしたら、微調整ジョブを開始する準備が整います。

次の Python コードは、Python SDK を使用して新しい微調整ジョブを作成する方法の例を示しています。

この例では、seed パラメーターも渡しています。シードはジョブの再現性を制御します。同じシードとジョブパラメーターを渡すと同じ結果が得られますが、まれに異なる場合があります。シードが指定されていない場合は生成されます。

response = client.fine_tuning.jobs.create(
    training_file=training_file_id,
    validation_file=validation_file_id,
    model="gpt-4.1-2025-04-14", # Enter base model name. Note that in Azure OpenAI the model name contains dashes and cannot contain dot/period characters.
    seed = 105  # seed parameter controls reproducibility of the fine-tuning job. If no seed is specified one will be generated automatically.
)

job_id = response.id

# You can use the job ID to monitor the status of the fine-tuning job.
# The fine-tuning job will take some time to start and complete.

print("Job ID:", response.id)
print("Status:", response.id)
print(response.model_dump_json(indent=2))

ハイパーパラメーターなどの追加の省略可能なパラメーターを渡して、微調整プロセスをより細かく制御することもできます。初期トレーニングでは、これらのパラメーターを指定せずに、存在する自動既定値を使うことをお勧めします。

現在サポートされている微調整用のハイパーパラメーターは次のとおりです。

名前	タイプ	説明
`batch_size`	整数 (integer)	トレーニングに使用するバッチサイズ。バッチサイズは、単一の順方向および逆方向の合格をトレーニングするために使用するトレーニング例の数です。一般的に、大規模なデータセットでは、バッチサイズが大きいほど適切に機能する傾向があることがわかっています。このプロパティの既定値と最大値は、基本モデルに固有です。バッチサイズが大きいほど、モデルパラメーターの更新頻度は低くなりますが、分散は小さくなります。
`learning_rate_multiplier`	数値	トレーニングに使用する学習率乗数。微調整の学習率は、事前トレーニングに使用された元の学習率にこの値を掛けた値です。学習率が高いほど、大きいバッチサイズでのパフォーマンスが向上する傾向があります。 0.02 から 0.2 の範囲の値を試して、最適な結果が得られるものを確認することをお勧めします。学習率を低くすると、オーバーフィットを避けるのに役立つ場合があります。
`n_epochs`	整数 (integer)	モデルをトレーニングするエポックの数。エポックとは、トレーニングデータセット全体での 1 つの完全なサイクルを指します。
`seed`	整数 (integer)	シードはジョブの再現性を制御します。同じシードとジョブパラメーターを渡すと同じ結果が得られますが、まれに異なる場合があります。シードが指定されていない場合は生成されます。

OpenAI Python API の 1.x バージョンでカスタムハイパーパラメーターを設定するには:

from openai import AzureOpenAI

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-10-21"  # This API version or later is required
)

client.fine_tuning.jobs.create(
  training_file="file-abc123", 
  model="gpt-4.1-2025-04-14", # Enter base model name. Note that in Azure OpenAI the model name contains dashes and cannot contain dot/period characters.
  hyperparameters={
    "n_epochs":2
  }
)

微調整ジョブの状態を確認する

response = client.fine_tuning.jobs.retrieve(job_id)

print("Job ID:", response.id)
print("Status:", response.status)
print(response.model_dump_json(indent=2))

微調整イベントの一覧

トレーニング中に生成された個々の微調整イベントを調べるには、このコマンドを実行するために、 pip install openai --upgrade を使用して OpenAI クライアントライブラリを最新バージョンにアップグレードすることが必要になる場合があります。

response = client.fine_tuning.jobs.list_events(fine_tuning_job_id=job_id, limit=10)
print(response.model_dump_json(indent=2))

チェックポイント

各トレーニングエポックが完了すると、チェックポイントが生成されます。チェックポイントは、完全な機能を持つモデルのバージョンであり、デプロイすることも、後続の微調整ジョブのターゲットモデルとして使用することもできます。チェックポイントは、オーバーフィットの前にスナップショットを提供する可能性があるため、特に便利です。微調整が完了すると、3 つの最新バージョンのモデルをデプロイできるようになります。最後のエポックは微調整されたモデルで表され、前の 2 つのエポックはチェックポイントとして利用できます。

list checkpoints コマンドを実行して、個々の微調整ジョブに関連付けられているチェックポイントのリストを取得できます。このコマンドを実行するには、pip install openai --upgrade を使用して OpenAI クライアントライブラリを最新バージョンにアップグレードする必要がある場合があります。

response = client.fine_tuning.jobs.checkpoints.list(job_id)
print(response.model_dump_json(indent=2))

カスタマイズしたモデルを分析する

Azure OpenAI では、各微調整ジョブが完了すると、results.csv という名前の結果ファイルが添付されます。この結果ファイルを使用して、カスタマイズしたモデルのトレーニングと検証のパフォーマンスを分析できます。カスタマイズしたモデルごとに結果ファイルのファイル ID が一覧表示され、Python SDK を使用してファイル ID を取得し、分析するために結果ファイルをダウンロードできます。

次の Python の例では、カスタマイズしたモデルの微調整ジョブにアタッチされた最初の結果ファイルのファイル ID を取得し、Python SDK を使用して、分析のために現在の作業ディレクトリにファイルをダウンロードします。

# Retrieve the file ID of the first result file from the fine-tuning job
# for the customized model.
response = client.fine_tuning.jobs.retrieve(job_id)
if response.status == 'succeeded':
    result_file_id = response.result_files[0]

retrieve = client.files.retrieve(result_file_id)

# Download the result file.
print(f'Downloading result file: {result_file_id}')

with open(retrieve.filename, "wb") as file:
    result = client.files.content(result_file_id).read()
    file.write(result)

結果ファイルは、ヘッダー行と、微調整ジョブによって実行される各トレーニングステップの行が含まれる CSV ファイルです。この結果ファイルには、次の列が含まれています。

列名	説明
`step`	トレーニングステップの数。トレーニングステップは、トレーニングデータのバッチに対する前方と後方の 1 回のパスを表します。
`train_loss`	トレーニングバッチの損失。
`train_mean_token_accuracy`	モデルによって正しく予測されたトレーニングバッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`valid_loss`	検証バッチの損失。
`validation_mean_token_accuracy`	モデルによって正しく予測された検証バッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`full_valid_loss`	各エポックの終了時に計算される検証損失。トレーニングがうまくいった場合は、損失は減少します。
`full_valid_mean_token_accuracy`	各エポックの終了時に計算された有効平均トークン精度。トレーニングがうまくいった場合は、トークンの精度が向上します。

Azure AI Foundry ポータル内で、results.csv ファイル内のデータをプロットとして表示することもできます。トレーニング済みのモデルのリンクを選択すると、損失、平均トークンの精度、トークンの精度の 3 つのグラフが表示されます。検証データを指定した場合、両方のデータセットが同じプロットに表示されます。

時間の経過と同時に減少する損失を探し、精度を向上させます。トレーニングデータと検証データの間に相違がある場合は、オーバーフィットしていることを示している可能性があります。エポックが少ない、または学習率の乗数が小さいトレーニングを試してみてください。

微調整されたモデルをデプロイする

微調整ジョブのメトリックに満足できたら、または推論に移行するだけの場合は、モデルをデプロイする必要があります。

さらなる検証のためにデプロイする場合は、Developer デプロイを使用したテスト用のデプロイを検討してください。

前の SDK コマンドとは異なり、個別の認可、異なる API パス、および異なる API バージョンを必要とするコントロールプレーン API を使用してデプロイを行う必要があります。

変数	定義
トークン	認証トークンを生成するには、複数の方法があります。初期テストの最も簡単な方法は、Azure portal から Cloud Shell を起動することです。次に、`az account get-access-token` を実行します。このトークンは、API テストの一時的な認証トークンとして使用できます。これを新しい環境変数に格納することをお勧めします。
サブスクリプション	関連付けられている Azure OpenAI リソースのサブスクリプション ID。
リソースグループ	Azure OpenAI リソースのリソースグループ名。
リソース名	Azure OpenAI リソース名。
モデルデプロイメント名	微調整された新しいモデルデプロイのカスタム名。これは、チャット入力候補の呼び出しを行うときにコードで参照される名前です。
ファインチューニングされたモデル（fine_tuned_model）	この値は、前の手順の微調整ジョブの結果から取得します。これは `gpt-4.1-2025-04-14.ft-b044a9d3cf9c4228b5d393567f693b83` のようになります。その値を deploy_data json に追加する必要があります。また、`ftchkpt-e559c011ecc04fc68eaa339d8227d02d` 形式で表示されるチェックポイント ID を渡すことで、チェックポイントをデプロイすることもできます。

import json
import os
import requests

token= os.getenv("<TOKEN>") 
subscription = "<YOUR_SUBSCRIPTION_ID>"  
resource_group = "<YOUR_RESOURCE_GROUP_NAME>"
resource_name = "<YOUR_AZURE_OPENAI_RESOURCE_NAME>"
model_deployment_name ="gpt-41-ft" # custom deployment name that you will use to reference the model when making inference calls.

deploy_params = {'api-version': "2024-10-01"} # control plane API version rather than dataplane API for this call 
deploy_headers = {'Authorization': 'Bearer {}'.format(token), 'Content-Type': 'application/json'}

deploy_data = {
    "sku": {"name": "standard", "capacity": 1}, 
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": <"fine_tuned_model">, #retrieve this value from the previous call, it will look like gpt-4.1-2025-04-14.ft-b044a9d3cf9c4228b5d393567f693b83
            "version": "1"
        }
    }
}
deploy_data = json.dumps(deploy_data)

request_url = f'https://management.azure.com/subscriptions/{subscription}/resourceGroups/{resource_group}/providers/Microsoft.CognitiveServices/accounts/{resource_name}/deployments/{model_deployment_name}'

print('Creating a new deployment...')

r = requests.put(request_url, params=deploy_params, headers=deploy_headers, data=deploy_data)

print(r)
print(r.reason)
print(r.json())

リージョン間デプロイの詳細を確認し、デプロイされたモデルを使用します。

運用環境にデプロイする準備ができている場合、または特定のデータ所在地のニーズがある場合は、デプロイガイドに従ってください。

継続的な微調整

微調整されたモデルを作成したら、さらに微調整を行い時間をかけてモデルを改良し続けることができます。継続的な微調整は、既に微調整されたモデルを基本モデルとして選び、新しいトレーニングサンプルのセットでさらに微調整する反復プロセスです。

以前に微調整したモデルに対して微調整を実行するには、カスタマイズされたモデルを作成するに関するセクションで説明したのと同じプロセスを使いますが、汎用基本モデルの名前を指定する代わりに、既に微調整されたモデルの ID を指定します。微調整されたモデル ID は gpt-4.1-2025-04-14.ft-5fd1918ee65d4cd38a5dcf6835066ed7 のようになります

from openai import AzureOpenAI

client = AzureOpenAI(
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
  api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
  api_version="2024-10-21"  
)

response = client.fine_tuning.jobs.create(
    training_file=training_file_id,
    validation_file=validation_file_id,
    model="gpt-4.1-2025-04-14.ft-5fd1918ee65d4cd38a5dcf6835066ed7"
)

job_id = response.id

# You can use the job ID to monitor the status of the fine-tuning job.
# The fine-tuning job will take some time to start and complete.

print("Job ID:", response.id)
print("Status:", response.id)
print(response.model_dump_json(indent=2))

また、微調整モデルの異なるイテレーションを区別しやすくするために、suffix パラメーターを含めることをお勧めします。 suffix は文字列を受け取り、微調整されたモデルを特定するように設定されます。 OpenAI Python API では、微調整されたモデル名に追加される最大 18 文字の文字列がサポートされています。

既存のファインチューニングされたモデルの ID が不明な場合は、Azure AI Foundry の [モデル] ページの中でこの情報を確認できます。または REST API を使用して、特定の Azure OpenAI リソースのモデルの一覧を生成できます。

デプロイ、カスタマイズしたモデル、トレーニングファイルをクリーンアップする

カスタマイズしたモデルの利用が完了したら、デプロイとモデルを削除できます。必要に応じて、サービスにアップロードしたトレーニングおよび検証のファイルを削除することもできます。

モデルデプロイの削除

重要

カスタマイズされたモデルをデプロイした後、デプロイが 15 日を超えて非アクティブのままである場合、デプロイは削除されます。カスタマイズされたモデルのデプロイは、モデルが 15 日以上前にデプロイされ、15 日間連続して完了またはチャット完了の呼び出しが行われなかった場合、"非アクティブ" になります。

非アクティブなデプロイを削除しても、基になるカスタマイズされたモデルは削除されることも影響を受けることもなく、カスタマイズされたモデルはいつでも再デプロイできます。 Azure AI Foundry Models の価格に関する Azure OpenAI で説明されているように、デプロイされるカスタマイズされた (微調整された) 各モデルでは、完了またはチャット完了の呼び出しがモデルに対して行われているかどうかに関係なく、1 時間ごとのホスティングコストが発生します。 Azure OpenAI を使用したコストの計画と管理の詳細については、「Azure OpenAI のコストを管理する計画」のガイダンスを参照してください。

さまざまな方法を使用して、カスタマイズしたモデルのデプロイを削除できます。

カスタマイズしたモデルの削除

同様に、さまざまな方法を使用して、カスタマイズしたモデルを削除できます。

Azure AI Foundry

注

既存のデプロイがある場合は、カスタマイズしたモデルを削除できません。カスタマイズしたモデルを削除する前に、まずモデルデプロイを削除する必要があります。

トレーニングファイルの削除

必要に応じて、トレーニング用にアップロードしたトレーニングおよび検証のファイル、およびトレーニング中に生成された結果ファイルを、Azure OpenAI サブスクリプションから削除できます。次の方法を使用して、トレーニング、検証、および結果のファイルを削除できます。

次の Python の例では、Python SDK を使用して、カスタマイズしたモデルのトレーニング、検証、および結果のファイルを削除します。

print('Checking for existing uploaded files.')
results = []

# Get the complete list of uploaded files in our subscription.
files = openai.File.list().data
print(f'Found {len(files)} total uploaded files in the subscription.')

# Enumerate all uploaded files, extracting the file IDs for the
# files with file names that match your training dataset file and
# validation dataset file names.
for item in files:
    if item["filename"] in [training_file_name, validation_file_name, result_file_name]:
        results.append(item["id"])
print(f'Found {len(results)} already uploaded files that match our files')

# Enumerate the file IDs for our files and delete each file.
print(f'Deleting already uploaded files.')
for id in results:
    openai.File.delete(sid = id)

前提条件

Azure OpenAI の微調整ガイドを使用する場合を参照してください。
Azure サブスクリプション。無料で作成できます。
Azure OpenAI リソース。詳細については、「Azure OpenAI を使用してリソースを作成し、モデルをデプロイする」を参照してください。
アクセスの微調整には、Cognitive Services OpenAI 共同作成者が必要です。
Azure AI Foundry ポータル内でクォータを表示する、およびモデルをデプロイするためのアクセスがまだない場合は、追加のアクセス許可が必要になります。

注

REST API は現在、グローバルトレーニングジョブをサポートしていません。 API を使用してグローバルトレーニングジョブを検査すると、正しくない情報が返される場合があります。

サポートされているモデル

現在微調整をサポートしているリージョンを確認するには、モデルに関するページを参照してください。

または、base-model.ft-{jobid} として書式設定された、以前に微調整されたモデルを微調整することもできます。

REST API のワークフローを確認する

少し時間を取って、REST API および Python と Azure OpenAI を使用するための微調整ワークフローを確認してください。

トレーニングおよび検証用のデータを準備します。
基本モデルを選択します。
トレーニングデータをアップロードします。
新たにカスタマイズしたモデルをトレーニングします。
カスタマイズしたモデルの状態を確認します。
カスタマイズしたモデルをデプロイして使用できるようにします。
カスタマイズしたモデルを使用します。
必要に応じて、カスタマイズしたモデルをパフォーマンスと適合度を分析します。

トレーニングデータと検証データを準備する

トレーニングデータと検証データのセットは、モデルの実行方法に関する入力と出力の例で構成されます。

使用するトレーニングデータと検証データは、JSON Lines (JSONL) ドキュメントとして書式設定する必要があり、チャット入力候補 API で使用される会話形式で書式設定する必要があります。

gpt-4o-mini-2024-07-18 の微調整の詳細な手順については、Azure OpenAI の微調整に関するチュートリアルを参照してください。

ファイル形式の例

{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who discovered Antarctica?"}, {"role": "assistant", "content": "Some chaps named Fabian Gottlieb von Bellingshausen and Mikhail Lazarev, as if they don't teach that in every school!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the biggest ocean?"}, {"role": "assistant", "content": "The Pacific Ocean. It's not like it's a small pond or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest planet?"}, {"role": "assistant", "content": "It's called Jupiter, you might have heard of it...or not."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who painted the Mona Lisa?"}, {"role": "assistant", "content": "Oh, some obscure artist named Leonardo da Vinci. Not that he is famous or anything."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the boiling point of water?"}, {"role": "assistant", "content": "Exciting fact of the day: it's 100 degrees Celsius. Life-changing, isn't it?"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'The Odyssey'?"}, {"role": "assistant", "content": "Oh, just some poet named Homer. Nothing special, really."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the largest mammal?"}, {"role": "assistant", "content": "Blue Whale. Quite a big fish isn't it? Oh wait, it's not a fish!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the highest mountain peak?"}, {"role": "assistant", "content": "Everest. Brace yourself, it's not a walk in the park."}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who invented the telephone?"}, {"role": "assistant", "content": "A guy named Alexander Graham Bell. Bet you didn't guess that one!"}]}
{"messages": [{"role": "system", "content": "Clippy is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What is the distance from Earth to the Sun?"}, {"role": "assistant", "content": "About 93 million miles. Just a quick drive, really."}]}

マルチターンチャットファイル形式

jsonl トレーニングファイルの 1 行での会話の複数のターンもサポートされています。特定のアシスタントメッセージの微調整をスキップするには、オプションの weight キー値ペアを追加します。現在、weight は 0 または 1 に設定できます。

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already.", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "William Shakespeare", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?", "weight": 1}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "384,400 kilometers", "weight": 0}, {"role": "user", "content": "Can you be more sarcastic?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters.", "weight": 1}]}

vision でのチャット補完

{"messages": [{"role": "user", "content": [{"type": "text", "text": "What's in this image?"}, {"type": "image_url", "image_url": {"url": "https://raw.githubusercontent.com/MicrosoftDocs/azure-ai-docs/main/articles/ai-services/openai/media/how-to/generated-seattle.png"}}]}, {"role": "assistant", "content": "The image appears to be a watercolor painting of a city skyline, featuring tall buildings and a recognizable structure often associated with Seattle, like the Space Needle. The artwork uses soft colors and brushstrokes to create a somewhat abstract and artistic representation of the cityscape."}]}

JSONL 形式に加えて、トレーニングおよび検証のデータファイルは UTF-8 でエンコードしてバイトオーダーマーク (BOM) を含める必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

トレーニングおよび検証のデータセットを作成する

トレーニング例が多いほど適切になります。微調整ジョブは、少なくとも 10 個のトレーニング例がないと続行されませんが、このような少数ではモデルの応答に顕著な影響を与えるには不十分です。成功するには、数千ではないにしても数百のトレーニング例を提供することをお勧めします。

一般的に、データセットサイズを 2 倍にすると、モデルの品質を直線的に向上させることができます。ただし、低品質の例はパフォーマンスに悪影響を与える可能性があることに注意してください。大量の内部データでモデルをトレーニングする場合、最初に最高品質の例のみになるようにデータセットを取り除かないと、予想よりもはるかにパフォーマンスの低いモデルになる可能性があります。

トレーニングデータをアップロードする

次の手順では、既存の準備済みトレーニングデータを選択するか、新しい準備済みトレーニングデータをアップロードして、モデルを微調整するときに使用します。トレーニングデータを準備したら、ファイルをサービスにアップロードできます。トレーニングデータをアップロードする方法は 2 つあります。

大きなデータファイルの場合は、Azure BLOB ストアからインポートすることをお勧めします。大きなファイルは、マルチパートフォームを介してアップロードすると不安定になる場合があります。要求がアトミックであり、再試行または再開ができないためです。 Azure Blob Storage の詳細については、「Azure Blob Storage とは」を参照してください。

注

トレーニングデータファイルは、JSONL ファイル形式にし、バイトオーダーマーク (BOM) を使用して UTF-8 でエンコードする必要があります。ファイルは、512 MB 未満のサイズにする必要があります。

トレーニングデータのアップロード

curl -X POST $AZURE_OPENAI_ENDPOINT/openai/files?api-version=2023-12-01-preview \
  -H "Content-Type: multipart/form-data" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -F "purpose=fine-tune" \
  -F "file=@C:\\fine-tuning\\training_set.jsonl;type=application/json"

検証データのアップロード

curl -X POST $AZURE_OPENAI_ENDPOINT/openai/files?api-version=2023-12-01-preview \
  -H "Content-Type: multipart/form-data" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -F "purpose=fine-tune" \
  -F "file=@C:\\fine-tuning\\validation_set.jsonl;type=application/json"

カスタマイズしたモデルを作成する

トレーニングおよび検証ファイルをアップロードしたら、微調整ジョブを開始する準備が整います。次のコードは、REST API を使って新しい微調整ジョブを作成する方法の例を示しています。

この例では、seed パラメーターも渡しています。シードはジョブの再現性を制御します。同じシードとジョブパラメーターを渡すと同じ結果が得られますが、まれに異なる場合があります。シードが指定されていない場合は生成されます。

curl -X POST $AZURE_OPENAI_ENDPOINT/openai/fine_tuning/jobs?api-version=2024-10-21 \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -d '{
    "model": "gpt-4.1-2025-04-14",
    "training_file": "<TRAINING_FILE_ID>", 
    "validation_file": "<VALIDATION_FILE_ID>",
    "seed": 105
}'

ハイパーパラメーターなどの追加の省略可能なパラメーターを渡して、微調整プロセスをより細かく制御することもできます。初期トレーニングでは、これらのパラメーターを指定せずに、存在する自動既定値を使うことをお勧めします。

現在サポートされている微調整用のハイパーパラメーターは次のとおりです。

名前	タイプ	説明
`batch_size`	整数 (integer)	トレーニングに使用するバッチサイズ。バッチサイズは、単一の順方向および逆方向の合格をトレーニングするために使用するトレーニング例の数です。一般的に、大規模なデータセットでは、バッチサイズが大きいほど適切に機能する傾向があることがわかっています。このプロパティの既定値と最大値は、基本モデルに固有です。バッチサイズが大きいほど、モデルパラメーターの更新頻度は低くなりますが、分散は小さくなります。
`learning_rate_multiplier`	数値	トレーニングに使用する学習率乗数。微調整の学習率は、事前トレーニングに使用された元の学習率にこの値を掛けた値です。学習率が高いほど、大きいバッチサイズでのパフォーマンスが向上する傾向があります。 0.02 から 0.2 の範囲の値を試して、最適な結果が得られるものを確認することをお勧めします。学習率を低くすると、オーバーフィットを避けるのに役立つ場合があります。
`n_epochs`	整数 (integer)	モデルをトレーニングするエポックの数。エポックとは、トレーニングデータセット全体での 1 つの完全なサイクルを指します。
`seed`	整数 (integer)	シードはジョブの再現性を制御します。同じシードとジョブパラメーターを渡すと同じ結果が得られますが、まれに異なる場合があります。シードが指定されていない場合は生成されます。

カスタマイズしたモデルの状態を確認する

微調整ジョブを開始した後、完了するまでに時間がかかる場合があります。ジョブは、システム内の他のジョブの後にキューに入れられる場合があります。モデルのトレーニングには、モデルおよびデータセットのサイズに応じて、数分または数時間かかる場合があります。次の例では、REST API を使用して、微調整ジョブの状態を確認します。この例では、前の例で返されたジョブ ID を使用して、ジョブに関する情報を取得します。

curl -X GET $AZURE_OPENAI_ENDPOINT/openai/fine_tuning/jobs/<YOUR-JOB-ID>?api-version=2024-10-21 \
  -H "api-key: $AZURE_OPENAI_API_KEY"

微調整イベントの一覧

トレーニング中に生成された個々の微調整イベントを調べるには、次の操作を行います。

curl -X POST $AZURE_OPENAI_ENDPOINT/openai/fine_tuning/jobs/{fine_tuning_job_id}/events?api-version=2024-10-21 \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY"

チェックポイント

各トレーニングエポックが完了すると、チェックポイントが生成されます。チェックポイントは、完全な機能を持つモデルのバージョンであり、デプロイすることも、後続の微調整ジョブのターゲットモデルとして使用することもできます。チェックポイントは、オーバーフィットの前にスナップショットを提供する可能性があるため、特に便利です。微調整が完了すると、3 つの最新バージョンのモデルをデプロイできるようになります。最後のエポックは微調整されたモデルで表され、前の 2 つのエポックはチェックポイントとして利用できます。

個々の微調整ジョブに関連付けられたチェックポイントの一覧を取得するために、list checkpoints コマンドを実行できます。

curl -X POST $AZURE_OPENAI_ENDPOINT/openai/fine_tuning/jobs/{fine_tuning_job_id}/checkpoints?api-version=2024-10-21 \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY"

カスタマイズしたモデルを分析する

Azure OpenAI では、各微調整ジョブが完了すると、results.csv という名前の結果ファイルが添付されます。この結果ファイルを使用して、カスタマイズしたモデルのトレーニングと検証のパフォーマンスを分析できます。カスタマイズしたモデルごとに結果ファイルのファイル ID が一覧表示され、REST API を使用してファイル ID を取得し、分析するために結果ファイルをダウンロードできます。

次の Python の例では、REST API を使ってカスタマイズしたモデルの微調整ジョブに添付された最初の結果ファイルのファイル ID を取得し、分析するために作業ディレクトリにファイルをダウンロードします。

curl -X GET "$AZURE_OPENAI_ENDPOINT/openai/fine_tuning/jobs/<JOB_ID>?api-version=2023-12-01-preview" \
  -H "api-key: $AZURE_OPENAI_API_KEY")

curl -X GET "$AZURE_OPENAI_ENDPOINT/openai/files/<RESULT_FILE_ID>/content?api-version=2023-12-01-preview" \
    -H "api-key: $AZURE_OPENAI_API_KEY" > <RESULT_FILENAME>

結果ファイルは、ヘッダー行と、微調整ジョブによって実行される各トレーニングステップの行が含まれる CSV ファイルです。この結果ファイルには、次の列が含まれています。

列名	説明
`step`	トレーニングステップの数。トレーニングステップは、トレーニングデータのバッチに対する前方と後方の 1 回のパスを表します。
`train_loss`	トレーニングバッチの損失。
`train_mean_token_accuracy`	モデルによって正しく予測されたトレーニングバッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`valid_loss`	検証バッチの損失。
`validation_mean_token_accuracy`	モデルによって正しく予測された検証バッチ内のトークンの割合。たとえば、バッチサイズが 3 に設定されていて、データに候補 `[[1, 2], [0, 5], [4, 2]]` が含まれており、モデルが `[[1, 1], [0, 5], [4, 2]]` を予測した場合、この値は 0.83 (5/6) に設定されます。
`full_valid_loss`	各エポックの終了時に計算される検証損失。トレーニングがうまくいった場合は、損失は減少します。
`full_valid_mean_token_accuracy`	各エポックの終了時に計算された有効平均トークン精度。トレーニングがうまくいった場合は、トークンの精度が向上します。

Azure AI Foundry ポータル内で、results.csv ファイル内のデータをプロットとして表示することもできます。トレーニング済みのモデルのリンクを選択すると、損失、平均トークンの精度、トークンの精度の 3 つのグラフが表示されます。検証データを指定した場合、両方のデータセットが同じプロットに表示されます。

時間の経過と同時に減少する損失を探し、精度を向上させます。トレーニングデータと検証データの間に相違がある場合は、オーバーフィットしていることを示している可能性があります。エポックが少ない、または学習率の乗数が小さいトレーニングを試してみてください。

微調整されたモデルをデプロイする

微調整ジョブのメトリックに満足できたら、または推論に移行するだけの場合は、モデルをデプロイする必要があります。

さらなる検証のためにデプロイする場合は、Developer デプロイを使用したテスト用のデプロイを検討してください。

運用環境にデプロイする準備ができている場合、または特定のデータ所在地のニーズがある場合は、デプロイガイドに従ってください。

変数	定義
トークン	認証トークンを生成するには、複数の方法があります。初期テストの最も簡単な方法は、Azure portal から Cloud Shell を起動することです。次に、`az account get-access-token` を実行します。このトークンは、API テストの一時的な認証トークンとして使用できます。これを新しい環境変数に格納することをお勧めします。
サブスクリプション	関連付けられている Azure OpenAI リソースのサブスクリプション ID。
リソースグループ	Azure OpenAI リソースのリソースグループ名。
リソース名	Azure OpenAI リソース名。
モデルデプロイメント名	微調整された新しいモデルデプロイのカスタム名。これは、チャット入力候補の呼び出しを行うときにコードで参照される名前です。
ファインチューニングされたモデル（fine_tuned_model）	この値は、前の手順の微調整ジョブの結果から取得します。これは `gpt-4.1-2025-04-14.ft-b044a9d3cf9c4228b5d393567f693b83` のようになります。その値を deploy_data json に追加する必要があります。また、`ftchkpt-e559c011ecc04fc68eaa339d8227d02d` 形式で表示されるチェックポイント ID を渡すことで、チェックポイントをデプロイすることもできます。

curl -X POST "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "sku": {"name": "standard", "capacity": 1},
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "<FINE_TUNED_MODEL>",
            "version": "1"
        }
    }
}'

リージョン間デプロイの詳細を確認し、デプロイされたモデルを使用します。

継続的な微調整

微調整されたモデルを作成したら、さらに微調整を行い時間をかけてモデルを改良し続けることができます。継続的な微調整は、既に微調整されたモデルを基本モデルとして選び、新しいトレーニングサンプルのセットでさらに微調整する反復プロセスです。

以前に微調整したモデルに対して微調整を実行するには、カスタマイズされたモデルを作成するに関するセクションで説明したのと同じプロセスを使いますが、汎用基本モデルの名前を指定する代わりに、既に微調整されたモデルの ID を指定します。微調整されたモデル ID は gpt-4.1-2025-04-14.ft-5fd1918ee65d4cd38a5dcf6835066ed7 のようになります

curl -X POST $AZURE_OPENAI_ENDPOINT/openai/fine_tuning/jobs?api-version=2023-12-01-preview \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -d '{
    "model": "gpt-4.1-2025-04-14.ft-5fd1918ee65d4cd38a5dcf6835066ed7",
    "training_file": "<TRAINING_FILE_ID>",
    "validation_file": "<VALIDATION_FILE_ID>",
    "suffix": "<additional text used to help identify fine-tuned models>"
}'

また、微調整モデルの異なるイテレーションを区別しやすくするために、suffix パラメーターを含めることをお勧めします。 suffix は文字列を受け取り、微調整されたモデルを特定するように設定されます。サフィックスには最大 40 文字 (a-z、A-Z、0-9、-、_) を指定することができ、微調整したモデル名に追加されます。

ファインチューニングされたモデルの ID が不明な場合は、Azure AI Foundry の [モデル] ページの中でこの情報を確認できます。または REST API を使用して、特定の Azure OpenAI リソースのモデルの一覧を生成できます。

デプロイ、カスタマイズしたモデル、トレーニングファイルをクリーンアップする

カスタマイズしたモデルの利用が完了したら、デプロイとモデルを削除できます。必要に応じて、サービスにアップロードしたトレーニングおよび検証のファイルを削除することもできます。

モデルデプロイの削除

さまざまな方法を使用して、カスタマイズしたモデルのデプロイを削除できます。

カスタマイズしたモデルの削除

同様に、さまざまな方法を使用して、カスタマイズしたモデルを削除できます。

Azure AI Foundry

注

既存のデプロイがある場合は、カスタマイズしたモデルを削除できません。カスタマイズしたモデルを削除する前に、まずモデルデプロイを削除する必要があります。

トレーニングファイルの削除

必要に応じて、トレーニング用にアップロードしたトレーニングおよび検証のファイル、およびトレーニング中に生成された結果ファイルを、Azure OpenAI サブスクリプションから削除できます。次の方法を使用して、トレーニング、検証、および結果のファイルを削除できます。

Azure AI Foundry

次の方法で共有

微調整でモデルをカスタマイズする

前提条件

サポートされているモデル

Azure AI Foundry ポータルのワークフローを確認する

トレーニング データと検証データを準備する

ファイル形式の例

マルチターン チャット ファイル形式 Azure OpenAI

vision でのチャット補完

データセットのサイズに関する考慮事項

微調整されたモデルの作成

トレーニング方法を選択する

トレーニングの種類を選択します

トレーニング データを選択する

検証データを選択する (省略可能)

モデルを識別可能にする (省略可能)

トレーニング パラメーターを構成する (省略可能)

自動デプロイを有効にする (省略可能)

選択内容をレビューしてモデルをトレーニングする

カスタム モデルの状態を確認する

チェックポイント

カスタム モデルを分析する

微調整されたモデルをデプロイする

デプロイ済みの微調整されたモデルを使用する

継続的な微調整

デプロイ、カスタム モデル、トレーニング ファイルをクリーンアップする

モデル デプロイの削除

カスタム モデルを削除する

トレーニング ファイルの削除

前提条件

サポートされているモデル

Python SDK のワークフローを確認する

トレーニング データと検証データを準備する

ファイル形式の例

マルチターン チャット ファイル形式

vision でのチャット補完

トレーニングおよび検証のデータセットを作成する

トレーニング データをアップロードする

カスタマイズしたモデルを作成する

微調整ジョブの状態を確認する

微調整イベントの一覧

チェックポイント

カスタマイズしたモデルを分析する

微調整されたモデルをデプロイする

継続的な微調整

デプロイ、カスタマイズしたモデル、トレーニング ファイルをクリーンアップする

モデル デプロイの削除

カスタマイズしたモデルの削除

トレーニング ファイルの削除

前提条件

サポートされているモデル

REST API のワークフローを確認する

トレーニング データと検証データを準備する

ファイル形式の例

マルチターン チャット ファイル形式

vision でのチャット補完

トレーニングおよび検証のデータセットを作成する

トレーニング データをアップロードする

トレーニング データのアップロード

検証データのアップロード

カスタマイズしたモデルを作成する

カスタマイズしたモデルの状態を確認する

微調整イベントの一覧

チェックポイント

カスタマイズしたモデルを分析する

微調整されたモデルをデプロイする

継続的な微調整

デプロイ、カスタマイズしたモデル、トレーニング ファイルをクリーンアップする

モデル デプロイの削除

カスタマイズしたモデルの削除

トレーニング ファイルの削除

次のステップ

フィードバック

その他のリソース

トレーニングデータと検証データを準備する

マルチターンチャットファイル形式 Azure OpenAI

トレーニングデータを選択する

トレーニングパラメーターを構成する (省略可能)

カスタムモデルの状態を確認する

カスタムモデルを分析する

デプロイ、カスタムモデル、トレーニングファイルをクリーンアップする

モデルデプロイの削除

カスタムモデルを削除する

トレーニングファイルの削除

トレーニングデータと検証データを準備する

マルチターンチャットファイル形式

トレーニングデータをアップロードする

デプロイ、カスタマイズしたモデル、トレーニングファイルをクリーンアップする

モデルデプロイの削除

トレーニングファイルの削除

トレーニングデータと検証データを準備する

マルチターンチャットファイル形式

トレーニングデータをアップロードする

トレーニングデータのアップロード

デプロイ、カスタマイズしたモデル、トレーニングファイルをクリーンアップする

モデルデプロイの削除

トレーニングファイルの削除