Secure Shell (SSH) 接続から HDInsight に MapReduce ジョブを送信する方法について説明します。
注
Linux ベースの Apache Hadoop サーバーの使用に慣れているが、HDInsight を初めて使用する場合は、 Linux ベースの HDInsight のヒントを参照してください。
前提条件
HDInsight の Apache Hadoop クラスター。 Azure portal を使用した Apache Hadoop クラスターの作成に関するページを参照してください。
Hadoop コマンドを使用する
ssh コマンドを使用してクラスターに接続します。 次のコマンドを編集して CLUSTERNAME をクラスターの名前に置き換えてから、そのコマンドを入力します。
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
HDInsight クラスターに接続したら、次のコマンドを使用して MapReduce ジョブを開始します。
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
このコマンドは、
hadoop-mapreduce-examples.jar
ファイルに含まれるwordcount
クラスを開始します。/example/data/gutenberg/davinci.txt
ドキュメントを入力として使用し、出力は/example/data/WordCountOutput
に格納されます。注
この MapReduce ジョブとサンプル データの詳細については、 HDInsight 上の Apache Hadoop での MapReduce の使用に関する記事を参照してください。
ジョブは処理時に詳細を出力し、ジョブの完了時に次のテキストのような情報を返します。
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
ジョブが完了したら、次のコマンドを使用して出力ファイルを一覧表示します。
hdfs dfs -ls /example/data/WordCountOutput
このコマンドは、
_SUCCESS
とpart-r-00000
の 2 つのファイルを表示します。part-r-00000
ファイルには、このジョブの出力が含まれています。注
一部の MapReduce ジョブでは、結果が複数の part-r-##### ファイルに分割される場合があります。 その場合は、##### サフィックスを使用して、ファイルの順序を示します。
出力を表示するには、次のコマンドを使用します。
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
このコマンドは、 wasbs://example/data/gutenberg/davinci.txt ファイルに含まれている単語の一覧と、各単語が発生した回数を表示します。 次のテキストは、ファイルに含まれるデータの例です。
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
次のステップ
ご覧のように、Hadoop コマンドを使用すると、HDInsight クラスターで MapReduce ジョブを実行し、ジョブの出力を表示する簡単な方法が提供されます。 HDInsight での Hadoop のその他の使用方法に関する情報