次の方法で共有


SSH を使用した HDInsight での Apache Hadoop での MapReduce の使用

Secure Shell (SSH) 接続から HDInsight に MapReduce ジョブを送信する方法について説明します。

Linux ベースの Apache Hadoop サーバーの使用に慣れているが、HDInsight を初めて使用する場合は、 Linux ベースの HDInsight のヒントを参照してください。

前提条件

HDInsight の Apache Hadoop クラスター。 Azure portal を使用した Apache Hadoop クラスターの作成に関するページを参照してください。

Hadoop コマンドを使用する

  1. ssh コマンドを使用してクラスターに接続します。 次のコマンドを編集して CLUSTERNAME をクラスターの名前に置き換えてから、そのコマンドを入力します。

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. HDInsight クラスターに接続したら、次のコマンドを使用して MapReduce ジョブを開始します。

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    このコマンドは、hadoop-mapreduce-examples.jar ファイルに含まれるwordcount クラスを開始します。 /example/data/gutenberg/davinci.txtドキュメントを入力として使用し、出力は/example/data/WordCountOutputに格納されます。

    この MapReduce ジョブとサンプル データの詳細については、 HDInsight 上の Apache Hadoop での MapReduce の使用に関する記事を参照してください。

    ジョブは処理時に詳細を出力し、ジョブの完了時に次のテキストのような情報を返します。

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. ジョブが完了したら、次のコマンドを使用して出力ファイルを一覧表示します。

    hdfs dfs -ls /example/data/WordCountOutput
    

    このコマンドは、 _SUCCESSpart-r-00000の 2 つのファイルを表示します。 part-r-00000 ファイルには、このジョブの出力が含まれています。

    一部の MapReduce ジョブでは、結果が複数の part-r-##### ファイルに分割される場合があります。 その場合は、##### サフィックスを使用して、ファイルの順序を示します。

  4. 出力を表示するには、次のコマンドを使用します。

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    このコマンドは、 wasbs://example/data/gutenberg/davinci.txt ファイルに含まれている単語の一覧と、各単語が発生した回数を表示します。 次のテキストは、ファイルに含まれるデータの例です。

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

次のステップ

ご覧のように、Hadoop コマンドを使用すると、HDInsight クラスターで MapReduce ジョブを実行し、ジョブの出力を表示する簡単な方法が提供されます。 HDInsight での Hadoop のその他の使用方法に関する情報