Windows系エンジニアのためのElastic Map Reduce 3

AmazonでEMRを起動する
まずはEMRで使用するKeyPairを作成します。既に作ってある人は、それを流用してもかまいません。AWSマネジメントコンソールにログインし、EC2のコンソールを開いたら、左側のメニューからKey Pairsを選択します。Create Key Pairをクリックしてダイアログが表示されたら、Key Pair Nameを入力してYesをクリックします。自動的に鍵のダウンロードが始まるので、ダウンロードされたファイルを保管します。
続いてEMRのインスタンスを起動します。AWSマネジメントコンソールのElastic Map Reduceを選択し、Create clusterボタンをクリックして下さい。
Cluster ConfigurationのCluster Nameには適当に識別可能な名称を設定します。Loggingはチェックを外して下さい。
Software Configurationは初期設定のままでかまいません。Hadoop distributionはAmazonにチェックを、AMI Versionは初期設定で2.4.2になっているので、そのままにします。Applications to be installedにも初期設定でHiveとPigが含まれているはずです。
Hardware Configurationには若干のHadoopについての知識が必要です。NetworkとEC2 availability zoneは初期設定のまま、EC2 ClassicとNo preferenceにします。問題となるのはEC2 instance typeでHadoopを構成する仮想マシンノードの数と種類を指定します。
Masterは必ず1台必要になるノードで、Hadoopの分散処理に参加する全てのコンピュータを制御する中心となるノードです。構成する台数が増えた場合、Masterノードのスペックが低いと全体の処理性能が低下する恐れがあります。Masterノードは次に説明するCoreノードとしての機能も兼ねます。
Coreは必ず2台以上必要になるノードです。Hadoopの分散処理においてHDFSと言う分散ストレージを提供しています。EMRではストレージとして主にS3を使用するので、あまり容量を必要としませんが、Hive等のミドルウェアが一時的な記憶領域としてHDFSを使用する場合があります。途中でノードが停止した場合に備えるのと、読み取り負荷分散のため、三重に分散して保存するので、意外に容量を必要とする場合があり、必要に応じて増やします。
Taskは純粋に計算処理を担当するノードです。割り当てない事も出来ます。
Master、Core、TaskともにSpot Instanceを指定して料金を節約することが出来ますが、Masterノードが停止した場合には即座に処理が中断してしまいますし、Coreノードが2/3以上停止するとHDFSに保存したデータが消失してしまい、処理を継続出来なくなる可能性があります。練習中は良いですが、本番ではTaskノード以外をSpot Instanceにすることは避けた方が良いでしょう。
Security and AccessのEC2 key pairを設定して下さい。EMR起動後にSSHでログインするために公開鍵が必要になります。
最後にStepsのAuto TerminateはNoに設定します。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です