AWS EMRStart - EMRでジョブフローを開始します

Amazon Web ServiceのElastic MapReduceでジョブフローを開始します。

■ストリーム情報

入力フォーマットすべて
接続数1
説明 入力ストリームは使用せず、すべて無視します。
出力フォーマットすべて
説明 入力ストリームをそのまま出力します。

■コンポーネントプロパティ

名前プロパティ型マッピング説明
コネクションを使用boolean- 接続情報に以下のコネクション名を使用するかどうか選択します。
はい [true] - 以下のコネクション名で指定した接続情報を使用します。
いいえ [false] - コネクション情報以下のプロパティを使って接続を行います。
コネクション名connection入力&出力 接続先のAmazonを指定します。 コネクションペインまたは管理コンソールにて作成された汎用接続名を選択します。
コネクション情報group-コネクションを使用が「いいえ」の場合に使用されるプロパティ群です。
アクセスキーstring入力&出力 アクセスキーを指定します。
シークレットキーstring入力&出力 シークレットキーを指定します。
プロトコルchoice- 通信にHTTPまたはHTTPSであるかを指定します。
コネクションを使用が「いいえ」の場合、この設定を参照します。
HTTP [http] - HTTP通信場合
HTTPS [https] - HTTPS通信場合
リージョンchoice入力&出力 利用するAWSのリージョンを選択します。
選択肢にない場合はリージョンを表す文字列を入力することもできます。
例えば東京リージョンであれば ap-northeast-1を指定します。
コネクションを使用が「いいえ」の場合、この設定を参照します。
タイムアウト(秒)int入力&出力 リクエスト時およびコネクション接続時のタイムアウトまでの時間を秒単位で指定します。
コネクションを使用が「いいえ」の場合、この設定を参照します。
プロキシー設定を使用boolean- 管理コンソールで設定したプロキシー設定を使用するかどうかを指定します。 コネクションを使用が「いいえ」の場合にこの設定が参照されます。
はい [true] - プロキシー設定を使用します。
いいえ [false] - プロキシー設定を使用しません。
ジョブフロー名string入力&出力 開始するジョブフローに設定するジョブフロー名を指定します。
ログURLstring入力&出力 EMRのログを出力する先のS3上のURLを指定します。省略時はEMRのログは出力されません。
インスタンスタイプchoice入力&出力 EMR処理に使用するEC2インスタンスの種類を指定します。AWSが提供していれば、一覧にないインスタンスタイプを指定することもできます。指定可能なインスタンスタイプに関してはEMRのサイトを参照ください。
m1.small - m1.smallのインスタンスを使用します。
m1.medium - m1.mediumのインスタンスを使用します。
m1.large - m1.largeのインスタンスを使用します。
m1.xlarge - m1.xlargeのインスタンスを使用します。
c1.medium - c1.mediumのインスタンスを使用します。
c1.xlarge - c1.xlargeのインスタンスを使用します。
インスタンス数int入力&出力 EMR処理に使用するEC2インスタンスの数を指定します。
利用可能ゾーンchoice入力&出力 EMR処理に使用するEC2インスタンスを起動する利用可能ゾーンを指定します。指定可能な利用可能ゾーンに関してはEMRのサイトを参照ください。指定がない場合は No Preference を指定します。
サブネットIDstring入力&出力 EMR処理に使用するEC2インスタンスをVPCで起動する場合、そのサブネットIDを指定します。
指定がない場合はVPCの外部、つまり通常のAWS上のクラウドで起動されます。
Hadoopバージョンstring入力&出力 使用するHadoopのバージョンを指定します。指定可能なバージョンに関してはEMRのサイトを参照ください。
指定がない場合、EMRが決定します。
AMIバージョンstring入力&出力Hadoopバージョンで指定したHadoopのどのバージョンのAMIイメージを使用するかを指定します。指定可能なバージョンに関してはEMRのサイトを参照ください。
指定がない場合の最新バージョンが使用されます。
キーペア名string入力&出力 「hadoop」ユーザーとしてマスターノードにSSH接続するときに使用されるEC2のキーペア名を指定します。
デバッグモードboolean入力&出力 EMRをデバッグモードで実行するかどうかを指定します。デバッグモードで実行する場合、「ログURL」を指定する必要があります。
はい [true] - EMRをデバッグモードで実行する。
いいえ [false] - EMRを通常モードで実行する。
Pigを使用boolean入力&出力 HadoopクラスタでPigを使用するかどうかを指定します。
はい [true] - インストールするPigのバージョンで指定したバージョンのPigをインストールします。
いいえ [false] - Pigをインストールしません。
インストールするPigのバージョンstring入力&出力 HadoopクラスタにインストールするPigのバージョンを指定します。指定可能なバージョンに関してはEMRのサイトを参照ください。
指定がない場合、もしくは「latest」が指定された場合は最新バージョンが使用されます。
Hiveを使用boolean入力&出力 HadoopクラスタでHiveを使用するかどうかを指定します。
はい [true] - インストールするHiveのバージョンで指定したバージョンのHiveをインストールします。
いいえ [false] - Hiveをインストールしません。
インストールするHiveのバージョンstring入力&出力 HadoopクラスタにインストールするHiveのバージョンを指定します。指定可能なバージョンに関してはEMRのサイトを参照ください。
指定がない場合、もしくは「latest」が指定された場合は最新バージョンが使用されます。
サポートする製品string入力&出力 Hadoopクラスタで利用する製品を指定します。MapRなどを利用する場合はここに指定します。指定可能な値に関してはEMRのサイトを参照ください。
ジョブ終了後もジョブフローを継続boolean入力&出力 ジョブ終了後もジョブフローを継続するかどうかを指定します。
はい [true] - ジョブ終了後もジョブフローを継続します。
いいえ [false] - ジョブ終了後にジョブフローを終了します。
ブートストラップアクションstring入力&出力 Hadoopクラスタの起動時に実行するアクションを指定します。指定可能な値に関してはEMRのサイトを参照ください。
ブートストラップスクリプトstring入力&出力ブートストラップアクションで指定したアクションのスクリプトを指定します。スクリプトの指定方法の詳細はEMRのサイトを参照ください。
ジョブフローIDstring   出力 起動されたジョブフローのジョブフローIDが格納されます。

■トランザクション処理

コミット何もしません。
ロールバック何もしません。

■エラー処理

タイプパラ
メータ
エラー処理フロー
へのストリーム
エラー
コード
説明
汎用 なし コンポーネントの入力ストリーム なし
接続エラー なし コンポーネントの入力ストリーム1接続に失敗した場合

■コネクション設定

コンポーネントを使用するためにはあらかじめ汎用コネクションに接続用の設定をしておく必要があります。コネクション設定では以下のパラメータを定義します。

パラメータ名設定内容必須
accessKey アクセスキーを指定します。 はい
secretKey シークレットキーを指定します。 はい
protocol HTTPまたはHTTPSを指定します。値を解釈出来ない場合は、HTTPプロトコルを使用します。 いいえ
省略時は、HTTPプロトコルを使用します。
region 利用するAWSのリージョンを文字列で指定します。 例えば東京リージョンであれば ap-northeast-1 を指定します。 いいえ
省略時は、東京リージョンとなります。
timeout タイムアウト時間を指定します。単位は秒です。0の時は無限のタイムアウトになります。 いいえ
省略時は、0を指定します。
useProxy FSMCで設定したプロキシーサーバを使用する場合「true」を指定します。
プロキシサーバを使用しない場合は設定不要です。
いいえ