Hiveのデータを圧縮して容量を節約する

LOAD DATAステートメントで取込むテキストファイルについては、Hive Language  Manualでもgzip形式で圧縮して取込むサンプルが例示されていますが、CREATE TABLE ~ STORED AS TEXTFILEで指定するテキストデータファイルに対してもgzipで圧縮して容量を節約することが出来ます。

特に気をつけるべき事はありません。テキストファイルを一つずつgzipで圧縮して、指定したフォルダに格納しておくだけです。

また圧縮することで処理速度が向上する場合があります。多くの処理系ではネットワーク帯域よりもメモリ帯域の方が圧倒的に高速なため、gzipで圧縮することによりネットワーク帯域負荷を下げる事によるメリットが、gzipの展開によるCPU負荷増大のデメリットよりも優るためです。

EMRを使う場合、巨大なデータをS3などのストレージに常時置いておくことによって発生する代金は馬鹿になりませんので、圧縮しておくことをお勧めします。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です