CentOS 6.5 -> CentOS 7.0へのアップグレード

PHP5.3のサポートが2014年8月14日で終了するとアナウンスされていたので、いい加減にCentOS6.5からCentOS7.0へのアップグレードを行った。CentOS6.5に付随するPHPは5.3系、もちろんPHPだけ手作業で更新することもできるのだけど、CentOSのFull Updatesのサポート期限まで後1年もないし、良い機会なのでOS丸ごとアップデートすることにする。

実は今までLinuxをインストールするところまでで、まともに使ったことがないので、アップグレード作業は初めての経験。

CentOS6.5->7.0へのUpgrade

1.yum updateを実行して既存のアップデートを全て適用する。

2.preupgrade用のツールをインストールする。

必要なモジュールはhttp://dev.centos.org/centos/6/upg/x86_64/Packages/におかれているので、こちらよりダウンロードしてインストールする。以下のコマンドを実行。

yum -y install openscap pcre-devel libxml2-devel libxslt-devel m2crypto python-simplejson mod_wsgi
rpm -ihv http://dev.centos.org/centos/6/upg/x86_64/Packages/preupgrade-assistant-1.0.2-33.el6.x86_64.rpm
rpm -ihv http://dev.centos.org/centos/6/upg/x86_64/Packages/preupgrade-assistant-contents-0.5.13-1.el6.noarch.rpm
rpm -ihv http://dev.centos.org/centos/6/upg/x86_64/Packages/preupgrade-assistant-ui-1.0.2-33.el6.x86_64.rpm
rpm -ihv http://dev.centos.org/centos/6/upg/x86_64/Packages/python-rhsm-1.9.7-1.el6.x86_64.rpm
rpm -ihv http://dev.centos.org/centos/6/upg/x86_64/Packages/redhat-upgrade-tool-0.7.22-1.el6.noarch.rpm

2.preupgを実行してファイル更新の準備をする

次のコマンドを実行してファイルの更新を行う。

preupg

3.redhat-upgrade-toolを実行してファイルを更新する

次のコマンドを実行してファイルの更新を行う。かな~り時間がかかるので気長に待つ。

redhat-upgrade-tool --network 7.0  --instrepo http://ftp.iij.ad.jp/pub/linux/centos/7/os/x86_64/ --force

4.OSを再起動

5.再びyum updateを実行して既存のアップデートを全て適用する。

これで一応はCentOS7.0の環境に更新される。だがもともと動いていたWordpressは機能していない。CentOS6.5のインストール以後に変更した諸々の設定ファイルはCentOS6.5の時のままであったりするので、設定ファイルの見直しが必要になる。

WordPressの移行作業

1.mariadbのアンインストールとMySQLのインストール

CentOS 7.0ではMySQLの代わりにMariaDBがインストールされている。新規にインストールするならMariaDBに切り替えても良いのだけど、旧環境をできる限り生かしたいので、MariaDBをアンインストールして、新たにMySQLをインストールすることにする。

yum -y remove maria*
yum -y install http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm
yum -y install mysql mysql-devel mysql-server mysql-utilities

2.Apatchの再設定

CentOS6.5の頃のApatchの設定ファイルがそのまま残っているが、Apatchのバージョンが上がっているため、その設定ファイルのままでは動作しない。httpd.conf.originalを元に改めて設定をやりなおす。この時modrewriteが無効になっているので、<Directory “/var/www/html”>のAllowOverride NoneをAllowOverride Allに変更する。

3.MySQLとApatchを起動する

デーモンを起動するコマンドがCentOS6.5とCentOS7.0では異なる。CentOS6.5ではserviceを使っていたが、CentOS7.0ではsystemctlコマンドを使用する。次のコマンドを実行してMySQLとApatchの自動起動する。

systemctl enable mysql
systemctl enable httpd

以上で、CentOS6.5 + WordPressの環境をCentOS7.0 + WordPressの環境に移行できる。初めてLinux系のOSでアップグレードしてみた訳だが・・・サーバーを2台以上用意できるなら新規にインストールしたほうが情報も多いし、トラブルも少なく、手っ取り早い気がorz

Pythonでのパッケージ管理

Pythonにはpipというパッケージ管理システムが提供されていますが、インストール済みパッケージの管理には面倒です。pip-toolsを導入して、インストール済みパッケージの管理を簡易化します。

pip install pip-tools-win

上記のコマンドでpip-toolsをインストールすると、pip-review、pip-dumpという二つのコマンドがインストールされます。

pip-dumpは現在インストールされているパッケージのバージョンを取得するコマンドです。pip-dumpを実行するとカレントフォルダにrequirements.txtというファイルが作成され、現在インストールされているパッケージのリストが保存されます。

pip-reviewはインストール済みパッケージの新しいバージョンが公開されているか否かを調べるコマンドです。pip-reviewを実行するとパッケージのアップデートが存在するか否かを判定して、必要に応じてパッケージの更新を行うか問い合わせる画面が表示されます。すべてのパッケージを更新する場合には、何も考えずにpip-review -aとすればOKです。

yum update実行時にAttributeError: ‘YumBaseCli’ object has no attribute ‘_not_found_i’が発生

2015-01-17 06:06:48

CentOS 6.5にてyum updateを行なったところ、以下のエラーが発生した。実のところ、Pythonのモジュールを色々入れてから、調子が悪い。

Traceback (most recent call last):
File "/usr/bin/yum", line 29, in
yummain.user_main(sys.argv[1:], exit_code=True)
File "/usr/share/yum-cli/yummain.py", line 288, in user_main
errcode = main(args)
File "/usr/share/yum-cli/yummain.py", line 223, in main
return_code = base.doTransaction()
File "/usr/share/yum-cli/cli.py", line 453, in doTransaction
lsts = self.listTransaction()
File "/usr/share/yum-cli/output.py", line 1055, in listTransaction
(_('Not installed'), self._not_found_i.values()),
AttributeError: 'YumBaseCli' object has no attribute '_not_found_i'

CentOSのページからyumのrpmファイルをダウンロードして、以下のコマンドを実行してyumの再インストールを行なったところ正常に動作するようになった。

rpm -ivh --replacepkgs yum-3.2.29-43.el6.centos.noarch.rpm

yumコマンドを実行するとpycurlでエラーになる

CentOS 6.5にてyumコマンドを実行すると以下のエラーが発生し、yumコマンドが動作しない。

# yum
There was a problem importing one of the Python modules
required to run yum. The error leading to this problem was:

pycurl: libcurl link-time ssl backend (nss) is different from compile-time ssl backend (none/other)

yumはPythonで作られている。そのためPython実行環境のライブラリバージョンと、yumコマンドが使用しているライブラリバージョンの整合性がとれなくなると動作しなくなる。

下記のコマンドを実行してpycurlを一度アンインストールした後、コンパイルオプションを指定して、再度pycurlをインストールする事で正常に動作した。

# pip uninstall pycurl
# export PYCURL_SSL_LIBRARY=nss
# pip install pycurl

参考URL

PythonをWinodwsにインストールする

日本国内ではRubyが幅をきかせていますが、海外ではC言語との親和性の高さと、豊富なサードパーティライブラリ群でPythonが人気を博しています。HadoopでMapReduceなアプリケーションを作る場合にも使えますので、WindowsへのPythonのインストール手順を確認しておきます。

PythonではVersion2.x系列と、Version3.x系列

PythonではVersion2.x系列と、Version3.x系列の2種類がメンテナンスされています。Version2.xとVersion3.xは言語仕様が異なるので互換性がありません。Version2.x系は変数に文字列型とUnicode文字列型の2種類があり、関数呼び出しの記述で括弧をかきません。これに対してVersion3.x系はUnicode文字列型だけになり、関数呼び出しの記述に括弧を付けるようになりました。現在主立ったLinuxディストリビューションに含まれているのはVersion2.x系列になります。ここではVersion2.x系をインスト-ルします。

どのPythonディストリビューションを使用するか?

Windows用に配布されているPythonにはPython.orgの純正版のほかに、ActiveState版等複数の亜種があります。

Pythonでは各種ライブラリやパッケージの管理にMyPIと言うツールを使います。WindowsでもMyPI自身は動作するのですが、パッケージをインストールするときにLinuxとの環境の違いからエラーとなることが少なくありません。それ以前にMyPIのインストールすら、ドキュメント通りにコマンドを実行しても失敗します。せっかくの豊富なライブラリなのに、いざ使うときに手間がかかるのはあまり嬉しくありません。

ここではActiveStateが無償で配布しているActivePythonをお勧めしておきます。ActiveState社がWindowsで動作するようにカスタマイズした状態で提供しているので、MyPIから問題なくパッケージをインストールできます。

ActivePythonのダウンロードとインストール

どのバージョンのPythonをインストールするべきかが分かれば、あとは簡単です。ActiveStateのダウンロードページから、必要なインストーラをダウンロードして実行するだけです。

MyPiを使ってパッケージのインストール

Pythonのインストールがおわったら、管理者権限でコマンドプロンプトを開き、以下のようにコマンドを実行します。

C:>pip install [パッケージ名]

例えば数値計算用のパッケージをインストールする場合は以下のようになります。

C:>pip install numpi

使いたいパッケージを探す場合には以下のようにコマンドを実行します。

C:>pip search [キーワード]

現在インストールされているパッケージを確認するには以下のようにします。

C:>pip list

 

Hiveのデータを圧縮して容量を節約する

LOAD DATAステートメントで取込むテキストファイルについては、Hive Language  Manualでもgzip形式で圧縮して取込むサンプルが例示されていますが、CREATE TABLE ~ STORED AS TEXTFILEで指定するテキストデータファイルに対してもgzipで圧縮して容量を節約することが出来ます。

特に気をつけるべき事はありません。テキストファイルを一つずつgzipで圧縮して、指定したフォルダに格納しておくだけです。

また圧縮することで処理速度が向上する場合があります。多くの処理系ではネットワーク帯域よりもメモリ帯域の方が圧倒的に高速なため、gzipで圧縮することによりネットワーク帯域負荷を下げる事によるメリットが、gzipの展開によるCPU負荷増大のデメリットよりも優るためです。

EMRを使う場合、巨大なデータをS3などのストレージに常時置いておくことによって発生する代金は馬鹿になりませんので、圧縮しておくことをお勧めします。

縦横に小計や合計が入っているエクセルシートを間違えずに作るために、意識すると良いポイント

縦横に小計や合計が入っているエクセルシートを間違えずに作るために、意識すると良い点を紹介してゆきます。

見せるための表とデータを保持するための表を分ける。
ユーザーに綺麗に見せるためのシートと、集計するためのデータを保持するためのシートは、分けて作ります。集計するシートには直接データを入力せずに、データ保持用のシートから、式を使って見せるためのシートにデータを取り込みます。
データ用のシートは誰かに見せるための物では無いので、集計のしやすさを優先して作成します。必ず1データを一行で表示し、セルの結合などは使いません。
データを管理する部分と、表示のための機能を分ける考え方は、モデルビューコントローラーモデルと呼ばれ、1990年前後からソフトウェアの設計に取り入れられるようになった方法です。モデルはデータを管理する部分、ビューは表示のための部分、コントローラーはモデルを操作するための部分でExcelがそれに当たります。
このようにデータと表示を分けておくと、表示を様々に変化させてもデータが影響を受けることが無いため、データを誤って書き換えてしまう心配がありません。頻繁なレイアウト変更の要求にも応えやすくなります。また同じデータを複数の方法で表示しているとき、データに変更が発生しても、複数の表示用シートに簡単に反映させることが出来ます。

小計や合計は式を入れる。
個々の値をsumで足しあわせて小計を、小計を足しあわせて合計を求めます。
当たり前のようですが、オートsumで上手く選択出来なかったり、自動の書式指定で上手く表示出来ないと、そこであきらめて数字を直接入力してしまったりする人は少なくありません。きっちり調べて式や表示書式で実現するようにします。
またsubtotalと言う関数がありますが、これは使いません。標準のドキュメントでは、subtotalは選択範囲内にある小計などの計算式を無視して合算を表示してくれるので、小計と合計が混在している表で容易に合計を求められる関数として例示されています。ですがこのような集計の方法をとっていると、小計計算式の選択範囲が誤っていても、合計は正しい値になってしまうため、小計が間違っていることに気がつき難くなります。合計は小計を足し合わせる式として書いていれば、小計が間違っているときに合計も誤った値になるので気がつきやすくなります。

合計や小計が正しいことを手早く判断する。
合計や小計が正しいことを手早く判断するには、合計や小計の計算元となっているシート全体を選択したときに右下に表示される合算が、合計の整数倍になっていることを確認します。もしどこかの指揮が誤っているなら、合計の整数倍にはならないので、各式を精査して誤っている箇所を探します。

以上のようなことに気をつけると、手早く、誤りないExcelの資料を作れます。

Windows系エンジニアのためのElastic Map Reduce 5

Amazon EMRでHiveを使う
EMRに接続して操作するためにSSHに対応したtelnetクライアントが必要です。私自身長年使っていることもあって、TeraTerm(http://ttssh2.sourceforge.jp/)をお勧めします。
Cluster Listから作成したEMRインスタンスの詳細を表示すると、Master public DNS nameにドメイン名が表示されています。このドメインにSSHで接続すると以下のように表示されます。SSHでログインするときのユーザーIDはhadoopです。

Linux (none) 3.2.30-49.59.amzn1.x86_64 #1 SMP Wed Oct 3 19:54:33 UTC 2012 x86_64
——————————————————————————–

Welcome to Amazon Elastic MapReduce running Hadoop and Debian/Squeeze.

Hadoop is installed in /home/hadoop. Log files are in /mnt/var/log/hadoop. Check
/mnt/var/log/hadoop/steps for diagnosing step failures.

The Hadoop UI can be accessed via the following commands:

JobTracker lynx http://localhost:9100/
NameNode lynx http://localhost:9101/

——————————————————————————–
hadoop@ip-10-121-9-185:~$
hadoop@ip-10-121-9-185:~$ hive

プロンプトが表示されたらhiveと入力して、hiveのインスタンスを起動します。
先ほどS3にアップロードしたファイルをテーブルとしてマウントします。

> Create external table reviewsNew
> (MemberID String, ProductID String, ReviewDate TimeStamp,
> HelpFeeedbackNum Int, FeedbackNum Int, Rating Int,
> Title String, Body String )
> row format delimited fields terminated by ‘t’ lines terminated by ‘n’
> stored as textfile location ‘s3://emr-sample/reviewsNew’

これで集計をおこなう準備が完了しました。

> select size(split(Body, ‘ ‘)) as wordscnt, count(*)
> from reviewsNew
> group by size(split(Body, ‘ ‘))
> sort by wordscnt;

上記のようなselect文を実行して集計してみます。bodyに含まれる単語数をカウントして、各単語数のレビューが何件あるかを集計します。この手のインデックスが全く機能しないようなSQLをRDBMSで実行した場合、現実的な時間内には終了しません。hiveなら5ノード程度の小さなクラスタ構成でも7分ほどで集計が終わります。
実際に使用する場合には以下のように結果保存用のテーブルを作成しておきます。

> create external table wordscnt
> (wordcnt Int, recordCnt Int)
> row format delimited fields terminated by ‘t’ lines terminated by ‘n’
> stored as textfile location ‘s3://emr-sample/wordscnt’

そして以下のように保存先テーブルを指定し、結果保存用のテーブルに格納します。その後、S3から作成されたデータファイルをダウンロードします。

> insert into table wordscnt
> select size(split(Body, ‘ ‘)) as wordscnt, count(*)
> from reviewsNew
> group by size(split(Body, ‘ ‘))
> sort by wordscnt;

Windows系エンジニアのためのElastic Map Reduce 3

AmazonでEMRを起動する
まずはEMRで使用するKeyPairを作成します。既に作ってある人は、それを流用してもかまいません。AWSマネジメントコンソールにログインし、EC2のコンソールを開いたら、左側のメニューからKey Pairsを選択します。Create Key Pairをクリックしてダイアログが表示されたら、Key Pair Nameを入力してYesをクリックします。自動的に鍵のダウンロードが始まるので、ダウンロードされたファイルを保管します。
続いてEMRのインスタンスを起動します。AWSマネジメントコンソールのElastic Map Reduceを選択し、Create clusterボタンをクリックして下さい。
Cluster ConfigurationのCluster Nameには適当に識別可能な名称を設定します。Loggingはチェックを外して下さい。
Software Configurationは初期設定のままでかまいません。Hadoop distributionはAmazonにチェックを、AMI Versionは初期設定で2.4.2になっているので、そのままにします。Applications to be installedにも初期設定でHiveとPigが含まれているはずです。
Hardware Configurationには若干のHadoopについての知識が必要です。NetworkとEC2 availability zoneは初期設定のまま、EC2 ClassicとNo preferenceにします。問題となるのはEC2 instance typeでHadoopを構成する仮想マシンノードの数と種類を指定します。
Masterは必ず1台必要になるノードで、Hadoopの分散処理に参加する全てのコンピュータを制御する中心となるノードです。構成する台数が増えた場合、Masterノードのスペックが低いと全体の処理性能が低下する恐れがあります。Masterノードは次に説明するCoreノードとしての機能も兼ねます。
Coreは必ず2台以上必要になるノードです。Hadoopの分散処理においてHDFSと言う分散ストレージを提供しています。EMRではストレージとして主にS3を使用するので、あまり容量を必要としませんが、Hive等のミドルウェアが一時的な記憶領域としてHDFSを使用する場合があります。途中でノードが停止した場合に備えるのと、読み取り負荷分散のため、三重に分散して保存するので、意外に容量を必要とする場合があり、必要に応じて増やします。
Taskは純粋に計算処理を担当するノードです。割り当てない事も出来ます。
Master、Core、TaskともにSpot Instanceを指定して料金を節約することが出来ますが、Masterノードが停止した場合には即座に処理が中断してしまいますし、Coreノードが2/3以上停止するとHDFSに保存したデータが消失してしまい、処理を継続出来なくなる可能性があります。練習中は良いですが、本番ではTaskノード以外をSpot Instanceにすることは避けた方が良いでしょう。
Security and AccessのEC2 key pairを設定して下さい。EMR起動後にSSHでログインするために公開鍵が必要になります。
最後にStepsのAuto TerminateはNoに設定します。

Windows系エンジニアのためのElastic Map Reduce 2

Hive用データを準備する
HiveはCSV形式やTSV形式のファイルに対して処理を行ないます。処理対象とするファイルを事前に変換しておきます。
ファイルは数10MBから数百MB程度のサイズで、複数のファイルに分割しておきます。Hiveは一つのファイルを一つのMapperプロセスに割り当てます。検索対象となるファイルの数が処理を分散できるノード数の上限になるので、必ず適度なサイズに分割しておかないと、Hadoopのメリットを得られません。
Hiveでは一つのフォルダを一つのテーブルとして扱います。ここで作成した分割ファイルをひとつフォルダに保存します。
通常のHadoopではHDSFを使用しますが、Amazon EMRではS3をストレージとして使用します。EMR用にS3のBucketを作成し、フォルダを作り、そこに作成したファイルをアップロードします。ここで作成したフォルダがHive上では一つのテーブルとして扱います。
Bucketを作成するリージョンは、EMRで使用するリージョンと同じ場所にします。同一リージョン内でのネットワーク通信は課金の対象となりませんが、リージョンをまたいだ通信は課金の対象となるので注意しましょう。
同様の理由でCSV形式のファイルへの変換や、CSVファイルをS3にアップロードする作業もAmazon EC2上で行なった方が良い場合もあります。EC2上の仮想マシンからS3へのアップロードは低速のインスタンスでも200~400Mbpsで行えますが、インターネット経由ではシングルスレッド転送だと数百Kbps~数Mbps程度になってしまい、大量のデータをアップロードするには時間がかかりすぎます。
都合、インターネット経由でアップロードする場合には、S3 Browser(http://s3browser.com)のような、マルチスレッド対応した転送ツールが便利です。
ここではサンプルデータとしてインターネット上で公開されているAmazonのレビュー記事のデータを使います。http://liu.cs.uic.edu/download/data/からreviewsNew.rarをダウンロードしてきます。解凍して得られたファイルを適当な行数で分割します。私はCygwinのsplitコマンドを使用しました。これを新たにemr-sampleバケットを作成し、reviewsNewフォルダにアップロードします。