Ubuntu10.04でHadoop環境構築(疑似分散編)
何度も構築しているとたまに忘れてしまうので、備忘録として記載します。
今行っている研究室での導入用教材にも転用。
OSのインストールからHadoopのインストールまで駆け足で解説します。
以下の環境が前提です。(ホストOSや仮想環境は他でも可)
- ホストOS:Mac OSX(10.6.3)
- 仮想環境:VMware Fusion3
Ubuntuのインストール
ほとんど悩む事はないでしょう。
VMware仮想マシンを作成し、isoからインストール
Ubuntu Desktop 日本語 Remixのダウンロード | Ubuntu Japanese Team
「簡易インストールは選択しない」ことだけ注意
VMware Toolsインストール
VMwareとホストOSとのコピペや解像度の設定など便利ツール
インストール方法は、以下の手順
- VMwareのメニューから、「仮想マシン」→「VMware Tools のインストール」を選択
- GuestOSのデスクトップにVMwareToolsのディスクがマウントされる
- 圧縮されたファイルを適当な場所に解凍
# tar xzvf VMwareTools-xxxx.tar.gz
- VMware Toolsインストール
解凍したディレクトリに移動して、以下のコマンドを実行
# sudo ./vmware-install.pl
何度かの質問に答えるとインストール終了
JDKのインストール
- sources.listの編集
場所は、/etc/apt/sources.list
インストール候補にするため、以下を有効にする
deb http://archive.canonical.com/ubuntu lucid partner
- JDKインストール
# apt-get update # apt-get install sun-java6-jdk
Hadoopのインストール
導入の容易さを考えて、Cloudera’s Distribution for Hadoopを利用する
参考サイト:http://archive.cloudera.com/docs/_apt.html
- リポジトリの追加
/etc/apt/sources.list.d/cloudera.list 作成
deb http://archive.cloudera.com/debian lenny-cdh3 contrib deb-src http://archive.cloudera.com/debian lenny-cdh3 contrib
上記2行を追記する
- リポジトリ キーの追加
curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -
(curl 入ってない場合はインストール)
- Hadoopのインストール
# apt-get update # apt-cache search hadoop # apt-get install hadoop
- 疑似分散モードの設定をインストール
http://archive.cloudera.com/docs/cdh3-pseudo-distributed.html
# apt-get -y install hadoop-0.20-conf-pseudo
Hadoop起動の確認
- Hadoopの全てのサービスを起動する
for service in /etc/init.d/hadoop-0.20-* do sudo $service start done
- 起動を確認する
NameNodeの確認:http://localhost:50070/
JobTrackerの確認:http://localhost:50030/
以上で一通り環境構築完了。