Ubuntu10.04でHadoop環境構築(疑似分散編)

何度も構築しているとたまに忘れてしまうので、備忘録として記載します。
今行っている研究室での導入用教材にも転用。
OSのインストールからHadoopのインストールまで駆け足で解説します。


以下の環境が前提です。(ホストOSや仮想環境は他でも可)

  • ホストOS:Mac OSX(10.6.3)
  • 仮想環境:VMware Fusion3

インストールの流れ

  • Ubuntu10.4LTSインストール
  • VMware Toolsインストール
  • JDK6インストール
  • Hadoop 0.20.2インストール

大まかに上記のような流れ。

Ubuntuのインストール

ほとんど悩む事はないでしょう。
VMware仮想マシンを作成し、isoからインストール
Ubuntu Desktop 日本語 Remixのダウンロード | Ubuntu Japanese Team
「簡易インストールは選択しない」ことだけ注意

VMware Toolsインストール

VMwareとホストOSとのコピペや解像度の設定など便利ツール
インストール方法は、以下の手順

  • VMwareのメニューから、「仮想マシン」→「VMware Tools のインストール」を選択
  • GuestOSのデスクトップにVMwareToolsのディスクがマウントされる
  • 圧縮されたファイルを適当な場所に解凍
  # tar xzvf VMwareTools-xxxx.tar.gz
  • VMware Toolsインストール

  解凍したディレクトリに移動して、以下のコマンドを実行

  # sudo ./vmware-install.pl

  何度かの質問に答えるとインストール終了

JDKのインストール

  • sources.listの編集

  場所は、/etc/apt/sources.list
  インストール候補にするため、以下を有効にする

  deb http://archive.canonical.com/ubuntu lucid partner
  • JDKインストール
  # apt-get update
  # apt-get install sun-java6-jdk

Hadoopのインストール

導入の容易さを考えて、Cloudera’s Distribution for Hadoopを利用する
参考サイト:http://archive.cloudera.com/docs/_apt.html

  /etc/apt/sources.list.d/cloudera.list 作成

  deb http://archive.cloudera.com/debian lenny-cdh3 contrib
  deb-src http://archive.cloudera.com/debian lenny-cdh3 contrib

  上記2行を追記する

  curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -

  (curl 入ってない場合はインストール)

  # apt-get update
  # apt-cache search hadoop
  # apt-get install hadoop
  • 疑似分散モードの設定をインストール

  http://archive.cloudera.com/docs/cdh3-pseudo-distributed.html

  # apt-get -y install hadoop-0.20-conf-pseudo

Hadoop起動の確認

  • Hadoopの全てのサービスを起動する
  for service in /etc/init.d/hadoop-0.20-*
  do
  sudo $service start
  done
  • 起動を確認する

  NameNodeの確認:http://localhost:50070/
  JobTrackerの確認:http://localhost:50030/
    

以上で一通り環境構築完了。


次回以降、HDFSの設定、Pigの設定やEclipseの設定を投稿予定。