windows 에서 hadoop 시작 하기.

Hadoop 2014. 8. 14. 16:43

windows 에서 hadoop 설치 를 마쳤다면 ..

- single node cluster 구성

- version을 2.5.0으로 다시 설치 함.

ex) D:\install\hadoop-2.4.1-src\hadoop-dist\target

디렉 토리에 hadoop-2.4.1.tar.gz 파일을 얻었을 것이다.

압축을 풉니다.

ex) D:\hadoop-2.4.1

압축을 풀면 아래와 같은 디렉토리 구조가 있다.


 Directory of D:\hadoop-2.4.1

01/18/2014  08:11 AM    <DIR>          .
01/18/2014  08:11 AM    <DIR>          ..
01/18/2014  08:28 AM    <DIR>          bin
01/18/2014  08:28 AM    <DIR>          etc
01/18/2014  08:28 AM    <DIR>          include
01/18/2014  08:28 AM    <DIR>          libexec
01/18/2014  08:28 AM    <DIR>          sbin
01/18/2014  08:28 AM    <DIR>          share
               0 File(s)              0 bytes

Starting a Single Node (pseudo-distributed) Cluster

모르겠다 일단 따라 하자.

D:\hadoop-2.4.1\etc\hadoop\hadoop-env.cmd 파일을 열고 마지막 줄 밑에 추가한다.

set HADOOP_PREFIX=D:\hadoop-2.4.1
set HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

같은 경로의 core-site.xml 파일도 아래와 같이 수정

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://0.0.0.0:19000</value>
  </property>
</configuration>

같은 경로의 hdfs-site.xml 파일도 아래와 같이 수정

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

slaves 파일도 아래와 같은지 확인

localhost

YARN Configuration

D:\hadoop-2.4.1\etc\hadoop\mapred-site.xml 파일을 수정

그런데 이파일 이 없다면.. mapred-site.xml.template파일을 복사하여 mapred-site.xml 로 이름을 바꾼다

%USERNAME% 부분을 사용하는 WINDOWS 유저 이름을 넣습니다.

<configuration>

   <property>
     <name>mapreduce.job.user.name</name>
     <value>%USERNAME%</value>
   </property>

   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>

  <property>
    <name>yarn.apps.stagingDir</name>
    <value>/user/%USERNAME%/staging</value>
  </property>

  <property>
    <name>mapreduce.jobtracker.address</name>
    <value>local</value>
  </property>

</configuration>

마지막으로 yarn-site.xml 파일 수정

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>127.0.0.1:8032</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>127.0.0.1:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>127.0.0.1:8031</value>
  </property>
</configuration>

Windows SDK 7.1 Command Prompt 실행

Select Start --> All Programs --> Microsoft Windows SDK v7.1 and open Windows SDK 7.1 Command Prompt

ex) haddop 경로 D:\hadoop-2.4.1

환경변수 세팅

D:\hadoop-2.4.1\etc\hadoop\hadoop-env.cmd

파일시스템 포맷

D:\hadoop-2.4.1\bin>hdfs namenode -format

에러가 없는지 확인.

완료가 되면 ex) D:\tmp 디렉토리에 파일시스템이 생깁니다.

Start HDFS Daemons

D:\hadoop-2.4.1\sbin\start-dfs.cmd

두개의 창이 뜹니다. title을 보면 하나는 namenode, 하나는 datanode 라 되어있는것을 확인할수 있다.

namenode는 메타데이터를 가지고 있고 datanode는 데이터를 가지고 있는것 같다.

http://localhost:50070/ 로 접속을 해보면 dfshealth.html 페이지를 확인 할수 있다.

utilities > browse the file system 으로 file 시스템을 확인 할수 있는데 인상 깊다.

MapReduce Job 실행에 필요한 디렉토리 생성

D:\hadoop-2.5.0\bin>hdfs dfs -mkdir /user

D:\hadoop-2.5.0\bin>hdfs dfs -mkdir /user/khlee

**여기서 만들어진 디렉토리를 위에서 설명한 http://localhost:50070/

utilities > browse the file system 에서 확인 할 수 있습니다.

hadoop home 으로 이동 후 아래 명령어 수행

분산 파일 시스템에 입력 파일을 복사

D:\hadoop-2.5.0> hdfs dfs -put etc/hadoop input

HDFS Daemon이 잘 동작하는지 확인해 보자.

아래 myfile.txt 는 미리 생성해놓는다.

D:\hadoop-2.4.1\bin>hdfs dfs -put myfile.txt /

D:\hadoop-2.4.1\bin>hdfs dfs -ls /

아래와 같이 나오면 된듯?

그밖에 많은 하둡 명령어 들이 있다.

http://hadoop.apache.org/docs/r0.18.3/hdfs_shell.html 참조

다음은 맵리듀스 예제.

먼저 yarn을 실행

D:\hadoop-2.5.0\sbin> start-yarn.cmd

D:\hadoop-2.5.0>hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar grep input output 'dfs[a-z.]+'

hadoop을 찾을 수 없다면 etc/hadoop/hadoop-env 를 실행하고 해보자

yarn을 실행 시키고 http://localhost:8088/ 에 접속라면 리소스매니저라는 웹 페이지가 있다.

sbin/hadoop-all 을 열어보면 hdfs , yarn이 실행 되는것을 볼때.

하둡은 이 두가지 서비스 라는것으로 볼 수 있다.

HDFS : Hadoop Distributed File System

http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

YARN : Apache Hadoop NextGen MapReduce (YARN)

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

'Hadoop' 카테고리의 다른 글

flume 정리. (0)	2014.10.08
windows 에서 hadoop 설치 (3)	2014.08.13

Posted by 마법수정화살

마법수정화살