windows 에서 hadoop 설치 를 마쳤다면 ..


- single node cluster 구성
- version을 2.5.0으로 다시 설치 함.

ex) D:\install\hadoop-2.4.1-src\hadoop-dist\target 
디렉 토리에 hadoop-2.4.1.tar.gz 파일을 얻었을 것이다.

압축을 풉니다. 

ex) D:\hadoop-2.4.1

압축을 풀면 아래와 같은 디렉토리 구조가 있다. 

Directory of D:\hadoop-2.4.1 01/18/2014 08:11 AM <DIR> . 01/18/2014 08:11 AM <DIR> .. 01/18/2014 08:28 AM <DIR> bin 01/18/2014 08:28 AM <DIR> etc 01/18/2014 08:28 AM <DIR> include 01/18/2014 08:28 AM <DIR> libexec 01/18/2014 08:28 AM <DIR> sbin 01/18/2014 08:28 AM <DIR> share 0 File(s) 0 bytes

Starting a Single Node (pseudo-distributed) Cluster

모르겠다 일단 따라 하자.

D:\hadoop-2.4.1\etc\hadoop\hadoop-env.cmd 파일을 열고 마지막 줄 밑에 추가한다.

set HADOOP_PREFIX=D:\hadoop-2.4.1
set HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

같은 경로의 core-site.xml 파일도 아래와 같이 수정

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://0.0.0.0:19000</value>
  </property>
</configuration>

같은 경로의 hdfs-site.xml 파일도 아래와 같이 수정

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

slaves 파일도 아래와 같은지 확인

localhost

YARN Configuration

D:\hadoop-2.4.1\etc\hadoop\mapred-site.xml 파일을 수정
그런데 이파일 이 없다면.. mapred-site.xml.template파일을 복사하여 mapred-site.xml 로 이름을 바꾼다
%USERNAME% 부분을 사용하는 WINDOWS 유저 이름을 넣습니다.

<configuration>

   <property>
     <name>mapreduce.job.user.name</name>
     <value>%USERNAME%</value>
   </property>

   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>

  <property>
    <name>yarn.apps.stagingDir</name>
    <value>/user/%USERNAME%/staging</value>
  </property>

  <property>
    <name>mapreduce.jobtracker.address</name>
    <value>local</value>
  </property>
 
</configuration>

마지막으로 yarn-site.xml 파일 수정

<configuration>

<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> <property> <name>yarn.resourcemanager.address</name> <value>127.0.0.1:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>127.0.0.1:8030</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>127.0.0.1:8031</value> </property> </configuration>


Windows SDK 7.1 Command Prompt 실행

Select Start --> All Programs --> Microsoft Windows SDK v7.1 and open Windows SDK 7.1 Command Prompt

ex) haddop 경로 D:\hadoop-2.4.1

환경변수 세팅
D:\hadoop-2.4.1\etc\hadoop\hadoop-env.cmd

파일시스템 포맷
D:\hadoop-2.4.1\bin>hdfs namenode -format

에러가 없는지 확인. 

완료가 되면 ex) D:\tmp 디렉토리에 파일시스템이 생깁니다. 

Start HDFS Daemons

D:\hadoop-2.4.1\sbin\start-dfs.cmd

두개의 창이 뜹니다. title을 보면 하나는 namenode, 하나는 datanode 라 되어있는것을 확인할수 있다.
namenode는 메타데이터를 가지고 있고 datanode는 데이터를 가지고 있는것 같다.


http://localhost:50070/ 로 접속을 해보면 dfshealth.html 페이지를 확인 할수 있다.
utilities > browse the file system 으로 file 시스템을 확인 할수 있는데 인상  깊다.

MapReduce Job 실행에 필요한 디렉토리 생성

D:\hadoop-2.5.0\bin>hdfs dfs -mkdir /user

D:\hadoop-2.5.0\bin>hdfs dfs -mkdir /user/khlee

**여기서 만들어진 디렉토리를 위에서 설명한  http://localhost:50070/ 
utilities > browse the file system 에서 확인 할 수 있습니다.

hadoop home 으로 이동 후 아래 명령어 수행
분산 파일 시스템에 입력 파일을 복사
D:\hadoop-2.5.0> hdfs dfs -put etc/hadoop input


HDFS Daemon이 잘 동작하는지 확인해 보자.
아래 myfile.txt 는 미리 생성해놓는다.

D:\hadoop-2.4.1\bin>hdfs dfs -put myfile.txt /

D:\hadoop-2.4.1\bin>hdfs dfs -ls /

아래와 같이 나오면 된듯?

그밖에 많은 하둡 명령어 들이 있다.

http://hadoop.apache.org/docs/r0.18.3/hdfs_shell.html 참조


다음은 맵리듀스 예제. 

먼저 yarn을 실행

D:\hadoop-2.5.0\sbin> start-yarn.cmd


D:\hadoop-2.5.0>hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar grep input output 'dfs[a-z.]+'

hadoop을 찾을 수 없다면 etc/hadoop/hadoop-env 를 실행하고 해보자

yarn을 실행 시키고 http://localhost:8088/ 에 접속라면 리소스매니저라는 웹 페이지가 있다. 


sbin/hadoop-all 을 열어보면 hdfs , yarn이 실행 되는것을 볼때.

하둡은 이 두가지 서비스 라는것으로 볼 수 있다. 


HDFS : Hadoop Distributed File System

http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

YARN : Apache Hadoop NextGen MapReduce (YARN)

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html












'Hadoop' 카테고리의 다른 글

flume 정리.  (0) 2014.10.08
windows 에서 hadoop 설치  (3) 2014.08.13
Posted by 마법수정화살
,