작년에 하둡완벽가이드에 이어서 올해 구매를 하여 읽은 책입니다.

작년에 읽었던 책은 단순히 하둡에 대해서 알기위해서 구매하였던 것이라면

이 책은 실제로 올해 M/R을 활용해보기 위해 구매한 책입니다.


표지가 굉장히 라이트한 느낌인데요.. 접근하기 쉬운 느낌이죠?

그래서인지 내용도 하둡을 모르는 초보자도 하나하나 따라가면 손쉽게 

하둡과 M/R에 대해서 알 수 있다는 것이 가장 큰 장점입니다.


국내서이기 때문에 번역서보다 문맥이 자연스럽다는 것도 장점이겠구요.


그리고 저자분께서 블로그나 커뮤니티등에서 활동을 많이 하시고 계시고 (http://blrunner.com/)

질문등에 대해서도 적극적으로 답변을 해주시기 때문에 그것도 이 책이 가지는 큰! 장점이라고 하겠습니다.


아무튼, 하둡을 공부하고 M/R 프로그래밍을 처음 해보시고 싶으신 분이라면 이 책은 상당히 좋은 선택이 될 것입니다. :)


저도 이걸로 공부해서 첫 M/R 프로그래밍을 하여

실무에 적용하였거든요. ^^


Posted by 용식
참고 : http://blog.softwaregeeks.org/archives/category/develop/hadoop


하둡을 써보자.

하둡에 대한 책을 읽고 있긴한데 이게 태어난 목적이
분산파일 시스템으로서 더 큰 용량의 파일들을 저장하기 위함인지
그러한 데이터들을 빠르게 분석하기 위함인지 잘 모르겠다.

Standalone 모드에서의 예제가 map reduce가 딱 실행되는걸로 봐서는
후자인 것 같기도하고.. 어쩌면 둘 다겠지.. hadoop이 기본적으로
수정되지 않는 파일만 저장이 된다고 하니 분석에 대한 목적이 더 클지도 모르겠다..

아무튼 더 공부를 해봐야 할 것 같고...

우선 Hadoop 라이브러리를 다운 받는다. (http://hadoop.apache.org/)
나는 0.20 버전을 사용했다.

일단 Mac에서 ...

적당한 디렉토리에 받은 파일을 넣고 압축을 해제한다.

need4spdui-MacBook-Air:Java need4spd$mkdir hadoop
need4spdui-MacBook-Air:Java need4spd$gzip -d hadoop-0.20.203.0rc1.tar.gz
need4spdui-MacBook-Air:Java need4spd$tar -xvf hadoop-0.20.203.0rc1.tar



그러면 이 상태.. 그러니까 풀고 아무것도 안 한 상태가 standalone모드로 실행 할 수 있는
confing상태이다.

 우선 JAVA_HOME을 설정해주자.

HADOOP_HOME에 conf디렉토리를 보면 hadoop-env.sh 파일이 있는데 열어서
JAVA_HOME을 찾아서 설정해준다.

export JAVA_HOME=/System/Library/Java/JavaVirtualMachines/1.6.0.jdk/Contents/Home



테스트는.. 아래와 같이.. example jar안에 
이런저런 샘플코드들이 있는 듯 하다. 다만 실행하기 위해서 jar를 풀어서 
META-INF를 제거해줘야 한다. (위 링크한 성주님 블로그 참고)

1. Jar를 풀고 다시 Packaging

need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$cd /Users/need4spd/Java/hadoop/hadoop-0.20.203.0
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$mkdir temp
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$cp hadoop-examples-0.20.203.0.jar ./temp
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$cd temp
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$jar -xvf *.jar
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$rm -rf META-INF
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$rm *.jar
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$jar cvf ../hadoop-examples.jar *



2. Test파일 생성

need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$cd ..
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$vi input.txt

R
R
R
r
r
r
r
r



3. 실행

need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$ cd bin

./hadoop jar ../hadoop-examples.jar org.apache.hadoop.examples.WordCount ../input.txt output



4. 결과조회

need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$cd ouput
need4spdui-MacBook-Air:hadoop-0.20.203.0 need4spd$vi part-r-00000

R 3
r 5



샘플코드를 보니 HFS를 사용하여 여러가지 분석을 할 수 있는 코드도 개발이 가능 할 것 같다

이제 첫 걸음이니... 욕심내지말고 차분히 가봐야지...


 
Posted by 용식
TAG hadoop, 하둡