[Cloudera 블로그 번역] MR2와 YARN에 대한 짧은 해설

 

일어 원문 : http://www.cloudera.co.jp/blog/mr2-and-yarn-briefly-explained.html - 일본 Cloudera Blog

영어 원문 : http://blog.cloudera.com/blog/2012/10/mr2-and-yarn-briefly-explained/ - 미국 Cloudera Blog

 

- 본 글은 위 일어 원문 링크의 글을 번역하였습니다.

- 일어 원문 글은 위 영어 원문 글을 번역한 글입니다.

 


 

 

 MapReduce에 대해 배울 수 있는, Cloudera 개발자 트레이닝

본 글은 Cloudera 커스터머 오퍼레이션즈 엔지니어 Harsh Chouraria가 쓴 글을 번역한 것입니다.

 

 CDH4 이후, Apache Hadoop의 컴포넌트는 Hadoop 사용자에 대응하여 두 가지 새로운 용어를 도입했습니다. MR2와 YARN입니다. 아쉽게도 이 용어들은 혼동되어 있어 많은 사람들이 혼란스러워하고 있습니다. 두 개는 같은 의미일까요, 다른 의미일까요?

 

 본 글은 이들 두 가지 용어를 명확하게 하는 것이 목표입니다.

 

YARN이란?

 

 YARN은 "Yet-Another-Resource-Negotiator"를 의미합니다. 이것은 임의의 분산처리 프레임워크나 어플리케이션의 작성을 쉽게 만드는 새로운 프레임워크입니다.

 

 YARN은 범용적인 분산어플리케이션 개발이나, 그런 어플리케이션에서 오는 (메모리나 CPU와 같은) 리소스 요구의 핸들링, 스케줄링을 실시하여, 실행을 감독하기 위한 데몬과 API를 제공합니다.

 

 YARN의 실행 모델은 이전의 MapReduce 구현보다도 범용적인 것입니다. YARN은 오리지널 Apache Hadoop의 MapReduce (MR1이라고도 부름) 와는 달리, MapReduce 모델에 따르지 않는 어플리케이션을 실행할 수 있습니다.

 

MR2란?

 

 YARN의 출현으로, 잡을 실행하는 단일의 JobTracker와 잡 태스크를 실행하기 위한 TaskTracker는 이제 사용할 수 없습니다. 기존 MR1의 프레임워크는 YARN상에 서밋(submit)된 어플리케이션 안에서 실행되도록 고쳐 쓰여졌습니다. 이 어플리케이션은 MR2 혹은 MapReduce 버전2로 이름 붙여졌습니다. 이것은 실행플로우 (예를 들면 태스크 스케줄링이나, 투기적 실행(speculative execution)의 핸들링, 장애처리 등)를 살피는 ApplicationMaster를 경유하여 각 잡이 자신의 운명을 컨트롤하는 경우를 빼고는, 실은 많이 봐온 MapReduce 실행입니다. 이것은 단일의 JobTracker가 모든 리소스 관리, 스케줄링, 태스크 감시 작업을 실행하는 MR1과 비교하여 보다 분리되어 있고 확대축소 가능한(scalable) 모델입니다.

 

 MR2와 DistributedShell이라 불리는 새로운 컨셉을 실증하는 어플리케이션은 CDH4의 YARN API를 사용하는 최초의 두 가지 어플리케이션입니다.

 

요약

 

 YARN이 어떤 형태의 분산 어플리케이션이라도 실행할 수 있는 범용적인 플랫폼인 반면, MR2는 그 중 하나의 어플리케이션으로 YARN상에서 동작하는 MapReduce 프레임워크입니다. 이 주제에 관한 보다 많은 내용은 여기를 확인 해 주세요.

 

 

관련 글

 

 CDH5와 Cloudera Manager 5가 릴리즈 되었습니다! (일어 원문사이트)

 

 Spark 활용하기 : 빅데이터 어플리케이션용 고속 인메모리 컴퓨팅 (한국어 번역글)

 

 왜 우리들은 HDFS상에 플랫폼을 구축하는가 (한국어 번역글)

 

 

Posted by 이슈타르네스
TAG , ,

댓글을 달아 주세요