본문 바로가기
  • 기술을 이야기하지만 사람을 생각합니다.
30. Cloud

[토크ON세미나_아파치 하둡 입문 3/3] Hadoop Map Reduce

by WE DONE IT. 2022. 1. 23.
하둡 강의를 들으면서 빠르게 메모한 내용입니다.
예쁘게 정리해서 발행하고 싶었으나 게으름을 이기지 못하고 오랫동안 방치하다가, 누군가에게는 도움이 될 수도 있지 않을까 기대하며 공개발행으로 전환하였습니다.

 

출처 :

[토크ON세미나] 아파치 하둡 입문 5강 - 하둡 맵리듀스 | T아카데미

https://youtu.be/Jx9rjPTWYPQ


 

맵리듀스 

Map Function : key1, value1 -> key2, value2

Reduce Function : key2, LIst of value2 -> key3, value3

 

YARN : 2.0

 

클라이언트

잡 트래커

태스크 트래커

하둡분산파일시스템

분산 저장 -> Map -> Merge, Sort -> (Map task) -> Reduce

Mapper 필수

Reducer 옵션

 

Shuffle / sort 단계 : 다른 맵의 데이터를 머지하는 과정이므로 트래픽이 많음 ->  트레픽 양을 최소한으로 줄여주는 게 중요

-> 컨바이너, Partitioner

 

 

하둡 2.0 YARN

YARN : 클러스터 리소스 매니저 -> MapReduce, Others (e.g., MPI)

 

Hadoop 3.0

Erasure Coding 피지컬하게 300mb -> 200mb 줄여주는 기능

파일 크기가 큰 경우, 용량을 절반으로 줄어드는 효과를 기대할 수 있음

 

 

 

댓글