하둡 강의를 들으면서 빠르게 메모한 내용입니다.
예쁘게 정리해서 발행하고 싶었으나 게으름을 이기지 못하고 오랫동안 방치하다가, 누군가에게는 도움이 될 수도 있지 않을까 기대하며 공개발행으로 전환하였습니다.

출처 :

[토크ON세미나] 아파치 하둡 입문 5강 - 하둡 맵리듀스 | T아카데미

맵리듀스

Map Function : key1, value1 -> key2, value2

Reduce Function : key2, LIst of value2 -> key3, value3

YARN : 2.0

클라이언트

잡 트래커

태스크 트래커

하둡분산파일시스템

분산 저장 -> Map -> Merge, Sort -> (Map task) -> Reduce

Mapper 필수

Reducer 옵션

Shuffle / sort 단계 : 다른 맵의 데이터를 머지하는 과정이므로 트래픽이 많음 -> 트레픽 양을 최소한으로 줄여주는 게 중요

-> 컨바이너, Partitioner

하둡 2.0 YARN

YARN : 클러스터 리소스 매니저 -> MapReduce, Others (e.g., MPI)

Hadoop 3.0

Erasure Coding 피지컬하게 300mb -> 200mb 줄여주는 기능

파일 크기가 큰 경우, 용량을 절반으로 줄어드는 효과를 기대할 수 있음

[토크ON세미나_아파치 하둡 입문 4/4] 하둡 활용 (0)	2022.01.23
[토크ON세미나_아파치 하둡 입문] HDFS 이해 2 (0)	2022.01.23
[토크ON세미나_아파치 하둡 입문 1/3] HDFS 하둡 분산 파일 시스템 (0)	2022.01.22
[AWS SA-CO2] AWS EC2 (0)	2021.08.01
[SAA-CO2] AWS 스토리지 (0)	2021.07.31

WE GONNA MAKE IT