하둡 강의를 들으면서 빠르게 메모한 내용입니다.
예쁘게 정리해서 발행하고 싶었으나 게으름을 이기지 못하고 오랫동안 방치하다가, 누군가에게는 도움이 될 수도 있지 않을까 기대하며 공개발행으로 전환하였습니다.

출처 :

[토크ON세미나] 아파치 하둡 입문 6강 - 하둡 활용 | T아카데미

하둡 : 큰 데이터에 유리

적합하지 않은 경우

크지 않은 경우 (오히려 느릴 수 있음)

스몰 파일들이 저장되면 여러 측면에서 좋지 않음 (NN 메모리를 많이 씀, 부하 이슈가 있음)

MapReduce

128mb 미만이면 combined format 으로 합쳐서 성능 측면에서 장점을 얻을 수 있음

더 쉬운 분석을 위해 SQL을 지원하는 쿼리 엔진이 필요함 (예: Hive)

Apache Spark

하둡 데이터를 RDB를 가지고

성능이 Hive 보다 더 좋음

메모리 사용

ETL 처리 가능

(메모리보다 디스크가 더 크기 때문에, 메모리에서 처리하지 못하는 것을 디스크 단위로 읽고 쓰는 Hive는 처리할 수 있음)

[토크ON세미나_아파치 하둡 입문 3/3] Hadoop Map Reduce (0)	2022.01.23
[토크ON세미나_아파치 하둡 입문] HDFS 이해 2 (0)	2022.01.23
[토크ON세미나_아파치 하둡 입문 1/3] HDFS 하둡 분산 파일 시스템 (0)	2022.01.22
[AWS SA-CO2] AWS EC2 (0)	2021.08.01
[SAA-CO2] AWS 스토리지 (0)	2021.07.31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

WE GONNA MAKE IT