본문 바로가기
  • 기술을 이야기하지만 사람을 생각합니다.
30. Cloud

[토크ON세미나_아파치 하둡 입문 4/4] 하둡 활용

by WE DONE IT. 2022. 1. 23.
하둡 강의를 들으면서 빠르게 메모한 내용입니다.
예쁘게 정리해서 발행하고 싶었으나 게으름을 이기지 못하고 오랫동안 방치하다가, 누군가에게는 도움이 될 수도 있지 않을까 기대하며 공개발행으로 전환하였습니다.

출처 :

[토크ON세미나] 아파치 하둡 입문 6강 - 하둡 활용 | T아카데미

https://youtu.be/nrhgH0qShwI

 


 

하둡 : 큰 데이터에 유리

 

적합하지 않은 경우

크지 않은 경우 (오히려 느릴 수 있음)

스몰 파일들이 저장되면 여러 측면에서 좋지 않음 (NN 메모리를 많이 씀, 부하 이슈가 있음)

 

MapReduce

128mb 미만이면 combined format 으로 합쳐서 성능 측면에서 장점을 얻을 수 있음

더 쉬운 분석을 위해 SQL을 지원하는 쿼리 엔진이 필요함 (예: Hive)

 

Apache Spark 

하둡 데이터를 RDB를 가지고 

성능이 Hive 보다 더 좋음

메모리 사용

ETL 처리 가능

(메모리보다 디스크가 더 크기 때문에, 메모리에서 처리하지 못하는 것을 디스크 단위로 읽고 쓰는 Hive는 처리할 수 있음)

 

 

댓글