하둡 강의를 들으면서 빠르게 메모한 내용입니다.
예쁘게 정리해서 발행하고 싶었으나 게으름을 이기지 못하고 오랫동안 방치하다가, 누군가에게는 도움이 될 수도 있지 않을까 기대하며 공개발행으로 전환하였습니다.
출처 :
[토크ON세미나] 아파치 하둡 입문 6강 - 하둡 활용 | T아카데미
하둡 : 큰 데이터에 유리
적합하지 않은 경우
크지 않은 경우 (오히려 느릴 수 있음)
스몰 파일들이 저장되면 여러 측면에서 좋지 않음 (NN 메모리를 많이 씀, 부하 이슈가 있음)
MapReduce
128mb 미만이면 combined format 으로 합쳐서 성능 측면에서 장점을 얻을 수 있음
더 쉬운 분석을 위해 SQL을 지원하는 쿼리 엔진이 필요함 (예: Hive)
Apache Spark
하둡 데이터를 RDB를 가지고
성능이 Hive 보다 더 좋음
메모리 사용
ETL 처리 가능
(메모리보다 디스크가 더 크기 때문에, 메모리에서 처리하지 못하는 것을 디스크 단위로 읽고 쓰는 Hive는 처리할 수 있음)
'30. Cloud' 카테고리의 다른 글
[토크ON세미나_아파치 하둡 입문 3/3] Hadoop Map Reduce (0) | 2022.01.23 |
---|---|
[토크ON세미나_아파치 하둡 입문] HDFS 이해 2 (0) | 2022.01.23 |
[토크ON세미나_아파치 하둡 입문 1/3] HDFS 하둡 분산 파일 시스템 (0) | 2022.01.22 |
[AWS SA-CO2] AWS EC2 (0) | 2021.08.01 |
[SAA-CO2] AWS 스토리지 (0) | 2021.07.31 |
댓글