Hadoop Ecosystem을 공부하기 위해 빠르게 메모한 내용입니다.
예쁘게 정리하고 싶었으나, 게으름으로 오랫동안 묵혀두다가 언젠간 또는 누군가에게 도움이될 수도 있지 않을까 기대하며 퍼블릭으로 공개합니다.
출처 :
[토크ON세미나] 아파치 하둡 입문 2강 - 하둡 설치 | T아카데미
Rack Awareness
랙 단위로 장애(전원, 스위치 등)가 발생할 수 있기 때문에, 블록을 저장할 때 2개의 블록은 같은 랙에 저장하고 1개는 다른 블록에 저장하도록 구성함
HDFS Safe Mode
레플리케이션이 3인데 2인 경우 -> 언더 레플리케이션
한개도 없으면 미싱블록
일정 비율 늘어나면 세이프 모드로 변환됨 or 클러스터 재구성 시 블록 리포트 다 받기 전까지는 세이프 모드로 동작함
세이프 모드 상태에서는 파일 변경/이동이 불가능함 (어드민 명령어는 있음)
커럽트 블록
데이터 유실이 발생한 경우, 지우고 원본을 다시에 하둡에 넣는 작업이 필요함
(=노드 3대가 동시에 장애 발생한 경우)
HDFS 휴지통 설정 및 명령어
데이터 삭제 시, 즉시 영구적으로 데이터를 삭제하지 않고 휴지통(trash)으로 보낼 수 있는 설정값이 있음
보관 기간 등을 설정할 수 있음 (예 : 1일 ~ 3일 뒤 완전 삭제)
HDFS 암호화 - KMS
하둡의 특정 영역을 암호활 수 있음 (REST API 제공)
Hadoop 2.0
마스터 노드 장애 복구 기능이 추가됨 (active, standby)
stanby는 평소에는 동작하지 않다가 active에 장애가 발생한 경우 동작함
네임노드 edit.note 양에 따라서 다운타운이 발생할 수 있음 (몇 억개라면 5~10분 정도)
GC 발생하지 않도록 운영 노하우가 필요함
하둡 1.0에서는 네임노드 죽으면 그냥 장애였음
shared edit logs : 메타정보 스냅샷
1.0 -> 로컬 디스크에 저장되게 구성됨, 이미지 날라가면 하둡 끝나므로 서버 2-3개 운영 설정을 할 수 있음
2.0 -> shared edit
네임노드 고가용성 High Availabilty
저널 노드 : 이미지 스냅샷 edit log 가지고 있음 -> 여러 대 띄울 수 있음
active NN과 standby NN이 JN을 공유하는 방식
에디트로그 공유방식 1 : NFS (Network File System)
네트워크 장애 발생 (fencing) 시 (= active NN 장애 시, standby NN으로 전환되어야 하며 + 주키퍼 알고리즘에 의해서 관리되는 경우 -> actvie NN가 ZooKeeper와 standby NN로만 통신이 되지 않고 shared storge(NAS)와 통신이되는 상황이라면? )
--> active NN 두개가 관리됨
split brain 이슈 발생
코디네이터 Zookeper
별도 NAS 말고 하둡 자체만으로도 운영할 수 있는 아키텍처를 지원함
HDFS Federation
이중화랑 다름
하나의 네임노드에서 관리하는 파일, 블록 개수가 많아지면 물리적인 한계가 있음
네임노드를 여러 대로 운영해야되는 경우, Hadoop 2.0에서 지원함
(예: 2020년 데이터 - 1번 NN, 2022 데이터 - 2번 NN)
2000 노드... 페더레이션을 고려해야되지 않을까?
액티브/스탠바이 NN 선출하는 역할
동물 지키는 사람
최소 5대의 앙상블로 구성
영구 / 임시 / 순차 노드
'30. Cloud' 카테고리의 다른 글
[토크ON세미나_아파치 하둡 입문 4/4] 하둡 활용 (0) | 2022.01.23 |
---|---|
[토크ON세미나_아파치 하둡 입문 3/3] Hadoop Map Reduce (0) | 2022.01.23 |
[토크ON세미나_아파치 하둡 입문 1/3] HDFS 하둡 분산 파일 시스템 (0) | 2022.01.22 |
[AWS SA-CO2] AWS EC2 (0) | 2021.08.01 |
[SAA-CO2] AWS 스토리지 (0) | 2021.07.31 |
댓글