본문 바로가기
  • 기술을 이야기하지만 사람을 생각합니다.
30. Cloud

[토크ON세미나_아파치 하둡 입문] HDFS 이해 2

by WE DONE IT. 2022. 1. 23.
Hadoop Ecosystem을 공부하기 위해 빠르게 메모한 내용입니다.
예쁘게 정리하고 싶었으나, 게으름으로 오랫동안 묵혀두다가 언젠간 또는 누군가에게 도움이될 수도 있지 않을까 기대하며 퍼블릭으로 공개합니다.

출처 :

[토크ON세미나] 아파치 하둡 입문 2강 - 하둡 설치 | T아카데미

https://youtu.be/0i3ttGPBQp4


 

Rack Awareness

랙 단위로 장애(전원, 스위치 등)가 발생할 수 있기 때문에, 블록을 저장할 때 2개의 블록은 같은 랙에 저장하고 1개는 다른 블록에 저장하도록 구성함

 

HDFS Safe Mode

레플리케이션이 3인데 2인 경우 -> 언더 레플리케이션

한개도 없으면 미싱블록

일정 비율 늘어나면 세이프 모드로 변환됨 or 클러스터 재구성 시 블록 리포트 다 받기 전까지는 세이프 모드로 동작함

세이프 모드 상태에서는 파일 변경/이동이 불가능함 (어드민 명령어는 있음)

 

커럽트 블록

데이터 유실이 발생한 경우, 지우고 원본을 다시에 하둡에 넣는 작업이 필요함

(=노드 3대가 동시에 장애 발생한 경우)

 

HDFS 휴지통 설정 및 명령어

데이터 삭제 시, 즉시 영구적으로 데이터를 삭제하지 않고 휴지통(trash)으로 보낼 수 있는 설정값이 있음

보관 기간 등을 설정할 수 있음 (예 : 1일 ~ 3일 뒤 완전 삭제)

 

HDFS 암호화 - KMS

하둡의 특정 영역을 암호활 수 있음 (REST API 제공)

 

Hadoop 2.0

마스터 노드 장애 복구 기능이 추가됨 (active, standby)

stanby는 평소에는 동작하지 않다가 active에 장애가 발생한 경우 동작함

네임노드 edit.note 양에 따라서 다운타운이 발생할 수 있음 (몇 억개라면 5~10분 정도)

GC 발생하지 않도록 운영 노하우가 필요함

 

하둡 1.0에서는 네임노드 죽으면 그냥 장애였음

 

shared edit logs : 메타정보 스냅샷

1.0 -> 로컬 디스크에 저장되게 구성됨, 이미지 날라가면 하둡 끝나므로 서버 2-3개 운영 설정을 할 수 있음

2.0 -> shared edit

 

네임노드 고가용성 High Availabilty

저널 노드 : 이미지 스냅샷 edit log 가지고 있음 -> 여러 대 띄울 수 있음

active NN과 standby NN이 JN을 공유하는 방식

 

에디트로그 공유방식 1 : NFS (Network File System)

네트워크 장애 발생 (fencing) 시 (= active NN 장애 시, standby NN으로 전환되어야 하며 + 주키퍼 알고리즘에 의해서 관리되는 경우 -> actvie NN가 ZooKeeper와 standby NN로만 통신이 되지 않고 shared storge(NAS)와 통신이되는 상황이라면? )

--> active NN 두개가 관리됨

split brain 이슈 발생

 

코디네이터 Zookeper

 

별도 NAS 말고 하둡 자체만으로도 운영할 수 있는 아키텍처를 지원함

 

HDFS Federation

이중화랑 다름

하나의 네임노드에서 관리하는 파일, 블록 개수가 많아지면 물리적인 한계가 있음

네임노드를 여러 대로 운영해야되는 경우, Hadoop 2.0에서 지원함 

(예: 2020년 데이터 -  1번 NN, 2022 데이터 - 2번 NN)

2000 노드... 페더레이션을 고려해야되지 않을까?

 

액티브/스탠바이 NN 선출하는 역할

동물 지키는 사람

최소 5대의 앙상블로 구성

영구 / 임시 / 순차 노드

 

댓글