HDFS 튜토리얼 : HDFS 소개 및 기능



이 HDFS 자습서 블로그는 HDFS 또는 Hadoop 분산 파일 시스템 및 그 기능을 이해하는 데 도움이됩니다. 또한 핵심 구성 요소를 간략하게 살펴볼 것입니다.

HDFS 튜토리얼

이 HDFS 튜토리얼 블로그를 진행하기 전에 HDFS와 관련된 미친 통계를 살펴 보겠습니다.

  • 2010 년에, 페이스 북 가장 큰 HDFS 클러스터 저장 장치 중 하나가 있다고 주장 21 페타 바이트 데이터
  • 2012 년에, 페이스 북 보다 많은 단일 HDFS 클러스터가 있다고 선언했습니다. 100PB 데이터 .
  • 야후 ! 이상 100,000 CPU 이상 40,000 개의 서버 가장 큰 Hadoop 클러스터가 실행중인 Hadoop 실행 4,500 개 노드 . 모두 말해 야후! 백화점 455 페타 바이트 HDFS의 데이터.
  • 실제로 2013 년까지 Fortune 50 대 기업 대부분이 Hadoop을 사용하기 시작했습니다.

소화하기가 너무 어렵습니까? 권리. 논의 된대로 , Hadoop에는 두 가지 기본 단위가 있습니다. 에스 격노 가공 . Hadoop의 스토리지 부분이라고 할 때 HDFS 의미하는 Hadoop 분산 파일 시스템 . 그래서이 블로그에서는 HDFS .





SQL의 기능은 무엇입니까

여기서는 다음에 대해 이야기하겠습니다.

  • HDFS 란 무엇입니까?
  • HDFS의 장점
  • HDFS의 특징

HDFS에 대해 이야기하기 전에 분산 파일 시스템이란 무엇입니까?



DFS 또는 분산 파일 시스템 :

분산 파일 시스템이 말하는 관리 데이터 , 즉 여러 컴퓨터 또는 서버의 파일 또는 폴더. 즉, DFS는 클러스터의 여러 노드 또는 시스템에 데이터를 저장하고 여러 사용자가 데이터에 액세스 할 수 있도록하는 파일 시스템입니다. 따라서 기본적으로 Windows의 경우 NTFS (New Technology File System)를 사용하거나 Mac의 경우 HFS (Hierarchical File System)를 사용하는 것과 같이 컴퓨터에서 사용할 수있는 파일 시스템과 동일한 용도로 사용됩니다. 유일한 차이점은 분산 파일 시스템의 경우 단일 시스템이 아닌 여러 시스템에 데이터를 저장한다는 것입니다. 파일이 네트워크를 통해 저장 되더라도 DFS는 시스템에 앉아있는 사용자가 모든 데이터가 바로 해당 시스템에 저장되어있는 것처럼 느끼도록 데이터를 구성하고 표시합니다.

HDFS 란 무엇입니까?

Hadoop 분산 파일 시스템 또는 HDFS는 Java 기반 분산 파일 시스템으로 Hadoop 클러스터의 여러 노드에 대용량 데이터를 저장할 수 있습니다. 따라서 Hadoop을 설치하면 분산 환경에 데이터를 저장하기위한 기본 스토리지 시스템으로 HDFS가 제공됩니다.

이해하기 위해 예를 들어 보겠습니다. 각 컴퓨터에 1TB의 하드 드라이브가있는 컴퓨터 10 대 또는 컴퓨터 10 대가 있다고 가정 해보십시오. 이제 HDFS는 이러한 10 대의 시스템 위에 플랫폼으로 Hadoop을 설치하면 HDFS를 스토리지 서비스로 사용할 수 있다고 말합니다. Hadoop 분산 파일 시스템은 모든 시스템이 모든 종류의 데이터를 저장하기 위해 개별 스토리지를 제공하는 방식으로 배포됩니다.



HDFS 튜토리얼 : HDFS의 장점

1. 분산 스토리지 :

분산 스토리지-HDFS 튜토리얼-Edureka

Hadoop 클러스터의 10 개 머신 중 하나에서 Hadoop 분산 파일 시스템에 액세스하면 스토리지 용량이 10TB (총 스토리지 10 개 이상) 인 하나의 대형 머신에 로그인 한 것처럼 느껴질 것입니다. 무슨 뜻이에요? 즉, 10 개의 시스템 (각각 1TB)에 배포 될 10TB의 단일 대용량 파일을 저장할 수 있습니다.그래서 물리적 경계에 국한되지 않음 각 개별 기계의.

2. 분산 및 병렬 계산 :

데이터가 여러 기계로 나누어 져 있기 때문에 우리는 분산 및 병렬 계산 . 위의 예를 통해이 개념을 이해합시다. 단일 시스템에서 1TB 파일을 처리하는 데 43 분이 걸린다고 가정합니다. 이제 비슷한 구성 (43 분 또는 4.3 분)을 가진 Hadoop 클러스터에 10 대의 시스템이있을 때 동일한 1TB 파일을 처리하는 데 얼마나 많은 시간이 소요 될까요? 4.3 분, 맞아! 여기에 무슨 일이 벌어 졌었 나? 각 노드는 1TB 파일의 일부와 병렬로 작업합니다. 따라서 전 43 분 걸렸던 작업이 10 대의 기계로 나누어 져 이제는 4.3 분만에 완료됩니다.

3. 수평 적 확장 성 :

마지막으로 중요한 것은 수평 확장 또는 확장 Hadoop에서. 두 가지 유형의 확장이 있습니다. 세로수평 . 수직 확장 (확장)에서는 시스템의 하드웨어 용량을 늘립니다. 즉, 더 많은 RAM 또는 CPU를 확보하고 기존 시스템에 추가하여 더 강력하고 강력하게 만듭니다. 그러나 수직 확장 또는 확장과 관련된 문제가 있습니다.

  • 하드웨어 용량을 늘릴 수있는 한계는 항상 있습니다. 따라서 컴퓨터의 RAM 또는 CPU를 계속 늘릴 수 없습니다.
  • 수직 확장에서는 먼저 컴퓨터를 중지합니다. 그런 다음 RAM 또는 CPU를 늘려 더 강력한 하드웨어 스택을 만듭니다. 하드웨어 용량을 늘린 후 컴퓨터를 다시 시작합니다. 시스템을 중지 할 때 이러한 중단 시간이 문제가됩니다.

의 경우 수평 확장 (축소) , 개별 시스템의 하드웨어 용량을 늘리는 대신 기존 클러스터에 더 많은 노드를 추가합니다. 그리고 가장 중요한 것은 이동 중에 더 많은 기계 추가 즉, 시스템을 중지하지 않고 . 따라서 규모를 확장하는 동안 다운 타임이나 안전 지대가 없습니다. 하루가 끝나면 요구 사항을 충족하기 위해 더 많은 기계가 병렬로 작동합니다.

HDFS 튜토리얼 비디오 :

HDFS와 관련된 모든 개념이 자세히 논의 된 아래의 비디오를 확인할 수 있습니다.

다음 중 제어문의 예는 무엇입니까?

HDFS 튜토리얼 : HDFS의 특징

다음 HDFS 튜토리얼 블로그에서 HDFS 아키텍처를 살펴볼 때 이러한 기능을 자세히 이해할 것입니다. 그러나 지금은 HDFS의 기능에 대한 개요를 살펴 보겠습니다.

  • 비용: 일반적으로 HDFS는 매일 사용하는 데스크탑 / 노트북과 같은 상용 하드웨어에 배포됩니다. 따라서 프로젝트 소유 비용 측면에서 매우 경제적입니다. 우리는 저렴한 상용 하드웨어를 사용하고 있기 때문에 Hadoop 클러스터를 확장하는 데 막대한 비용을 지출 할 필요가 없습니다. 즉, HDFS에 더 많은 노드를 추가하는 것이 비용 효율적입니다.
  • 데이터의 다양성 및 양 : HDFS에 대해 이야기 할 때 거대한 데이터, 즉 테라 바이트 및 페타 바이트의 데이터와 다양한 종류의 데이터를 저장하는 것에 대해 이야기합니다. 따라서 구조화, 비 구조화 또는 반 구조화 등 모든 유형의 데이터를 HDFS에 저장할 수 있습니다.
  • 신뢰성 및 내결함성 : HDFS에 데이터를 저장하면 내부적으로 주어진 데이터를 데이터 블록으로 분할하고 Hadoop 클러스터 전체에 분산 된 방식으로 저장합니다. 메타 데이터에 기록되는 데이터 노드 중 어느 데이터 블록에있는 데이터 블록에 대한 정보입니다. 네임 노드 메타 데이터를 관리하고 데이터 노드 데이터 저장을 담당합니다.
    이름 노드는 또한 데이터를 복제합니다. 즉, 데이터의 여러 복사본을 유지합니다. 이러한 데이터 복제는 HDFS를 매우 안정적이고 내결함성있게 만듭니다. 따라서 노드 중 하나가 실패하더라도 다른 데이터 노드에있는 복제본에서 데이터를 검색 할 수 있습니다. 기본적으로 복제 요소는 3입니다. 따라서 HDFS에 1GB의 파일을 저장하면 마침내 3GB의 공간을 차지하게됩니다. 이름 노드는 주기적으로 메타 데이터를 업데이트하고 복제 요소를 일관되게 유지합니다.
  • 데이터 무결성: 데이터 무결성은 내 HDFS에 저장된 데이터가 올바른지 여부에 대해 이야기합니다. HDFS는 체크섬에 대해 저장된 데이터의 무결성을 지속적으로 확인합니다. 결함을 발견하면 이름 노드에보고합니다. 그런 다음 이름 노드는 추가 새 복제본을 생성하므로 손상된 사본을 삭제합니다.
  • 높은 처리량 : 처리량은 단위 시간에 수행 된 작업의 양입니다. 파일 시스템에서 데이터에 얼마나 빨리 액세스 할 수 있는지에 대해 설명합니다. 기본적으로 시스템 성능에 대한 통찰력을 제공합니다. 위의 예에서 보셨 듯이 계산을 향상시키기 위해 총 10 대의 기계를 사용했습니다. 거기에서 우리는 처리 시간을 줄일 수있었습니다 43 분 단순한 4.3 분 모든 기계가 병렬로 작동했기 때문입니다. 따라서 데이터를 병렬로 처리하여 처리 시간을 대폭 단축하여 높은 처리량을 달성했습니다.
  • 데이터 지역 : 데이터 지역 성은 데이터를 처리 장치로 이동하는 것이 아니라 처리 장치를 데이터로 이동하는 것을 말합니다. 기존 시스템에서는 데이터를 애플리케이션 계층으로 가져온 다음 처리했습니다. 하지만 이제 아키텍처와 엄청난 양의 데이터로 인해 데이터를 애플리케이션 계층으로 가져 오면네트워크 성능을 눈에 띄게 줄입니다..따라서 HDFS에서는 데이터가 상주하는 데이터 노드로 계산 부분을 가져옵니다. 따라서 데이터를 이동하는 것이 아니라 프로그램이나 프로세스를 가져 오는 것입니다.데이터의 일부입니다.

이제 HDFS와 그 기능에 대한 간략한 아이디어를 얻었습니다. 하지만 저를 믿으세요. 이것은 빙산의 일각 일뿐입니다. 내 다음에는 , 나는 깊이 잠수 할 것입니다 HDFS 아키텍처 HDFS의 성공 비결을 공개하겠습니다. 우리는 함께 다음과 같은 당신의 머릿속에서 고민하고있는 모든 질문에 답할 것입니다.

  • Hadoop 분산 파일 시스템에서 데이터를 읽거나 쓸 때 뒤에서 어떤 일이 발생합니까?
  • HDFS를 내결함성으로 만드는 랙 인식과 같은 알고리즘은 무엇입니까?
  • Hadoop 분산 파일 시스템은 어떻게 복제본을 관리하고 생성합니까?
  • 블록 작업이란 무엇입니까?

이제 HDFS와 그 기능을 이해 했으므로 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 작성했습니다. Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.

질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.