Hadoop이 포함 된 Apache Spark – 중요한 이유



주요 기업이 대규모로 Hadoop과 함께 Apache Spark를 구현 한 것은 실시간 처리와 관련하여 성공과 잠재력을 나타냅니다.

자체 플랫폼이되는 데이터 처리 프레임 워크 인 Hadoop은 좋은 구성 요소가 연결되면 더욱 좋아집니다. Hadoop의 MapReduce 구성 요소와 같은 Hadoop의 일부 단점은 실시간 데이터 분석 속도가 느린 것으로 유명합니다.





배치 및 스트리밍 워크로드 모두를 위해 설계된 Hadoop 기반 데이터 처리 엔진 인 Apache Spark는 이제 1.0 버전으로 제공되며 Hadoop이 포함하도록 푸시되는 작업 종류를 예시하는 기능을 갖추고 있습니다. Spark는 기존 Hadoop 클러스터 위에서 실행되어 향상된 추가 기능을 제공합니다.

Spark의 주요 기능과 Hadoop 및 .



Apache Spark의 주요 이점 :

img2-R

Spark의 놀라운 기능 :

  • Hadoop 통합 – Spark는 HDFS에 저장된 파일로 작업 할 수 있습니다.
  • Spark의 대화 형 셸 – Spark는 Scala로 작성되었으며 자체 버전의 Scala 인터프리터가 있습니다.
  • Spark의 분석 제품군 – Spark는 대화 형 쿼리 분석, 대규모 그래프 처리 및 분석 및 실시간 분석을위한 도구와 함께 제공됩니다.
  • 탄력적 인 분산 데이터 세트 (RDD) – RDD는 컴퓨팅 노드 클러스터 전체에서 메모리 내 캐시 될 수있는 분산 개체입니다. Spark에서 사용되는 기본 데이터 개체입니다.
  • 분산 연산자 – MapReduce 외에도 RDD에서 사용할 수있는 다른 많은 연산자가 있습니다.

Hadoop과 함께 Apache Spark를 사용할 때의 이점 :

셀레늄의 다양한 유형의 프레임 워크
  • Apache Spark는 Hadoop 오픈 소스 커뮤니티에 적합합니다. HDFS (Hadoop Distributed File System) 위에 구축됩니다. 그러나 Spark는 2 단계 MapReduce 패러다임에 묶여 있지 않으며 특정 애플리케이션에 대해 Hadoop MapReduce보다 최대 100 배 빠른 성능을 약속합니다.



  • 기계 학습 알고리즘에 적합 – Spark는 사용자 프로그램이 데이터를 클러스터의 메모리에로드하고이를 반복적으로 쿼리 할 수있는 인 메모리 클러스터 컴퓨팅을위한 기본 요소를 제공합니다.

  • 100 배 더 빠르게 실행 – Spark, 분석 소프트웨어는 Hadoop 데이터 처리 플랫폼에서 실행되는 작업의 속도를 높일 수도 있습니다. 'Hadoop Swiss Army 칼'이라고 불리는 Apache Spark는 표준 Apache Hadoop MapReduce에서 실행되는 작업보다 100 배 더 빠르게 실행할 수있는 데이터 분석 작업을 생성하는 기능을 제공합니다. MapReduce는 배치 모드에서 작업을 실행하기 때문에 Hadoop 클러스터에서 병목 현상으로 널리 비판을 받아 데이터를 실시간으로 분석 할 수 없습니다.

  • MapReduce의 대안 – Spark는 MapReduce의 대안을 제공합니다. 5 초 이하의 간격으로 짧은 시간에 마이크로 배치로 작업을 실행합니다. 또한 Twitter Storm과 같은 실시간 스트림 지향 Hadoop 프레임 워크보다 더 많은 안정성을 제공합니다. 이 소프트웨어는 실시간 데이터의 지속적인 분석과 같은 다양한 작업에 사용될 수 있으며 소프트웨어 라이브러리 덕분에 기계 학습 및 그래프 처리와 관련된 계산적으로 심층적 인 작업을 수행 할 수 있습니다.

  • 다국어 지원 – 개발자는 Spark를 사용하여 80 개 이상의 고급 연산자 세트를 사용하여 Java, Scala 또는 Python으로 데이터 분석 작업을 작성할 수 있습니다.

  • 도서관 지원 – Spark의 라이브러리는 상업적으로 지원되는 최신 Hadoop 배포를 통해보다 적극적으로 탐색중인 처리 작업 유형을 보완하도록 설계되었습니다. MLlib는 순진한 베이지안 분류 또는 클러스터링과 같은 수많은 공통 기계 학습 알고리즘을 구현합니다. Spark Streaming은 여러 소스에서 수집 된 데이터의 고속 처리를 지원하고 GraphX는 그래프 데이터에 대한 계산을 허용합니다.

  • 안정적인 API – 버전 1.0에서 Apache Spark는 개발자가 자체 애플리케이션을 통해 Spark와 상호 작용하는 데 사용할 수있는 안정적인 API (애플리케이션 프로그래밍 인터페이스)를 제공합니다. 이를 통해 Hadoop 기반 배포에서 Storm을 더 쉽게 사용할 수 있습니다.

    PHP는 배열을 객체로 변환
  • SPARK SQL 구성 요소 – 구조화 된 데이터에 액세스하기위한 Spark SQL 구성 요소는 분석 작업에서 구조화되지 않은 데이터와 함께 데이터를 조사 할 수 있도록합니다. 현재 알파 버전 인 Spark SQL을 사용하면 Apache Hive에 저장된 데이터에 대해 SQL과 유사한 쿼리를 실행할 수 있습니다. SQL 쿼리를 통해 Hadoop에서 데이터를 추출하는 것은 Hadoop에서 발생하는 실시간 쿼리 기능의 또 다른 변형입니다.

  • Hadoop과 Apache Spark 호환성 [HDFS, HBASE 및 YARN] – Apache Spark는 Hadoop의 분산 파일 시스템 (HDFS)은 물론 YARN (Yet Another Resource Negotiator) 및 HBase 분산 데이터베이스와 같은 다른 Hadoop 구성 요소와 완벽하게 호환됩니다.

업계 채택 자 :

Cloudera, Pivotal, IBM, Intel 및 MapR과 같은 IT 회사는 모두 Spark를 Hadoop 스택으로 접었습니다. Spark 개발자 중 일부가 설립 한 회사 인 Databricks는 소프트웨어에 대한 상업적 지원을 제공합니다. 무엇보다도 Yahoo와 NASA는 일상적인 데이터 작업에 소프트웨어를 사용합니다.

결론:

Spark가 제공해야하는 것은 Hadoop의 사용자와 상용 공급 업체 모두에게 큰 매력이 될 것입니다. Hadoop을 구현하려고하고 이미 Hadoop을 중심으로 많은 분석 시스템을 구축 한 사용자는 Hadoop을 실시간 처리 시스템으로 사용할 수 있다는 생각에 매료됩니다.

Spark 1.0은 독점 항목을 지원하거나 구축 할 수있는 또 다른 다양한 기능을 제공합니다. 실제로 3 대 Hadoop 공급 업체 중 하나 인 Cloudera는 이미 Cloudera Enterprise 제품을 통해 Spark에 대한 상업적 지원을 제공하고 있습니다. Hortonworks는 또한 Hadoop 배포의 구성 요소로 Spark를 제공하고 있습니다. 최고의 기업들이 대규모로 Spark를 구현 한 것은 실시간 처리와 관련하여 성공과 잠재력을 나타냅니다.

질문이 있으십니까? 댓글 섹션에서 언급하시면 다시 연락 드리겠습니다.

관련 게시물:

소켓 프로그래밍의 사용은 무엇입니까