데이터 과학에 Hadoop 적용



Hadoop이 확장 가능한 데이터 플랫폼과 컴퓨팅 엔진의 역할을하면서 데이터 과학은 엔터프라이즈 혁신의 중심으로 다시 부상하고 있습니다. Hadoop은 이제 데이터 과학자에게 도움이됩니다.

Apache Hadoop은 빅 데이터에 투자하는 조직이 차세대 데이터 아키텍처를 지원하는 기술로 빠르게 자리 잡고 있습니다. Hadoop이 확장 가능한 데이터 플랫폼과 계산 엔진으로 모두 사용되면서 데이터 과학은 온라인 제품 추천, 자동화 된 사기 감지 및 고객 감정 분석과 같은 적용된 데이터 솔루션을 통해 엔터프라이즈 혁신의 중심으로 다시 부상하고 있습니다.

이 기사에서는 데이터 과학에 대한 개요와 대규모 데이터 과학 프로젝트에 Hadoop을 활용하는 방법을 제공합니다.





Hadoop은 데이터 과학자에게 어떻게 유용합니까?

Hadoop은 데이터 과학자에게 도움이됩니다. Hadoop이 데이터 과학자의 생산성 향상에 어떻게 도움이되는지 살펴 보겠습니다. Hadoop에는 모든 데이터를 한곳에서 저장하고 검색 할 수있는 고유 한 기능이 있습니다. 이러한 방식을 통해 다음을 달성 할 수 있습니다.

  • 모든 데이터를 RAW 형식으로 저장하는 기능
  • 데이터 사일로 컨버전스
  • 데이터 과학자들은 결합 된 데이터 자산의 혁신적인 용도를 찾을 것입니다.

Hadoop-with-ds11



Hadoop의 힘의 핵심 :

  • 시간 및 비용 절감 – Hadoop은 대규모 데이터 제품을 구축하는 데 드는 시간과 비용을 획기적으로 줄이는 데 도움이됩니다.
  • 계산은 데이터와 함께 배치됩니다. 데이터 및 계산 시스템은 함께 작동하도록 코드 서명됩니다.
  • 규모에 맞는 경제성 – '상용'하드웨어 노드를 사용할 수 있고자가 치유 기능이 있으며 대규모 데이터 세트의 일괄 처리에 탁월합니다.
  • 한 번의 쓰기와 여러 번의 읽기를위한 설계 – 임의 쓰기가 없으며하드 드라이브에 대한 최소 검색에 최적화 됨

왜 데이터 과학이있는 Hadoop인가?

이유 # 1 : 대규모 데이터 세트 탐색

가장 중요한 이유는 대규모 데이터 세트 탐색 하둡과 직접 Hadoop 통합데이터 분석 흐름 .

이는 다음과 같은 간단한 통계를 활용하여 달성됩니다.



  • 평균
  • 중앙값
  • 분위수
  • 전처리 : grep, regex

또한 애드혹 샘플링 / 필터링을 사용하여 무작위 : 교체 유무, 고유 키별 샘플 및 K- 폴드 크로스 밸리데이션.

이유 # 2 : 대규모 데이터 세트를 채굴하는 능력

대규모 데이터 세트가있는 학습 알고리즘에는 고유 한 문제가 있습니다. 당면 과제 :

  • 데이터는 메모리에 맞지 않습니다.
  • 학습에는 훨씬 더 많은 시간이 걸립니다.

Hadoop을 사용할 때 Hadoop 클러스터의 노드간에 데이터를 분산하고 분산 / 병렬 알고리즘을 구현하는 등의 기능을 수행 할 수 있습니다. 권장 사항의 경우 Alternate Least Square 알고리즘과 클러스터링 K-Means를 사용할 수 있습니다.

이유 # 3 : 대규모 데이터 준비

우리 모두는 데이터 과학 작업의 80 %가 '데이터 준비'와 관련되어 있다는 것을 알고 있습니다. Hadoop은 대규모 데이터 세트의 일괄 준비 및 정리에 이상적입니다.

이유 # 4 : 데이터 기반 혁신 가속화 :

기존 데이터 아키텍처에는 속도에 대한 장벽이 있습니다. RDBMS 사용 쓰기시 스키마 따라서 변경은 비용이 많이 듭니다. 또한 높은 장벽 데이터 기반 혁신을 위해.

피보나치 코드 C ++

Hadoop 사용 'Schema on Read'혁신을위한 더 빠른 시간 따라서 낮은 장벽 데이터 기반 혁신에 대해

따라서 데이터 과학과 함께 Hadoop이 필요한 네 가지 주요 이유를 요약하면 다음과 같습니다.

  1. 대규모 데이터 세트 채굴
  2. 전체 데이터 세트로 데이터 탐색
  3. 대규모 전처리
  4. 더 빠른 데이터 기반주기

따라서 조직은 데이터를 마이닝하고 유용한 결과를 수집하는 데 Hadoop을 활용할 수 있습니다.

질문이 있으십니까 ?? 댓글 섹션에 언급 해 주시면 다시 연락 드리겠습니다.

관련 게시물:

Cassandra를 통한 데이터 과학의 중요성