빅 데이터와 ETL은 가족입니다



이 블로그에서는 빅 데이터와 ETL의 관계를 살펴 보겠습니다. Talend는 BigData와 ETL을 연결하는 데 널리 사용되는 도구입니다.

빅 데이터는 지식을 갖춘 숙련 된 전문가처럼 최근에 충분히 과장되었습니다. 기본 기술을 사용하지 않고 그라운드 제로에서 시작하는 것이 항상 쉬운 일은 아닙니다. 그러나 정사각형 컷을 활용하고 경비원에 적응하면 놀라운 일이 될 것입니다. Bingo, 우리는 ETL 기술을 사용하여 빅 데이터를 배우는 것에 대해 이야기하고 있습니다.





데이터 변환 워크 플로를 설계하는 ETL 개발자는 도구를 매우 잘 사용하고 워크 플로를 Hadoop 작업으로 변환 할 수 있습니다. Hadoop은 MapReduce 프로그램 (하둡에서 대량의 데이터를 처리하는 데 도움이되는 또 다른 오픈 소스 기술)을 사용하여 BigData를 처리하는 데 광범위하게 사용되는 오픈 소스 프레임 워크입니다. 대부분의 경우 빅 데이터에서 숙련 된 리소스를 찾는 것은 어려울 수 있습니다.

ETL 개발자가 은행 웹 사이트에서 백만 건 이상의 요청을 한 IP 주소를 찾아야하는 경우 Hadoop에 저장된 웹 로그 데이터를 처리하는 MapReduce 작업을 작성해야합니다. . 그러나 ETL 기술의 발전으로 작업 개발자는 표준 ETL 설계 도구를 사용하여 Hadoop의 여러 소스 (파일, Hive, HBase)에서 데이터를 읽고 데이터를 결합, 집계, 필터링 및 변환 할 수있는 ETL 흐름을 만들 수 있습니다. IP 주소에 대한 쿼리에 대한 답을 찾으려면



Talend는 ETL 작업을 MapReduce 작업으로 '변환'할 수있는 유일한 그래픽 사용자 인터페이스 도구입니다. 따라서 Talend ETL 작업은 Hadoop에서 MapReduce 작업으로 실행되고 몇 분 안에 빅 데이터 작업을 완료합니다. 이는 빅 데이터 기술의 진입 장벽을 줄이는 데 도움이되는 핵심 혁신이며 ETL 작업 개발자 (초보자 및 고급)가 데이터웨어 하우스 오프 로딩을 더 많이 수행 할 수 있도록합니다.

Talend를 사용하면 빅 데이터 도시에서의 생활이 훨씬 쉬워집니다.

Hadoop 애플리케이션 위에있는 그래픽 추상화 계층 – 이는 빅 데이터 세계에서 삶을 훨씬 더 쉽게 만듭니다.



Talend의 말 :“오픈 소스 데이터 통합 ​​분야의 혁신 자이자 리더로서의 우리의 역사에 따라 Talend는 순수 오픈 소스 솔루션을 제공하는 최초의 공급자입니다. 빅 데이터 통합 . Talend Open Studio for BigData는 강력한 Hadoop 애플리케이션 위에 사용하기 쉬운 그래픽 개발 환경을 계층화하여 빅 데이터 관리 그 어느 때보 다 더 많은 회사와 더 많은 개발자가 액세스 할 수 있습니다.

Eclipse 기반 그래픽 작업 공간을 갖춘 Talend Open Studio for BigData는 개발자와 데이터 과학자가 작성하지 않고도 HDFS, HBase, Hive 및 Pig와 같은 Hadoop 로딩 및 처리 기술을 활용할 수 있도록합니다. Hadoop 애플리케이션 암호. 팔레트에서 그래픽 구성 요소를 선택하고 정렬하고 구성하기 만하면 Hadoop 작업을 만들 수 있습니다. 예를 들면 :

자바 system.exit (0)
  1. HDFS (Hadoop 분산 파일 시스템)로 데이터로드
  2. 사용하다 하둡 돼지 HDFS에서 데이터 변환
  3. 데이터를 하둡 하이브 기반 데이터웨어 하우스
  4. Hive에서 ELT (추출,로드, 변환) 집계 수행
  5. 이점 Sqoop 관계형 데이터베이스와 Hadoop 통합

Talend를 사용하여 몇 분 이내에 원활하게 통합되는 Hadoop 애플리케이션.

Hadoop 애플리케이션이 조직에서 진정으로 액세스 할 수 있으려면 전체 데이터 흐름에 원활하게 통합되어야합니다. 빅 데이터를위한 Talend Open Studio Hadoop 애플리케이션을 더 광범위한 데이터 아키텍처에 통합하는 데 이상적인 도구입니다. Talend는 사용 가능한 다른 데이터 통합 ​​솔루션보다 더 많은 기본 제공 커넥터 구성 요소를 제공합니다. 800 커넥터 주요 파일 형식, 데이터베이스 또는 패키지 된 엔터프라이즈 응용 프로그램에서 쉽게 읽고 쓸 수 있습니다. 예를 들어, Talend Open Studio for BigData에서 드래그 앤 드롭 구성 가능한 구성 요소를 사용하여 구분 된 로그 파일에서 Hadoop Hive로 데이터를 이동하고 Hive에서 작업을 수행하고 Hive에서 MySQL 데이터베이스로 데이터를 추출하는 데이터 통합 ​​흐름을 생성 할 수 있습니다. (또는 Oracle, Sybase, SQL Server 등).

최첨단 Hadoop 애플리케이션으로 작업하는 것이 얼마나 쉬운 지 알고 싶으십니까?

기다릴 필요가 없습니다. Talend Open Studio for BigData는 Apache 라이선스에 따라 무료로 다운로드하여 사용할 수있는 오픈 소스 소프트웨어입니다.

마을에서 이야기

Talend는데이터 통합 ​​도구에 대한 Magic Quadrant의 비전최근에는 데이터 품질 및 MDM 분야의 선구자이자 환상적인 빅 데이터 요리를 만드는 모든 재료를 개척했습니다.

그들은“빅 데이터 통합은 조직의 성능과 확장 성을 45 % 향상시킨다”고 주장합니다.

개발자는 Talend 5.5 이상에서만 MapReduce 또는 Pig 전문가가 아니어도 고성능 Hadoop 코드를 생성 할 수 있습니다.

몇 달 전 Talend의 기사 중 하나는 다음과 같이 말했습니다. 'Hadoop 채택이 급증하고 있으며 크고 작은 기업은 이러한 증가하는 수요를 충족 할 수있는 충분한 지식을 갖춘 Hadoop 개발자를 찾기 위해 고군분투하고 있습니다.' Talend 5.5 만 있으면 모든 데이터 통합 ​​개발자가 시각적 개발 환경을 사용하여 네이티브의 고성능 및 확장 성이 뛰어난 Hadoop 코드를 생성 할 수 있습니다. 이렇게하면 이제 빅 데이터 프로젝트에 기여할 수있는 대규모 개발 리소스 풀이 열립니다. 또한 Talend는 빅 데이터 분석 프로젝트가 실시간 고객 상호 작용을 지원할 수 있도록하는 Hadoop의 새로운 개발의 최첨단에 머물고 있습니다.

Talend for BigData는 타사, API 및 소셜 네트워킹 피드와 같은 이기종 소스 시스템에서 데이터 세트를 수집하고 해당 데이터를 종단 간 고객 여정의 시각적 그림으로 변환하여 조직을 이해하는 데 도움이 될 수 있습니다.

은행 업계, 제약, 전자 상거래, 보험 – Talend는 현재와 미래의 수요를 충족하는 최첨단 기술임을 입증하는 Hadoop과의 손쉬운 혼합으로 모든 규모의 데이터를 통합 할 수 있습니다.

전 세계의 사용 사례

마케팅 캠페인에서 은행 업계의 고객 서비스, 사기 탐지에 이르기까지 빅 데이터는 어디에나 있습니다.

오픈 소스 에디션에 800 개가 넘는 커넥터 만 포함되어있어 모든 것에 연결하고 모든 것을 가져올 수있는 가장 널리 지원되는 플랫폼이라고 주장합니다.

변화하는 패턴과 NoSQL, 오픈 소스, Hadoop에 맞춰 조정됨에 따라 Talend를 사용하여 빅 데이터 및 ETL 스타일을 학습하는 것은 언제 어디서나 어떤 형태로든 데이터를 처리하는 모든 사람에게 가장 논리적 인 결정이 될 것입니다.

요약하면, ETL 도구는 통과되지 않습니다. 이들은 빅 데이터 생태계의 중심이며 데이터 분석을 가능하게하는 데 중요한 역할을합니다.

이것이 바로 Talend가 '코딩없이 빅 데이터에 제로, 10 분 이내에'로 빛나는 이유입니다.

질문이 있으십니까? 댓글 섹션에서이를 언급하면 ​​다시 연락 드리겠습니다.

C ++ 정렬 기능

관련 게시물: