Informatica ETL : Informatica PowerCenter를 사용한 ETL 이해를위한 초보자 가이드



Informatica ETL의 개념과 ETL 프로세스의 다양한 단계를 이해하고 직원 데이터베이스와 관련된 사용 사례를 실습합니다.

Informatica ETL의 목적은 사용자에게 소스 시스템에서 데이터를 추출하여 데이터웨어 하우스로 가져 오는 프로세스를 제공 할뿐만 아니라 사용자에게 다양한 플랫폼 및 애플리케이션의 데이터를 통합 할 수있는 공통 플랫폼을 제공하는 것입니다.이로 인해 수요가 증가했습니다. .Informatica ETL에 대해 이야기하기 전에 먼저 ETL이 필요한 이유를 이해하겠습니다.

ETL이 필요한 이유는 무엇입니까?

모든 회사요즘은 다양한 소스의 대규모 데이터 세트를 처리합니다. 이 데이터는 비즈니스 의사 결정을위한 통찰력있는 정보를 제공하기 위해 처리되어야합니다. 그러나 이러한 데이터에는 다음과 같은 문제가 있습니다.





  • 대기업은 많은 양의 데이터를 생성하며 이러한 엄청난 양의 데이터는 모든 형식이 될 수 있습니다. 여러 데이터베이스와 많은 구조화되지 않은 파일에서 사용할 수 있습니다.
  • 이 데이터는 수집, 결합, 비교 및 ​​완벽하게 작동하도록 만들어야합니다. 그러나 서로 다른 데이터베이스는 잘 통신하지 않습니다!
  • 많은 조직에서 이러한 데이터베이스 간의 인터페이스를 구현했지만 다음과 같은 문제에 직면했습니다.
    • 모든 데이터베이스 쌍에는 고유 한 인터페이스가 필요합니다.
    • 하나의 데이터베이스를 변경하면 많은 인터페이스를 업그레이드해야 할 수 있습니다.

아래에서 조직의 다양한 데이터베이스와 상호 작용을 볼 수 있습니다.

조직의 다양한 데이터 세트-Informatica-ETL-Edureka

조직의 여러 부서에서 사용하는 다양한 데이터베이스



조직 내 데이터베이스의 다양한 상호 작용

위에서 볼 수 있듯이 조직은 다양한 부서에 다양한 데이터베이스를 보유 할 수 있으며 다양한 상호 작용 인터페이스를 만들어야하므로 이들 간의 상호 작용을 구현하기가 어려워집니다. 이러한 문제를 극복하기위한 최상의 솔루션은 다음과 같은 개념을 사용하는 것입니다. 데이터 통합 서로 다른 데이터베이스 및 형식의 데이터가 서로 통신 할 수 있습니다. 아래 그림은 데이터 통합 ​​도구가 다양한 데이터베이스 간의 통신을위한 공통 인터페이스가되는 방법을 이해하는 데 도움이됩니다.

데이터 통합을 통해 연결된 다양한 데이터베이스



그러나 데이터 통합을 수행하는 데 사용할 수있는 다른 프로세스가 있습니다. 이러한 프로세스 중 ETL은 가장 최적화되고 효율적이며 신뢰할 수있는 프로세스입니다. ETL을 통해 사용자는 다양한 소스에서 데이터를 가져올 수있을뿐만 아니라이 데이터를 최종 대상에 저장하기 전에 데이터에 대해 다양한 작업을 수행 할 수 있습니다.

시장에서 사용 가능한 다양한 ETL 도구 중에서 Informatica PowerCenter는 시장을 선도하는 데이터 통합 ​​플랫폼입니다. 거의 500,000 개의 플랫폼 및 애플리케이션 조합에서 테스트 한 Informatica PowerCenter는 가능한 가장 광범위한 이기종 표준, 시스템 및 애플리케이션과 상호 작용합니다. 이제 Informatica ETL 프로세스와 관련된 단계를 이해하겠습니다.

정보학 ETL | Informatica 아키텍처 | Informatica PowerCenter 자습서 | Edureka

이 Edureka Informatica 자습서는 Informatica Powercenter를 사용하는 ETL의 기본 사항을 자세히 이해하는 데 도움이됩니다.

Informatica ETL 프로세스의 단계 :

Informatica ETL과 관련된 다양한 단계로 이동하기 전에 ETL에 대한 개요를 살펴 보겠습니다. ETL에서 Extraction은 동종 또는 이기종 데이터 소스에서 데이터를 추출하는 곳, 쿼리 및 분석을 위해 적절한 형식이나 구조로 저장하기 위해 데이터를 변환하는 변환, 데이터가 최종 대상 데이터베이스로로드되는 곳에서로드하는 곳입니다. 운영 데이터 저장소, 데이터 마트 또는 데이터웨어 하우스. 아래 이미지는 Informatica ETL 프로세스가 수행되는 방식을 이해하는 데 도움이됩니다.

ETL 프로세스 개요

위에서 볼 수 있듯이 Informatica PowerCenter는 다양한 소스에서 데이터를로드하여 단일 데이터웨어 하우스에 저장할 수 있습니다. 이제 Informatica ETL 프로세스와 관련된 단계를 살펴 보겠습니다.

Informatica ETL 프로세스에는 주로 4 단계가 있습니다. 이제 자세히 살펴 보겠습니다.

  1. 추출 또는 캡처
  2. 스크럽 또는 청소
  3. 변환
  4. 로드 및 색인

1. 추출 또는 캡처 : 아래 이미지에서 볼 수 있듯이 캡처 또는 추출은 Informatica ETL 프로세스의 첫 번째 단계입니다.데이터웨어 하우스에로드해야하는 소스에서 선택한 데이터 하위 집합의 스냅 샷을 가져 오는 프로세스입니다. 스냅 샷은 데이터베이스에있는 데이터의 읽기 전용 정적보기입니다. 추출 프로세스는 두 가지 유형이 있습니다.

  • 전체 추출 : 데이터는 소스 시스템에서 완전히 추출되며 마지막으로 성공적으로 추출한 이후 데이터 소스의 변경 사항을 추적 할 필요가 없습니다.
  • 증분 추출 : 이것은 마지막 전체 추출 이후 발생한 변경 사항 만 캡처합니다.

1 단계 : 추출 또는 캡처

2. 스크럽 또는 청소 : 다양한 패턴 인식과 AI 기술을 이용하여 소스에서 오는 데이터를 정리하여 앞으로 나아갈 데이터의 품질을 높이는 과정입니다. 일반적으로 철자 오류, 잘못된 날짜, 잘못된 필드 사용, 일치하지 않는 주소, 누락 된 데이터, 중복 데이터, 불일치와 같은 오류는강조 표시 한 다음 수정 또는 제거이 단계에서. 또한 디코딩, 재 포맷, 타임 스탬핑, 변환, 키 생성, 병합, 오류 감지 / 로깅, 누락 된 데이터 찾기와 같은 작업이이 단계에서 수행됩니다. 아래 이미지에서 볼 수 있듯이 이것은 Informatica ETL 프로세스의 두 번째 단계입니다.

2 단계 : 데이터 스크럽 또는 정리

3. 변환 : 아래 이미지에서 볼 수 있듯이 이것은 Informatica ETL 프로세스의 세 번째이자 가장 필수적인 단계입니다. 변환은 소스 시스템의 형식에서 데이터웨어 하우스의 골격으로 데이터를 변환하는 작업입니다. 변환은 기본적으로 데이터 흐름과 데이터가 대상에로드되는 방식을 정의하는 규칙 집합을 나타내는 데 사용됩니다. 변환에 대해 자세히 알아 보려면 Informatica의 변환 블로그.

스프링 프레임 워크는 무엇입니까

3 단계 : 변환

4.로드 및 색인 : 이것은 아래 이미지에 표시된대로 Informatica ETL 프로세스의 마지막 단계입니다. 이 단계에서는 변환 된 데이터를웨어 하우스에 배치하고 데이터에 대한 인덱스를 만듭니다. 로드 프로세스에 따라 사용 가능한 두 가지 주요 데이터로드 유형이 있습니다.

  • 완전 부하 또는 대량 부하 :우리가 처음 할 때의 데이터 로딩 프로세스. 작업은 소스 테이블에서 전체 데이터 볼륨을 추출하고 필요한 변환을 적용한 후 대상 데이터웨어 하우스로로드합니다. 일회성 작업 실행 후 변경 사항 만 증분 추출의 일부로 캡처됩니다.
  • 증분로드 또는 새로 고침로드 : 수정 된 데이터 만 대상에서 업데이트되고 전체로드가 수행됩니다. 변경 사항은 작성 또는 수정 된 날짜와 작업의 마지막 실행 날짜를 비교하여 캡처됩니다.수정 된 데이터 만 소스에서 추출되며 기존 데이터에 영향을주지 않고 대상에서 업데이트됩니다.

4 단계 :로드 및 색인

Informatica ETL 프로세스를 이해했다면 이제 Informatica가 이러한 경우에 최고의 솔루션 인 이유를 이해할 수있는 더 나은 위치에 있습니다.

Informatica ETL의 기능 :

모든 데이터 통합 ​​및 ETL 작업을 위해 Informatica는 Informatica PowerCenter . 이제 Informatica ETL의 몇 가지 주요 기능을 살펴 보겠습니다.

  • GUI로 많은 수의 변환 규칙을 지정하는 기능을 제공합니다.
  • 데이터를 변환하는 프로그램을 생성합니다.
  • 여러 데이터 소스를 처리합니다.
  • 데이터 추출, 정리, 집계, 재구성, 변환 및로드 작업을 지원합니다.
  • 데이터 추출을위한 프로그램을 자동으로 생성합니다.
  • 대상 데이터웨어 하우스의 고속로드.

다음은 Informatica PowerCenter가 사용되는 몇 가지 일반적인 시나리오입니다.

  1. 데이터 마이그레이션:

회사가 회계 부서를 위해 새로운 AP 애플리케이션을 구입했습니다. PowerCenter는 기존 계정 데이터를 새 응용 프로그램으로 이동할 수 있습니다. 아래 그림은 데이터 마이그레이션에 Informatica PowerCenter를 사용하는 방법을 이해하는 데 도움이됩니다. Informatica PowerCenter는 데이터 마이그레이션 프로세스 중에 세금, 회계 및 기타 법적으로 요구되는 목적을 위해 데이터 계보를 쉽게 보존 할 수 있습니다.

이전 회계 응용 프로그램에서 새 응용 프로그램으로 데이터 마이그레이션

  1. 애플리케이션 통합 :

Company-A가 Company-B를 구매한다고 가정 해 보겠습니다. 따라서 통합의 이점을 얻으려면 Company-B의 청구 시스템을 Informatica PowerCenter를 사용하여 쉽게 수행 할 수있는 Company-A의 청구 시스템에 통합해야합니다. 아래 그림은 회사 간 애플리케이션 통합을 위해 Informatica PowerCenter를 사용하는 방법을 이해하는 데 도움이됩니다.

회사 간 애플리케이션 통합

  1. 데이터웨어 하우징

데이터웨어 하우스에 필요한 일반적인 작업은 다음과 같습니다.

  • 분석을 위해 여러 소스의 정보를 함께 결합합니다.
  • 여러 데이터베이스에서 데이터웨어 하우스로 데이터 이동.

위의 모든 일반적인 경우는 Informatica PowerCenter를 사용하여 쉽게 수행 할 수 있습니다. 아래에서 Informatica PowerCenter가 Oracle, SalesForce 등과 같은 다양한 데이터베이스의 데이터를 결합하고 Informatica PowerCenter에서 생성 한 공통 데이터웨어 하우스로 가져 오는 데 사용되는 것을 볼 수 있습니다.

공통 데이터웨어 하우스에 통합 된 다양한 데이터베이스의 데이터

  1. 미들웨어

소매 조직이 소매 애플리케이션에 SAP R3를 사용하고 데이터웨어 하우스로 SAP BW를 사용한다고 가정 해 보겠습니다. 통신 인터페이스가 없기 때문에이 두 응용 프로그램 간의 직접 통신이 불가능합니다. 그러나 Informatica PowerCenter는 이러한 두 애플리케이션 사이에서 미들웨어로 사용될 수 있습니다. 아래 이미지에서 Informatica PowerCenter가 SAP R / 3과 SAP BW 사이에서 미들웨어로 사용되는 방식에 대한 아키텍처를 볼 수 있습니다. SAP R / 3의 애플리케이션은 데이터를 ABAP 프레임 워크로 전송 한 다음이를 ABAP 프레임 워크로 전송합니다.SAP POS (Point of Sale) 및 SAP서비스 청구서 (BOS). Informatica PowerCenter는 이러한 서비스에서 SAP Business Warehouse (BW) 로의 데이터 전송을 지원합니다.

SAP Retail Architecture에서 미들웨어로서의 Informatica PowerCenter

Informatica ETL의 몇 가지 주요 기능과 일반적인 시나리오를 살펴 보았지만 Informatica PowerCenter가 ETL 프로세스에 가장 적합한 도구 인 이유를 이해하시기 바랍니다. 이제 Informatica ETL의 사용 사례를 살펴 보겠습니다.

사용 사례 : 두 테이블을 결합하여 단일 세부 테이블 얻기

부서가 여러 위치에 있으므로 직원에게 부서별 교통 수단을 제공하고 싶다고 가정 해 보겠습니다. 이렇게하려면 먼저 각 직원이 속한 부서와 부서의 위치를 ​​알아야합니다. 그러나 직원의 세부 정보는 다른 테이블에 저장되며 모든 직원의 세부 정보를 사용하여 부서의 세부 정보를 기존 데이터베이스에 조인해야합니다. 이를 위해 먼저 두 테이블을 Informatica PowerCenter에로드하고 데이터에 대한 소스 한정자 변환을 수행 한 다음 마지막으로 세부 정보를 대상 데이터베이스에로드합니다..시작하겠습니다.

1 단계 : PowerCenter Designer를 엽니 다.

아래는 Informatica PowerCenter Designer의 홈 페이지입니다.

이제 저장소에 연결하겠습니다. 리포지토리를 구성하지 않았거나 문제가있는 경우 다음을 확인할 수 있습니다. 블로그.

2 단계: 저장소를 마우스 오른쪽 버튼으로 클릭하고 연결 옵션을 선택하십시오.

연결 옵션을 클릭하면 저장소 사용자 이름과 암호를 묻는 아래 화면이 표시됩니다.

저장소에 연결 한 후에는 아래와 같이 작업 폴더를 열어야합니다.

매핑 이름을 묻는 메시지가 표시됩니다. 매핑 이름을 지정하고 확인을 클릭합니다 (이름은 m- 직원 ).

3 단계 : 이제 데이터베이스에서 테이블을로드하고 데이터베이스에 연결하여 시작하겠습니다. 이렇게하려면 아래와 같이 소스 탭을 선택하고 데이터베이스에서 가져 오기 옵션을 선택합니다.

Import from Database (데이터베이스에서 가져 오기)를 클릭하면 데이터베이스 세부 정보와 연결을위한 사용자 이름 및 비밀번호를 묻는 화면이 표시됩니다 (저는 oracle 데이터베이스 및 HR 사용자를 사용하고 있습니다).

연결을 클릭하여 데이터베이스에 연결하십시오.

4 단계 : 내가 가입하고 싶은대로 직원학과 테이블을 선택하고 확인을 클릭합니다.
소스는 아래와 같이 매핑 디자이너 작업 영역에 표시됩니다.

5 단계 : 마찬가지로 대상 테이블을 매핑에로드합니다.

6 단계 : 이제 소스 한정자와 대상 테이블을 연결하겠습니다. 작업 공간의 빈 곳을 마우스 오른쪽 버튼으로 클릭하고 아래와 같이 자동 링크를 선택합니다.

아래는 Autolink로 연결된 매핑입니다.

7 단계 : 두 테이블을 소스 한정자에 연결해야하므로 Department 테이블의 열을 선택하고 아래와 같이 소스 한정자에 드롭합니다.

열 값을 소스 규정 자에 놓으십시오. SQ_EMPLOYEES .

다음은 업데이트 된 소스 한정자입니다.

8 단계 : 소스 한정자를 두 번 클릭하여 변환을 편집합니다.

아래와 같이 Edit Transformation 팝업이 나타납니다. 속성 탭을 클릭하십시오.

9 단계 : 속성 탭에서 UserDefined Join 행의 값 필드를 클릭합니다..

다음 SQL 편집기가 표시됩니다.

10 단계 : 시작하다 EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID SQL 필드의 두 테이블을 조인하는 조건으로 확인을 클릭합니다.

11 단계 : 이제 SQL 쿼리 행을 클릭하여 아래와 같이 조인 할 SQL을 생성합니다.

자바에서 얕은 복사와 깊은 복사의 차이점

다음 SQL 편집기가 표시됩니다. SQL 생성 옵션을 클릭하십시오.

이전 단계에서 지정한 조건에 대해 다음 SQL이 생성됩니다. 확인을 클릭하십시오.

12 단계 : 적용 및 확인을 클릭하십시오.

아래는 완성 된 매핑입니다.

자바 예제의 스캐너 클래스

소스에서 타겟으로 데이터를 전송하는 방법에 대한 설계를 완료했습니다. 그러나 실제 데이터 전송은 아직 이루어지지 않았으므로 PowerCenter Workflow Design을 사용해야합니다. 워크 플로우를 실행하면 소스에서 대상으로 데이터가 전송됩니다. 워크 플로에 대해 자세히 알아 보려면 Informatica 자습서 : 워크 플로 블로그

13 단계 :이제 아래와 같이 W 아이콘을 클릭하여 Workflow Manager를 시작합니다.

아래는 워크 플로 디자이너 홈 페이지입니다.

14 단계 : 이제 매핑을위한 새 워크 플로를 생성하겠습니다. 워크 플로 탭을 클릭하고 옵션 만들기를 선택합니다.

아래 팝업이 나타납니다. 워크 플로우 이름을 지정하고 확인을 클릭합니다.

15 단계 : 워크 플로가 생성되면 Workflow Manager 작업 영역에 시작 아이콘이 표시됩니다.

이제 세션 아이콘을 클릭하고 작업 공간을 클릭하여 아래와 같이 새 세션을 작업 공간에 추가하겠습니다.

작업 공간을 클릭하여 세션 아이콘을 배치하십시오.

16 단계 : 세션을 추가하는 동안 위 단계에서 생성하고 저장 한 매핑을 선택해야합니다. (나는 그것을 m-EMPLOYEE로 저장했습니다).

아래는 세션 아이콘을 추가 한 후의 작업 공간입니다.

17 단계 : 이제 새 세션을 만들었으므로 시작 작업에 연결해야합니다. 아래와 같이 링크 작업 아이콘을 클릭하여 수행 할 수 있습니다.

먼저 시작 아이콘을 클릭 한 다음 세션 아이콘을 클릭하여 링크를 설정하십시오.

아래는 연결된 워크 플로입니다.

18 단계 : 이제 디자인을 완료 했으므로 워크 플로를 시작하겠습니다. 워크 플로 탭을 클릭하고 워크 플로 시작 옵션을 선택합니다.

워크 플로 모니터를 시작하는 워크 플로 관리자입니다.

19 단계 : 워크 플로를 시작하면 Workflow Manager가 자동으로 시작됩니다.워크 플로 실행을 모니터링 할 수 있습니다. 아래에서 워크 플로 모니터에 워크 플로 상태가 표시되는 것을 볼 수 있습니다.

20 단계 : 워크 플로의 상태를 확인하려면 워크 플로를 마우스 오른쪽 단추로 클릭하고 아래와 같이 실행 속성 가져 오기를 선택합니다.

Source / Target Statistics 탭을 선택합니다.

아래에서 변환 후 소스와 대상간에 전송 된 행 수를 볼 수 있습니다.

아래와 같이 대상 테이블을 확인하는 결과를 확인할 수도 있습니다.

이 Informatica ETL 블로그가 Informatica를 사용하는 ETL의 개념에 대한 이해를 높이는 데 도움이되었고 Informatica에 대해 자세히 알아볼 수있는 충분한 관심을 얻었기를 바랍니다.

이 블로그가 도움이 되었다면 Informatica Tutorial 블로그 시리즈를 확인하십시오. , Informatica 자습서 : Informatica 'Inside Out'이해Informatica 혁신 : Informatica PowerCenter의 핵심 . Informatica 인증에 대한 자세한 내용은 당사 블로그를 참조하십시오. Informatica 인증 : 알아야 할 모든 것 .

이미 Informatica를 경력으로 채택하기로 결정한 경우 다음을 살펴 보시기 바랍니다. 코스 페이지. Edureka의 Informatica 인증 교육은 강사 주도의 라이브 세션과 실제 사용 사례를 사용한 실습 교육을 통해 Informatica 전문가가 될 것입니다.