Cassandra를 통한 데이터 과학의 중요성



Cassandra는 많은 서버에서 대량의 데이터를 처리하는 오픈 소스 데이터베이스이므로 cassandra 지식을 보유한 데이터 과학자의 수요가 높습니다.

'

컴퓨터, 모바일, 비디오, 소셜 미디어, 디지털 센서 등을 통한 디지털 데이터의 급속한 확장은 저비용 처리 능력, 오픈 소스 데이터베이스 응용 프로그램 및 더 넓은 대역폭의 주요 돌파구와 결합되어 전 세계 비즈니스 세계에서 엄청난 관심을 불러 일으켰습니다. 빅 데이터 과학의 새로운 분야 및 분석.





대규모 비정형 볼륨의 빅 데이터는 너무 커서 기존 방법으로 관리 및 분석 할 수 없습니다. 오늘날 데이터의 엄청난 양과 속도로 인해 캡처, 필터링, 저장 및 분석이 정말 어려운 일입니다. 새로운 기술과 전문성을 요구하는이를 처리하기 위해 새로운 제품이 정기적으로 개발됩니다. 새로운 인프라, 플랫폼 및 프로세스를 조직에 통합 할 수있는 개인뿐 아니라 뛰어난 비즈니스 가치의 엄청난 인텔리전스를 생성 할 수있는 새로운 분석 및 알고리즘을 구축 할 수있는 개인에 대한 요구가 증가하고 있습니다. 자세한 내용은 다음 블로그 게시물을 참조하십시오.

다양한 산업에서 데이터 과학의 관련성 :

데이터 과학 및 분석은 모든 산업에 적용됩니다.



  • 전자 상거래 – 판매를 증가시키는 개인화 및 추천 엔진.
  • 광고하는 – 소비자에게 고도로 타겟팅 된 실시간 광고 전달.
  • 미디어 및 엔터테인먼트 – 사용자 참여를 극대화하는 맞춤형 콘텐츠 개발.
  • 소셜 미디어 – 증가 된 사이트 '고 정성', 사용자 증가, 소비자 감정을 기반으로 빠르게 변화하는 추세를 추적하는 기능.
  • 금융 서비스 – 위험과 사기를 최소화하는 최적화 된 대출 관행.
  • 제약 / 생물 정보학 – 약물 발견 개선, 위협 질병에 대한보다 효과적인 치료, 유전 공학 향상.
  • 보건 의료 – 질병의 예측 및 조기 예방뿐만 아니라 건강 위험에 대한 의료 환자의 더 나은 점수.
  • 전력 / 에너지 – 스마트 그리드 인텔리전스, 사용 효율성, 에너지 절약 및 다운 타임 감소.
  • 정보 보안 – 귀중한 회사 정보 및 자산에 대한 도난 감지 및 모니터링이 크게 향상되었습니다.

데이터 과학 전문가의 핵심 기술 :

데이터 과학 도메인에는 다음과 같은 전문가가 필요합니다.

  • 데이터 분석 및 의사 결정 과학 이해
  • IT에 정통 함
  • 강력한 비즈니스 통찰력
  • 의사 결정자와 효과적으로 의사 소통 할 수있는 능력 보유

더 읽어보기 : 데이터 과학자가되기 위해 필요한 핵심 기술.

데이터 과학 실무와 관련된 공통 기술 :

데이터 과학과 관련된 기술



  • 데이터베이스

Oracle, SQL Server, Teradata

카산드라, Hadoop, MapReduce, HBase

Aster, Greenplum, Netezza

  • 언어

Ajax, C ++, CSS, HTML5, 자바, 자바 스크립트, Perl, Python, Scala

벌통, 돼지, 루신, Mahout, Solr

  • 통계 및 예측

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • 데이터 시각화

QlikView, Spotfire, Tableau, yWorks, R

  • BI 및보고

BusinessObjects, Cognos, MicroStrategy

카산드라는 무엇입니까?

  • Apache Cassandra는 많은 상용 서버에서 대량의 데이터를 처리하도록 설계된 오픈 소스 분산 데이터베이스 관리 시스템입니다.
  • Cassandra는 단일 장애 지점없이 고 가용성을 제공합니다.
  • Cassandra는 모든 클라이언트에 대해 지연 시간이 짧은 작업을 허용하는 비동기식 마스터없는 복제를 통해 여러 데이터 센터에 걸쳐있는 클러스터에 대한 강력한 지원을 제공합니다.

자세한 내용은 다음 블로그 게시물을 참조하십시오. .

데이터 과학은 카산드라를 어떻게 사용합니까?

Cassandra는 초당 수백 건의 업데이트와 초당 수만 번의 읽기로 구성된 실시간 워크로드를 처리하는 짧은 지연 시간, 높은 처리량 서비스를위한 분산 데이터베이스입니다.

카산드라 사용 사례 – 장점 :

PROS는 고객이 데이터를 분석하고 가격, 판매 및 수익 관리를 최적화하기위한 통찰력과 지침을 얻을 수 있도록 소프트웨어에 규범 적 분석을 제공하는 빅 데이터 소프트웨어 회사입니다.

SQL 및 PL SQL 자습서

그들은 항공사 가용성을 계산하는 실시간 서비스를 가지고 있으며, 수익 제어 데이터와 초당 수백 번 변경 될 수있는 재고 수준을 동적으로 고려합니다.

이 서비스는 초당 수천 번 쿼리되며 수만 번의 데이터 조회로 해석됩니다. 이 서비스에 대한 백엔드 스토리지 계층은 Cassandra입니다.

실시간 솔루션을 위해 PROS는 다음에 대한 필요성을 깨달았습니다.

  • 가용성이 높은 분산 캐시.
  • 쉽게 확장 할 수 있습니다.
  • 마스터가없는 아키텍처.
  • 데이터 센터 전반에 걸쳐 거의 실시간 데이터 복제를 지원합니다.
  • 실시간 읽기 및 쓰기를 처리 할 수 ​​있습니다.

PROS는 Cassandra를 Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort 및 Redis에 대해 평가했습니다. Apache Cassandra는 매우 쉽게 목록에서 1 위를 차지했습니다.

장점과 카산드라

  • PROS는 Cassandra를 초당 수백 개의 업데이트와 초당 수만 개의 읽기로 구성된 실시간 워크로드를 처리하는 짧은 지연 시간, 높은 처리량 서비스를위한 분산 데이터베이스로 사용합니다.
  • 예를 들어, 그들은 초당 수백 번 변경 될 수있는 수익 제어 데이터와 재고 수준을 고려하여 항공사 가용성을 동적으로 계산하는 실시간 서비스를 가지고 있습니다. 이 서비스는 초당 수천 번 쿼리되며 이는 수만 건의 데이터 조회로 해석됩니다. 이 서비스에 대한 백엔드 스토리지 계층은 Cassandra입니다. SaaS 제품 중 일부는 Cassandra를 백엔드 저장소로 사용하여 실시간 및 Hadoop 기반 배치 워크로드의 조합을 처리합니다.
  • Hadoop과 Cassandra에 대해 이야기하면서 Cassandra에서 데이터를 가져와 Hadoop에 넣고 배치 및 분석을 실행 한 다음 Cassandra로 돌아갑니다. 이는 Cassandra의 Hadoop 통합을 통해 달성됩니다.
  • Hadoop 작업은 Cassandra에서 데이터를 가져오고 작업 별 변환 또는 분석을 적용하며 데이터를 Cassandra로 다시 푸시합니다. 이 통합을 위해 Datastax (공식 Cassandra 유지 관리자) Enterprise 에디션을 사용하지 않고 Cassandra와의 오픈 소스 Hadoop 설치 만 사용합니다.

Cassandra를 사용한 데이터 모델링 :

키-값 저장소를 실시간 복제 및 데이터 배포에 더 적합한 것으로 대체하려는 경우 Dynamo에 대한 연구, CAP 정리 및 최종 일관성 모델은 Cassandra가이 모델에 매우 적합 함을 보여줍니다. 데이터 모델링 기능에 대해 더 많이 알게됨에 따라 점차 데이터 분해로 이동합니다.

ACID 의미론이 강한 관계형 데이터베이스 배경에서 나온다면 최종 일관성 모델을 이해하는 데 시간을 투자해야합니다.

Cassandra의 아키텍처와 내부에서 수행하는 작업을 잘 이해합니다. Cassandra 2.0을 사용하면 가벼운 트랜잭션과 트리거를 얻을 수 있지만 익숙한 기존 데이터베이스 트랜잭션과 동일하지 않습니다. 예를 들어, 사용 가능한 외래 키 제약 조건이 없습니다. 자체 응용 프로그램에서 처리해야합니다. Cassandra로 데이터를 모델링하기 전에 사용 사례와 데이터 액세스 패턴을 명확하게 이해하고 사용 가능한 모든 문서를 읽어야합니다.

결론:

Apache Cassandra는 빠르게 진화하고 있으며 특히 데이터 모델링 측면에서 그 기능을 배우고 이해하고 있습니다. 우리는 빅 데이터 서비스 및 솔루션을 위해 선택한 분산 NoSQL 데이터베이스로 간주합니다.

Edureka는 포괄적 인 데이터 과학자가 되고자하는 사람들을 위해. 이 과정은 전체 데이터 과학 연구를 포함하는 다양한 Hadoop, R 및 기계 학습 기술을 다룹니다. Edureka는 또한 제공합니다 NoSQL 데이터베이스를 마스터하는 데 도움이됩니다. 이 과정은 성공적인 Cassandra 전문가가되기위한 지식과 기술을 제공하도록 설계되었습니다.