빅 데이터 튜토리얼

빅 데이터,이 용어를 들어 본 적이 없습니까? 나는 당신이 가지고 있다고 확신합니다. 지난 4 ~ 5 년 동안 모두가 빅 데이터에 대해 이야기하고 있습니다. 하지만이 빅 데이터가 정확히 무엇인지, 그것이 우리 삶에 어떤 영향을 미치고 있으며, 조직이 전문가를 찾는 이유를 알고 계십니까? ? 이 빅 데이터 자습서에서는 빅 데이터에 대한 완전한 통찰력을 제공합니다.

다음은이 빅 데이터 자습서에서 다룰 주제입니다.

빅 데이터 이야기
빅 데이터 추진 요인
빅 데이터 란?
빅 데이터 특성
빅 데이터 유형
빅 데이터의 예
빅 데이터의 응용
빅 데이터의 과제

빅 데이터 튜토리얼-Edureka

이 빅 데이터 튜토리얼을 짧은 이야기로 시작하겠습니다.

빅 데이터 이야기

옛날에는 사람들이 마차를 타고 한 마을에서 다른 마을로 이동했지만 시간이지나면서 마을이 마을이되고 사람들이 흩어졌습니다. 한 도시에서 다른 도시로 이동하는 거리도 늘어났습니다. 그래서 짐과 함께 마을을 오가는 것이 문제가되었습니다. 갑자기 한 똑똑한 친구가이 문제를 해결하기 위해 말을 더 손질하고 먹이를 주어야한다고 제안했습니다. 이 해결책을 보면 그렇게 나쁘지는 않지만 말이 코끼리가 될 수 있다고 생각합니까? 그렇게 생각하지 않습니다. 또 다른 똑똑한 사람은 말 한 마리가 수레를 당기는 대신에 같은 수레를 당길 수있는 4 마리의 말이 있다고 말했습니다. 이 솔루션에 대해 어떻게 생각하십니까? 환상적인 솔루션이라고 생각합니다. 이제 사람들은 더 짧은 시간에 먼 거리를 여행 할 수 있으며 더 많은 수하물을 운반 할 수 있습니다.

빅 데이터에도 동일한 개념이 적용됩니다. 빅 데이터는 데이터의 양이 상당히 제한되어 있고이 데이터를 처리하는 시간도 괜찮 았기 때문에 오늘날까지 데이터를 서버에 저장해도 괜찮다고 말합니다. 그러나 현재이 기술 세계에서 데이터는 너무 빠르게 증가하고 사람들은 데이터에 많이 의존하고 있습니다. 또한 데이터가 증가하는 속도로 인해 데이터를 어떤 서버에도 저장할 수 없게되었습니다.

빅 데이터 자습서에 대한이 블로그를 통해 기존 시스템이 저장 및 처리하지 못하는 빅 데이터의 출처를 살펴 보겠습니다.

빅 데이터 추진 요인

지구상의 데이터 양은 여러 가지 이유로 기하 급수적으로 증가하고 있습니다. 다양한 소스와 일상적인 활동은 많은 데이터를 생성합니다. 웹의 발명으로 전 세계가 온라인 상태가되었고 우리가하는 모든 일이 디지털 흔적을 남깁니다. 스마트 개체가 온라인 상태가됨에 따라 데이터 증가율이 빠르게 증가했습니다. 빅 데이터의 주요 출처는 소셜 미디어 사이트, 센서 네트워크, 디지털 이미지 / 비디오, 휴대폰, 구매 거래 기록, 웹 로그, 의료 기록, 아카이브, 군사 감시, 전자 상거래, 복잡한 과학 연구 등입니다. 이 모든 정보는 약 Quintillion 바이트의 데이터에 해당합니다. 2020 년까지 데이터 볼륨은 약 40 제타 바이트가 될 것입니다. 이는 지구상의 모든 모래알을 75 배로 더한 것과 같습니다.

빅 데이터 란?

빅 데이터는 사용 가능한 데이터베이스 관리 도구 또는 기존 데이터 처리 응용 프로그램을 사용하여 저장하고 처리하기 어려운 크고 복잡한 데이터 집합 모음에 사용되는 용어입니다. 문제에는이 데이터의 캡처, 큐레이팅, 저장, 검색, 공유, 전송, 분석 및 시각화가 포함됩니다.

빅 데이터 특성

빅 데이터를 정의하는 5 가지 특성은 볼륨, 속도, 다양성, 진실성 및 가치입니다.

음량
볼륨은 날마다 매우 빠른 속도로 증가하는 '데이터 양'을 의미합니다. 인간, 기계 및 소셜 미디어 자체에서의 상호 작용에 의해 생성되는 데이터의 크기는 엄청납니다. 연구원들은 2020 년까지 40 제타 바이트 (40,000 엑사 바이트)가 생성 될 것으로 예측했으며 이는 2005 년에 비해 300 배 증가한 것입니다.
속도
속도는 서로 다른 소스가 매일 데이터를 생성하는 속도로 정의됩니다. 이러한 데이터 흐름은 방대하고 지속적입니다. 현재 모바일에는 10 억 3 천만 명의 일일 활성 사용자 (Facebook DAU)가 있으며 이는 전년 대비 22 % 증가한 수치입니다. 이는 소셜 미디어에서 사용자 수가 얼마나 빠르게 증가하고 있으며 데이터가 매일 생성되는 속도를 보여줍니다. 속도를 처리 할 수 있다면 통찰력을 생성하고 실시간 데이터를 기반으로 결정을 내릴 수 있습니다.
종류
빅 데이터에 기여하는 소스가 많기 때문에 생성하는 데이터의 유형이 다릅니다. 구조화, 반 구조화 또는 구조화되지 않을 수 있습니다. 따라서 매일 생성되는 다양한 데이터가 있습니다. 이전에는 엑셀 및 데이터베이스에서 데이터를 가져 왔지만 이제는 아래 이미지와 같이 이미지, 오디오, 비디오, 센서 데이터 등의 형태로 데이터가 제공됩니다. 따라서 이러한 다양한 비정형 데이터는 데이터 캡처, 저장, 마이닝 및 분석에 문제를 일으 킵니다.
정확성
진실성은 데이터 불일치 및 불완전 성으로 인해 사용 가능한 데이터의 불확실성 또는 불확실성을 의미합니다. 아래 이미지에서 표에 누락 된 값이 거의 없음을 알 수 있습니다. 또한 몇 가지 값을 받아들이 기가 어렵습니다. 예를 들어 세 번째 행의 최소값 15000은 불가능합니다. 이 불일치와 불완전 성이 진실성입니다.
사용 가능한 데이터는 때때로 지저분 해지고 신뢰하기 어려울 수 있습니다. 다양한 형태의 빅 데이터로 인해 해시 태그, 약어, 오타 및 구어체가 포함 된 트위터 게시물처럼 품질과 정확성을 제어하기가 어렵습니다. 데이터의 품질과 정확성이 부족한 이유는 볼륨 때문입니다.
- 데이터의 불확실성으로 인해 비즈니스 리더 3 명 중 1 명은 의사 결정에 사용하는 정보를 신뢰하지 않습니다.
- 설문 조사에서 응답자의 27 %가 자신의 데이터가 얼마나 정확하지 않은지 확신하지 못하는 것으로 나타났습니다.
- 열악한 데이터 품질은 미국 경제에 연간 약 3 조 1 천억 달러의 손실을 입 힙니다.
값
Volume, Velocity, Variety 및 Veracity에 대해 논의한 후 BigData, 즉 Value를 볼 때 고려해야 할 또 다른 V가 있습니다. 큰에 접근하는 것은 모두 좋고 좋습니다데이터그러나우리가 그것을 가치로 바꿀 수 없다면 그것은 쓸모가 없습니다. 이를 가치로 전환한다는 것은 빅 데이터를 분석하는 조직의 이점에 추가되는 것입니까? 빅 데이터를 작업하는 조직이 높은 ROI (투자 수익률)를 달성하고 있습니까? 빅 데이터로 작업하여 이익을 더하지 않으면 쓸모가 없습니다.

빅 데이터에 대해 자세히 알아 보려면 아래의 빅 데이터 비디오를 살펴보십시오.

초보자를위한 빅 데이터 튜토리얼 | 빅 데이터 란? | Edureka

다양성에서 논의 된 바와 같이, 매일 생성되는 다양한 유형의 데이터가 있습니다. 이제 데이터 유형을 이해하겠습니다.

빅 데이터 유형

빅 데이터는 세 가지 유형이 있습니다.

구조화
반 구조
비정형

구조화
고정 된 형식으로 저장 및 처리 할 수있는 데이터를 구조화 된 데이터라고합니다. 관계형 데이터베이스 관리 시스템 (RDBMS)에 저장된 데이터는 '구조화 된'데이터의 한 예입니다. 스키마가 고정되어있어 구조화 된 데이터를 처리하기 쉽습니다. SQL (Structured Query Language)은 이러한 종류의 데이터를 관리하는 데 자주 사용됩니다.
반 구조
Semi-Structured Data는 데이터 모델의 형식적 구조 (즉, 관계형 DBMS의 테이블 정의)가없는 데이터 유형이지만, 의미 론적 요소를 쉽게 구분하는 태그 및 기타 마커와 같은 일부 조직적 속성이 있습니다. 분석합니다. XML 파일 또는 JSON 문서는 반 구조화 된 데이터의 예입니다.
비정형
형태를 알 수없고 RDBMS에 저장할 수없고 구조화 된 형식으로 변환하지 않으면 분석 할 수없는 데이터를 구조화되지 않은 데이터라고합니다. 텍스트 파일 및 이미지, 오디오, 비디오와 같은 멀티미디어 콘텐츠는 비정형 데이터의 예입니다. 전문가들은 비정형 데이터가 다른 데이터보다 빠르게 증가하고 있다고 전문가들은 조직 내 데이터의 80 %가 비정형 데이터라고 말합니다.

지금까지 빅 데이터 도입에 대해 다뤘습니다. 또한이 빅 데이터 자습서에서는 빅 데이터의 예, 응용 프로그램 및 과제에 대해 설명합니다.

빅 데이터의 예

매일 우리는 수백만 바이트의 데이터를 업로드합니다. 전 세계 데이터의 90 %가 지난 2 년 동안 생성되었습니다.

Walmart는 백만 매시간 고객 거래.
Facebook 저장, 액세스 및 분석 30 페타 바이트 이상 사용자 생성 데이터의
2 억 3 천만 이상 매일 생성되는 트윗의 수.
이상 50 억 사람들은 전 세계적으로 휴대 전화에서 전화, 문자, 트윗 및 브라우징을하고 있습니다.
YouTube 사용자 업로드 48 시간 매일 새로운 비디오의
아마존 핸들 1,500 만 고객은 제품을 추천하기 위해 매일 사용자 데이터를 클릭합니다.
2,940 억 이메일은 매일 발송됩니다. 서비스는이 데이터를 분석하여 스팸을 찾습니다.
현대 자동차는 100 개의 센서 연료 수준, 타이어 압력 등을 모니터링하는 각 차량은 많은 센서 데이터를 생성합니다.

빅 데이터의 응용

빅 데이터 애플리케이션의 혜택을받는 사람들에 대해 이야기하지 않고는 데이터에 대해 이야기 할 수 없습니다. 오늘날 거의 모든 산업에서 빅 데이터 애플리케이션을 한 가지 또는 다른 방식으로 활용하고 있습니다.

스파이더 파이썬 사용 방법

스마트 한 의료 : 페타 바이트 규모의 환자 데이터를 활용하여 의미있는 정보를 추출한 다음 환자의 악화 상태를 미리 예측할 수있는 애플리케이션을 구축 할 수 있습니다.

텔레콤 : 통신 부문은 정보를 수집하고 분석하여 다양한 문제에 대한 솔루션을 제공합니다. 통신 회사는 빅 데이터 애플리케이션을 사용하여 네트워크가 과부하 될 때 발생하는 데이터 패킷 손실을 크게 줄여 고객에게 원활한 연결을 제공 할 수있었습니다.

소매 : 소매업은 마진이 가장 좁고 빅 데이터의 가장 큰 수혜자 중 하나입니다. 소매업에서 빅 데이터를 사용하는 것의 장점은 소비자 행동을 이해하는 것입니다. Amazon의 추천 엔진은 소비자의 검색 기록을 기반으로 제안을 제공합니다.

교통 통제 : 교통 혼잡은 전 세계 많은 도시의 주요 과제입니다. 데이터와 센서의 효과적인 사용은 도시의 인구 밀도가 높아짐에 따라 교통량을 더 잘 관리하는 데 중요합니다.

조작 : 제조 산업에서 빅 데이터를 분석하면 부품 결함을 줄이고 제품 품질을 개선하며 효율성을 높이고 시간과 비용을 절약 할 수 있습니다.

검색 품질 : Google에서 정보를 추출 할 때마다 동시에 데이터를 생성합니다. Google은이 데이터를 저장하고이를 사용하여 검색 품질을 개선합니다.

누군가가 올바르게 말했습니다. '정원의 모든 것이 장미 빛은 아닙니다!' . 지금까지 빅 데이터 튜토리얼에서 빅 데이터의 장밋빛 그림을 보여 드렸습니다. 하지만 빅 데이터를 활용하는 것이 그렇게 쉬웠다면 모든 조직이 이에 투자 할 것이라고 생각하지 않습니까? 사실이 아닙니다. 빅 데이터로 작업 할 때 수반되는 몇 가지 과제가 있습니다.

이제 빅 데이터 및 다양한 기능에 익숙해 졌으므로 빅 데이터 자습서에 대한이 블로그의 다음 섹션에서는 빅 데이터가 직면 한 몇 가지 주요 과제에 대해 설명합니다.

빅 데이터의 과제

빅 데이터와 함께 발생하는 몇 가지 과제에 대해 말씀 드리겠습니다.

데이터 품질 – 여기서 문제는 4^일즉, 진실성. 여기에있는 데이터는 매우 지저분하고 일관성이없고 불완전합니다. 더티 데이터는 미국에서 매년 6 천억 달러의 비용이 발생합니다.

발견 – 빅 데이터에 대한 통찰력을 찾는 것은 건초 더미에서 바늘을 찾는 것과 같습니다. 패턴과 통찰력을 찾기 위해 매우 강력한 알고리즘을 사용하여 페타 바이트 규모의 데이터를 분석하는 것은 매우 어렵습니다.

저장 – 조직에 데이터가 많을수록 관리 문제가 더 복잡해질 수 있습니다. 여기서 발생하는 질문은 '저장할 위치?'입니다. 필요에 따라 쉽게 확장 또는 축소 할 수있는 스토리지 시스템이 필요합니다.

해석학 – 빅 데이터의 경우 대부분 우리가 다루는 데이터의 종류를 알지 못하기 때문에 해당 데이터를 분석하는 것이 훨씬 더 어렵습니다.

보안 – 데이터의 크기가 방대하기 때문에 보안을 유지하는 것은 또 다른 과제입니다. 여기에는 사용자 인증, 사용자 기반 액세스 제한, 데이터 액세스 기록 기록, 데이터 암호화의 적절한 사용 등이 포함됩니다.

재능 부족 – 주요 조직에는 많은 빅 데이터 프로젝트가 있지만 충분한 양의 도메인 지식을 보유한 개발자, 데이터 과학자 및 분석가로 구성된 정교한 팀은 여전히 문제입니다.

구조에 Hadoop

빅 데이터 문제를 해결할 수있는 구세주가 있습니다. 하둡 . Hadoop은 분산 컴퓨팅 환경에서 매우 큰 데이터 세트의 저장 및 처리를 지원하는 오픈 소스 Java 기반 프로그래밍 프레임 워크입니다. Apache Software Foundation에서 후원하는 Apache 프로젝트의 일부입니다.

분산 처리 기능을 갖춘 Hadoop은 기존 엔터프라이즈 데이터웨어 하우스보다 더 효율적으로 대량의 정형 및 비정형 데이터를 처리합니다. Hadoop을 사용하면 수천 개의 상용 하드웨어 노드가있는 시스템에서 애플리케이션을 실행하고 수천 테라 바이트의 데이터를 처리 할 수 있습니다. Hadoop은 오픈 소스 소프트웨어이고 상용 하드웨어 (개인용 컴퓨터)에서 실행할 수 있기 때문에 조직에서 Hadoop을 채택하고 있습니다.상용 하드웨어가 매우 저렴하기 때문에 초기 비용 절감은 극적입니다. 조직 데이터가 증가함에 따라 데이터를 저장하기 위해 더 많은 상용 하드웨어를 즉시 추가해야하므로 Hadoop이 경제적임이 입증되었습니다.또한 Hadoop은 발전에 지속적으로 기여하는 강력한 Apache 커뮤니티가 있습니다.

앞서 약속했듯이 빅 데이터 자습서에 대한이 블로그를 통해 빅 데이터에 대한 최대한의 통찰력을 제공했습니다. 이것으로 빅 데이터 튜토리얼의 끝입니다. 이제 다음 단계는 Hadoop을 알고 배우는 것입니다. 우리는 Hadoop 튜토리얼 시리즈 전체 Hadoop 생태계에 대한 자세한 지식을 제공하는 블로그입니다.

최선을 다해 해피 하두 핑!

이제 빅 데이터가 무엇인지 이해 했으므로 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사 인 Edureka에서 Edureka BigData Hadoop 인증 교육 과정은 학습자가 소매, 소셜 미디어, 항공, 관광, 금융 분야의 실시간 사용 사례를 사용하여 HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume 및 Sqoop의 전문가가 될 수 있도록 도와줍니다.

질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.

빅 데이터 튜토리얼 : 빅 데이터에 대해 알아야 할 모든 것!

빅 데이터 자습서에 대한이 블로그는 빅 데이터, 그 특성, 응용 프로그램 및 빅 데이터의 과제에 대한 전체 개요를 제공합니다.