데이터 과학 튜토리얼 – 처음부터 데이터 과학을 배우십시오!



이 데이터 과학 자습서는 데이터 과학 도메인으로의 전환을 원하는 사람들에게 이상적입니다. 여기에는 경력 경로와 함께 모든 데이터 과학 필수 요소가 포함됩니다.

데이터 과학자로서 경력을 시작하고 싶지만 어디서부터 시작해야할지 모르십니까? 당신은 바로 이곳에 있습니다! Hey Guys,이 멋진 데이터 과학 튜토리얼 블로그에 오신 것을 환영합니다. 데이터 과학 세계를 시작할 수 있습니다. 데이터 과학에 대한 심층적 인 지식을 얻으려면 실시간으로 등록 할 수 있습니다. 24/7 지원 및 평생 액세스를 제공하는 Edureka 오늘 배울 내용을 살펴 보겠습니다.

    1. 왜 데이터 과학인가?
    2. 데이터 과학이란?
    3. 데이터 과학자는 누구입니까?
    4. 직업 동향
    5. 데이터 과학의 문제를 해결하는 방법은 무엇입니까?
    6. 데이터 과학 구성 요소
    7. 데이터 과학자 직무 역할





왜 데이터 과학인가?

데이터 과학자는 '21 세기의 가장 섹시한 직업'이라고합니다. 왜? 지난 몇 년 동안 기업은 데이터를 저장해 왔습니다. 그리고 이것은 모든 회사에서 이루어지고 있으며 갑자기 데이터 폭증으로 이어졌습니다. 데이터는 오늘날 가장 풍부 해졌습니다.

그러나이 데이터로 무엇을 하시겠습니까? 예를 들어 이해해 보겠습니다.



휴대 전화를 만드는 회사가 있다고 가정 해 보겠습니다. 첫 번째 제품을 출시했고 엄청난 히트를 쳤습니다. 모든 기술에는 생명이 있습니다. 이제 새로운 것을 생각 해낼 때입니다. 하지만 다음 릴리스를 간절히 기다리고있는 사용자의 기대에 부응하기 위해 무엇을 혁신해야하는지 모르십니까?

회사의 누군가가 사용자가 생성 한 피드백을 사용하는 아이디어를 내고 다음 릴리스에서 사용자가 기대하는 것을 선택합니다.

데이터 사이언스에서는 감정 분석 등 다양한 데이터 마이닝 기법을 적용하여 원하는 결과를 얻을 수 있습니다.



뿐만 아니라 더 나은 결정을 내릴 수 있고 효율적인 방법으로 생산 비용을 절감 할 수 있으며 고객이 실제로 원하는 것을 제공 할 수 있습니다!

이를 통해 데이터 과학이 가져올 수있는 수많은 이점이 있으므로 귀사에 데이터 과학 팀이 반드시 필요하게되었습니다.이와 같은 요구 사항은 오늘날 '데이터 과학'을 주제로 삼았으므로 데이터 과학 자습서에서이 블로그를 작성하고 있습니다. :)

데이터 과학 튜토리얼 : 데이터 과학이란?

데이터 과학이라는 용어는 최근 수학적 통계 및 데이터 분석의 발전과 함께 등장했습니다. 그 여정은 놀랍습니다. 우리는 오늘날 데이터 과학 분야에서 많은 것을 성취했습니다.

앞으로 몇 년 안에 우리는 MIT 연구원들이 주장하는 미래를 예측할 수있을 것입니다. 그들은 멋진 연구를 통해 이미 미래를 예측하는 이정표에 도달했습니다. 이제 그들은 기계로 영화의 다음 장면에서 일어날 일을 예측할 수 있습니다! 어떻게? 지금은 이해하기가 다소 복잡 할 수 있지만이 블로그가 끝날 때까지 걱정하지 마십시오. 이에 대한 답변도 제공됩니다.

다시 돌아와서 우리는 데이터 과학에 대해 이야기했습니다. 데이터 중심 과학이라고도하며 과학적 방법, 프로세스 및 시스템을 사용하여 다양한 형태 (예 : 구조화 또는 비 구조화)의 데이터에서 지식이나 통찰력을 추출합니다.

이러한 방법과 프로세스는 무엇이며 오늘이 데이터 과학 자습서에서 논의 할 내용입니다.

앞으로 누가이 모든 두뇌 폭풍을 일으키고 누가 데이터 과학을 실천할까요? ㅏ 데이터 과학자 .

데이터 과학자는 누구입니까?

이미지에서 볼 수 있듯이 데이터 과학자는 모든 거래의 마스터입니다! 그는 수학에 능숙해야하고, 비즈니스 분야에 능숙해야하며 훌륭한 컴퓨터 과학 기술도 가지고 있어야합니다. 깜짝 놀란? 그러지 마십시오. 이 모든 분야에서 잘해야하지만 그렇지 않더라도 혼자가 아닙니다! '완벽한 데이터 과학자'라는 것은 없습니다. 기업 환경에서 일하는 것에 대해 이야기하면 작업은 팀간에 분배되며 각 팀은 고유 한 전문 지식을 갖습니다. 그러나 문제는 이러한 분야 중 적어도 하나에 능숙해야한다는 것입니다. 또한 이러한 기술이 당신에게 새로운 것이더라도 진정하십시오! 시간이 걸릴 수 있지만 이러한 기술을 개발할 수 있으며 투자 할 시간이 충분할 것이라고 믿습니다. 왜? 음, 직업 동향을 살펴 보겠습니다.

배열 자바 스크립트의 길이 가져 오기

데이터 과학자 직업 동향

글쎄요, 그래프는 데이터 과학자를위한 많은 일자리가있을뿐만 아니라 일자리도 잘받습니다! 그리고 아니, 우리 블로그는 급여 수치를 다루지 않을 것입니다. 구글로 가세요!

글쎄요, 우리는 이제 데이터 과학을 배우는 것이 실제로 의미가 있습니다. 그것은 매우 유용 할뿐만 아니라 가까운 장래에 훌륭한 경력을 가지고 있기 때문입니다.

지금 데이터 과학 학습의 여정을 시작해 보겠습니다.

데이터 과학의 문제를 해결하는 방법은 무엇입니까?

이제 문제에 접근하고 데이터 과학으로 해결하는 방법에 대해 논의하겠습니다. 데이터 과학의 문제는 알고리즘을 사용하여 해결됩니다. 하지만 판단해야 할 가장 큰 것은 어떤 알고리즘을 언제 사용할 것인가?

기본적으로 데이터 과학에서 직면 할 수있는 5 가지 문제가 있습니다.

이러한 각 질문과 관련 알고리즘을 하나씩 해결해 보겠습니다.

이게 A인가 B인가?

이 질문에서, 우리는 고정 된 해결책을 가진 문제에서 대답은 예 또는 아니오, 1 또는 0, 관심이 있거나 관심이 없거나 관심이 없을 수있는 것과 같이 범주적인 대답을 가진 문제를 언급하고 있습니다.

예를 들면 :

Q. 차 또는 커피 중 무엇을 드실 건가요?

여기서 콜라를 원한다고 말할 수 없습니다! 질문은 차 또는 커피 만 제공하므로 이들 중 하나만 대답 할 수 있습니다.

예 또는 아니오, 1 또는 0의 두 가지 유형의 답변 만있는 경우 2 – 클래스 분류라고합니다. 두 개 이상의 옵션을 사용하여 다중 클래스 분류라고합니다.

결론적으로 질문을 접할 때마다 질문에 대한 답은 범주 적이며 데이터 과학에서 분류 알고리즘을 사용하여 이러한 문제를 해결하게됩니다.

이 데이터 사이언스 튜토리얼의 다음 문제는 여러분이 마주 치게 될 것입니다.

이거 이상해?

이와 같은 질문은 패턴을 다루며 이상 탐지 알고리즘을 사용하여 해결할 수 있습니다.

예를 들면 :

'이상한가요?'라는 문제를 연결해보십시오. 이 다이어그램에

위의 패턴에서 이상한 것은 무엇입니까? 붉은 녀석 맞죠?

패턴이 깨질 때마다 알고리즘은 검토 할 특정 이벤트에 플래그를 지정합니다. 이 알고리즘의 실제 응용 프로그램은 신용 카드 회사에 의해 구현되었으며, 여기서 사용자의 비정상적인 거래는 검토를 위해 표시됩니다. 따라서 보안을 구현하고 감시에 대한 인간의 노력을 줄입니다.

이 데이터 과학 자습서에서 다음 문제를 살펴 보겠습니다. 두려워하지 말고 수학을 다룹니다.

얼마나 또는 얼마나?

수학을 싫어하는 분들은 안심하세요! 회귀 알고리즘이 여기 있습니다!

따라서 수치 나 수치를 요구할 수있는 문제가있을 때마다 회귀 알고리즘을 사용하여 해결합니다.

예를 들면 :

내일 기온은 어떻습니까?

이 문제에 대한 응답으로 숫자 값을 예상하므로 회귀 알고리즘을 사용하여 해결합니다.

이 데이터 과학 자습서에서 다음 알고리즘에 대해 논의하겠습니다.

이것은 어떻게 구성됩니까?

데이터가 있는데 이제이 데이터를 어떻게 이해해야할지 전혀 모른다고 가정 해 보겠습니다. 따라서 질문은 이것이 어떻게 구성되어 있습니까?

음, 클러스터링 알고리즘을 사용하여 해결할 수 있습니다. 이러한 문제를 어떻게 해결합니까? 보자 :

클러스터링 알고리즘은 공통적 인 특성의 관점에서 데이터를 그룹화합니다. 예를 들어 위의 다이어그램에서 점은 색상을 기준으로 구성됩니다. 유사하게, 어떤 데이터이든 클러스터링 알고리즘은 그들 사이에 공통적 인 것이 무엇인지 파악하려고 시도하므로 함께 '클러스터'합니다.

이 데이터 과학 자습서에서 접할 수있는 다음 문제와 마지막 문제는 다음과 같습니다.

다음에 무엇을해야합니까?

컴퓨터가 제공 한 교육에 따라 결정을 내려야하는 문제가 발생할 때마다 강화 알고리즘이 포함됩니다.

예를 들면 :

실내 온도를 낮춰야할지 아니면 높여야할지 결정해야 할 때 온도 제어 시스템.

이러한 알고리즘은 어떻게 작동합니까?

이 알고리즘은 인간의 심리학을 기반으로합니다. 우리는 감사받는 것을 좋아합니다. 컴퓨터는 이러한 알고리즘을 구현하며 교육을받을 때 감사 할 것으로 기대합니다. 어떻게? 보자.

컴퓨터에게 무엇을해야하는지 가르치는 대신 무엇을해야할지 결정하게하고 그 작업이 끝나면 긍정적 또는 부정적인 피드백을 제공합니다. 따라서 시스템에서 무엇이 옳고 그른지를 정의하는 대신 시스템이 수행 할 작업을 '결정'하고 결국 피드백을 제공합니다.

Rails 웹 사이트 튜토리얼의 루비

개를 훈련시키는 것과 같습니다. 개가하는 일을 통제 할 수 없죠? 그러나 그가 잘못하면 그를 꾸짖을 수 있습니다. 비슷하게, 그가 예상 한 일을 할 때 등을 두드리는 것 같습니다.

위의 예에서이 이해를 적용하고 온도 제어 시스템을 교육한다고 가정 해 보겠습니다. 방에있는 사람들의 수가 증가하면 시스템에서 취한 조치가 있어야합니다. 온도를 낮추거나 높이십시오. 우리 시스템은 아무것도 이해하지 못하기 때문에 임의의 결정을 내립니다. 온도가 올라간다고 가정 해 보겠습니다. 따라서 부정적인 피드백을 제공합니다. 이를 통해 컴퓨터는 사람의 수가 증가 할 때마다 온도를 높이 지 않고 인식합니다.

다른 작업과 마찬가지로 피드백을 제공해야합니다.각 피드백을 통해 시스템이 학습하므로 다음 결정에서 더 정확 해집니다. 이러한 유형의 학습을 강화 학습이라고합니다.

이제이 데이터 과학 자습서에서 위에서 배운 알고리즘에는 일반적인 '학습 실습'이 포함됩니다. 우리는 기계를 올바르게 배우고 있습니까?

머신 러닝이란?

컴퓨터가 명시 적으로 프로그래밍되지 않고 스스로 학습 할 수 있도록하는 인공 지능의 한 유형입니다. 기계 학습을 통해 기계는 새로운 상황이 발생할 때마다 자체 코드를 업데이트 할 수 있습니다.

이 데이터 과학 자습서를 마치면 이제 데이터 과학이 머신 러닝과 그 분석 알고리즘에 의해 뒷받침된다는 것을 알고 있습니다. 분석 방법, 어디에서 수행합니까? 데이터 과학에는 이러한 모든 질문을 해결하는 데 도움이되는 몇 가지 구성 요소가 있습니다.

그 전에 MIT가 미래를 예측할 수있는 방법에 대해 대답 해 보겠습니다. 여러분이 지금 그것을 연관시킬 수 있다고 생각하기 때문입니다. 그래서 MIT의 연구원들은 영화로 모델을 훈련 시켰고 컴퓨터는 인간이 어떻게 반응하는지 또는 행동을 취하기 전에 어떻게 행동 하는지를 배웠습니다.

예를 들어, 누군가와 악수를 할 때 주머니에서 손을 꺼내거나 그 사람에게 기대어 앉을 수 있습니다. 기본적으로 우리가하는 모든 일에는 '사전 조치'가 붙어 있습니다. 영화의 도움을받는 컴퓨터는 이러한 '사전 조치'에 대해 훈련되었습니다. 그리고 점점 더 많은 영화를 관찰함으로써 그들의 컴퓨터는 캐릭터의 다음 행동이 무엇인지 예측할 수있었습니다.

쉽지 않나요? 이 데이터 과학 튜토리얼에서 한 가지 더 질문을 던질 게요! 어떤 기계 학습 알고리즘을 구현 했어야합니까?

데이터 과학 구성 요소

1. 데이터 세트

무엇을 분석 하시겠습니까? 데이터 맞죠? 분석 할 수있는 많은 데이터가 필요합니다.이 데이터는 알고리즘 또는 분석 도구에 제공됩니다. 이 데이터는 과거에 수행 된 다양한 연구에서 얻습니다.

2. R 스튜디오

R은 R 재단에서 지원하는 통계 컴퓨팅 및 그래픽을위한 오픈 소스 프로그래밍 언어 및 소프트웨어 환경입니다. R 언어는 R Studio라는 IDE에서 사용됩니다.

왜 사용됩니까?

  • 프로그래밍 및 통계 언어
    • 통계 언어로 사용되는 것 외에도 분석 목적으로 프로그래밍 언어로도 사용될 수 있습니다.
  • 데이터 분석 및 시각화
    • 가장 지배적 인 분석 도구 중 하나 인 것 외에도 R은 데이터 시각화에 가장 많이 사용되는 도구 중 하나입니다.
  • 간단하고 배우기 쉬움
    • R은 간단하고 배우고, 읽고, 쓰기 쉽습니다.

  • 무료 및 오픈 소스
    • R은 FLOSS (Free / Libre 및 오픈 소스 소프트웨어)의 예입니다. 즉,이 소프트웨어의 복사본을 자유롭게 배포하고, 소스 코드를 읽고, 수정할 수 있습니다.

R Studio는 데이터 세트가 거대 해지고 동시에 구조화되지 않을 때까지 분석에 충분했습니다. 이러한 유형의 데이터를 빅 데이터라고합니다.

3. 빅 데이터

빅 데이터는 너무 크고 복잡한 데이터 세트 모음을 가리키는 용어로, 현재 데이터베이스 관리 도구 또는 기존 데이터 처리 애플리케이션을 사용하여 처리하기가 어려워집니다.

이제이 데이터를 길들이기 위해 우리는 도구를 만들어야했습니다. 전통적인 소프트웨어는 이런 종류의 데이터를 처리 할 수 ​​없었기 때문에 우리는 Hadoop을 만들었습니다.

4. 하둡

Hadoop은 우리가 저장방법 대규모 데이터 세트를 병렬로 배포하는 방식으로.

Hadoop의 저장 및 처리 부분에 집중 해 보겠습니다.

저장

Hadoop의 스토리지 부분은 HDFS 즉, Hadoop 분산 파일 시스템에서 처리합니다. 분산 된 에코 시스템에서 고 가용성을 제공합니다. 작동 방식은 이와 같이 들어오는 정보를 청크로 나누고 클러스터의 다른 노드에 배포하여 분산 스토리지를 허용합니다.

방법

MapReduce는 Hadoop 처리의 핵심입니다. 알고리즘은 매핑과 축소라는 두 가지 중요한 작업을 수행합니다. 매퍼는 작업을 병렬로 처리되는 작은 작업으로 나눕니다. 일단 모든 매퍼가 작업 분담을 수행하고 결과를 집계 한 다음 이러한 결과는 축소 프로세스에 의해 더 단순한 값으로 축소됩니다. Hadoop에 대해 자세히 알아 보려면 .

데이터 과학에서 Hadoop을 스토리지로 사용하면 분산 환경에서 잘 수행 할 수 없기 때문에 R Studio로 입력을 처리하기가 어려워 지므로 Spark R이 있습니다.

5. 스파크 R

R과 함께 Apache Spark를 사용하는 간단한 방법을 제공하는 R 패키지입니다. 기존 R 애플리케이션보다이 패키지를 사용하는 이유는 무엇입니까? 왜냐하면 선택, 필터링, 집계 등과 같은 작업을 지원하지만 대규모 데이터 세트에 대한 분산 데이터 프레임 구현을 제공하기 때문입니다.

지금 숨을 쉬세요! 이 데이터 과학 자습서의 기술 부분을 완료했습니다. 이제 작업 관점에서 살펴 보겠습니다. 지금 쯤이면 데이터 과학자의 급여를 검색했을 것 같지만 데이터 과학자로서 사용할 수있는 직무에 대해 논의 해 보겠습니다.

데이터 과학자 직무 역할

저명한 데이터 과학자 직책 중 일부는 다음과 같습니다.

  • 데이터 과학자
  • 데이터 엔지니어
  • 데이터 아키텍트
  • 데이터 관리자
  • 데이터 분석가
  • 비즈니스 분석가
  • 데이터 / 분석 관리자
  • 비즈니스 인텔리전스 관리자

아래 데이터 과학 자습서의 Payscale.com 차트는 미국과 인도의 기술 별 평균 데이터 과학자 급여를 보여줍니다.

데이터 과학 및 빅 데이터 분석의 숙련도를 높여 데이터 과학 경력 기회를 활용할 때가되었습니다. 이것으로 데이터 과학 튜토리얼 블로그의 끝으로 이동합니다. 이 블로그가 유익하고 가치가 있었기를 바랍니다. 지금은 데이터 과학 세계에 들어가 성공적인 데이터 과학자가 될 때입니다.

Edureka는 특별히 선별 된 K-Means Clustering, Decision Trees, Random Forest, Naive Bayes와 같은 기계 학습 알고리즘에 대한 전문 지식을 얻는 데 도움이됩니다. 통계, 시계열, 텍스트 마이닝의 개념과 딥 러닝 소개도 배우게됩니다. 이 과정의 새로운 배치가 곧 시작됩니다 !!

데이터 과학 자습서에서 질문이 있으십니까? 의견란에 언급 해 주시면 연락 드리겠습니다.