머신 러닝 통계 : 초보자 가이드



기계 학습을위한 통계에 대한이 기사는 예제와 함께 다양한 개념 os 통계에 대한 포괄적 인 가이드입니다.

데이터를 이해하고 그로부터 가치를 창출 할 수있는 것은 10 년 동안의 기술입니다. 기계 학습은 기업이이를 수행하는 데 도움이되는 핵심 기술 중 하나입니다. 그러나 시작하려면 기초를 올바르게 구축해야합니다. 따라서이 기사에서는 몇 가지 기본 개념을 다루고 기계 학습에서 여정을 시작하기위한 지침을 제공합니다. 따라서 머신 러닝 통계에 대한이 기사에서는 다음 주제에 대해 설명합니다.

  1. 개연성
  2. 통계
  3. 선형 대수

기계 학습을위한 확률 및 통계 :





확률이란 무엇입니까?

확률은 이벤트 발생 가능성을 수량화합니다. 예를 들어 공정하고 편향되지 않은 주사위를 굴리면 하나 1/6입니다. . 자, 궁금하다면 why? 그렇다면 대답은 아주 간단합니다!

6 가지 가능성이 있고 모두 똑같이 (공정한 주사위) 가능성이 있기 때문입니다. 따라서 우리는 추가 할 수 있습니다 1 + 1 + 1 + 1 + 1 + 1 = 6. 그러나 우리는 1이 나오는 이벤트 . 있다 이벤트가 발생할 수있는 유일한 방법입니다. 따라서,



1이 나타날 확률 = 1/6

모든 사건이 똑같이 발생하기 때문에 다른 모든 숫자의 경우도 비슷합니다. 간단 하죠?

음,이 예에 대한 확률에 대한 빈도 주의적 정의는 다음과 같이 들릴 것입니다. 1이 나올 확률은 1을 올린 횟수와 주사위를 무한히 굴 렸을 때 주사위를 굴린 총 횟수의 비율입니다. 타임스.이것이 어떻게 말이 되는가?



더 재미있게 만들어 봅시다. 두 가지 경우를 고려하십시오. 공정한 주사위를 5 번 굴 렸습니다. 한 경우에 나타나는 일련의 숫자는 – [1,4,2,6,4,3]입니다. 다른 경우에는 – [2,2,2,2,2,2]를 얻습니다. 어느 것이 더 가능성이 있다고 생각하십니까?

둘 다 똑같이 가능성이 있습니다. 이상하게 보이죠?

SQL 예제의 날짜 데이터 유형

이제 각 케이스의 5 개 롤이 모두 독립적 인 . 즉, 한 롤이 다른 롤에 영향을주지 않습니다. 첫 번째 경우, 6이 나오면 2가 먼저 나타났다는 사실을 몰랐습니다. 따라서 5 개의 롤이 모두 똑같이 가능합니다.

마찬가지로 두 번째 경우의 직선 2는 일련의 독립 이벤트로 이해 될 수 있습니다. 그리고 이러한 모든 사건은 똑같이 발생합니다. 전반적으로 우리는 같은 주사위를 가지고 있기 때문에 케이스 1이 케이스 2와 같을 때 특정 숫자가 나타날 확률. 다음으로 머신 러닝 통계에 대한이 기사에서 독립.

독립

두 가지 이벤트 A의 발생이 이벤트 B에 영향을 미치지 않으면 A와 B는 독립적이라고합니다. . 예를 들어, 동전을 던지고 주사위를 굴리면 주사위의 결과는 동전이 앞면인지 뒷면인지에 영향을 미치지 않습니다. 또한 두 개의 독립적 인 사건 A와 B , A와 B가 함께 발생할 가능성 . 예를 들어, 동전이 앞면이 나오고 주사위가 3이 나올 확률을 원한다면

P (A 및 B) = P (A) * P (B)

따라서 P = & frac12 (앞면이 올라갈 확률) * ⅙ (3 번 올라갈 확률) = 1/12

앞의 예에서 두 경우 모두 P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙입니다.

이제 독립적이지 않은 사건에 대해 이야기합시다. 다음 표를 고려하십시오.

뚱뚱한 비만 아님
심장 질환오분의 사열 다섯
심장 문제 없음1030

100 명의 설문 조사에 참여했습니다. 60 명은 심장 질환이 있었고 40 명은 그렇지 않았습니다. 심장 질환이있는 60 명 중 45 명은 비만이었습니다. 심장병이없는 40 명 중 10 명은 비만이었다. 누군가 물어 보면

  1. 심장 문제가있을 확률은 얼마입니까?
  2. 심장에 문제가 있고 비만이 아닐 확률은 얼마입니까?

첫 번째 질문에 대한 답은 간단합니다 – 60/100. 두 번째는 15/100입니다. 이제 세 번째 질문을 생각해보십시오. 사람이 무작위로 선택되었습니다. 그는 심장병이있는 것으로 밝혀졌습니다. 그가 비만 ​​일 확률은 얼마입니까?

이제 여러분에게 주어진 정보에 대해 생각해보십시오. 그가 심장병에 걸린 것으로 알려져 있습니다. 그러므로 그는 심장병이없는 40 대가 될 수 없습니다. 가능한 옵션은 60 개뿐입니다 (표의 맨 위 행). 이제 이러한 감소 된 가능성 중에서 그가 비만 ​​일 확률은 45/60입니다. 이제, 독립 이벤트가 무엇인지 알았으니, 머신 러닝 통계에 관한이 기사의 다음 부분에서 조건부 확률을 이해하겠습니다.

조건부 확률

조건부 확률을 이해하기 위해 위의 예에서 계속 논의하겠습니다. 비만 상태와 심장 문제로 고통받는 상태는 독립적이지 않습니다. 비만이 심장 문제에 영향을 미치지 않았다면, 심장 문제가있는 사람들의 비만 및 비만 사례의 수는 동일했을 것입니다.

또한 그 사람에게 심장 질환이 있다는 사실이 주어졌고 그가 비만 ​​일 확률을 알아 내야했습니다. 따라서이 경우 확률은 심장 문제가 있다는 사실에 따라 결정된다고합니다. 사건 A가 발생할 확률이 사건 B를 조건으로한다면 우리는 그것을 다음과 같이 표현한다.

P (A | B)

이제이 조건부 확률을 계산하는 데 도움이되는 정리가 있습니다. 그것은 베이 즈 규칙 .

P (A | B) = P (A 및 B) / P (B)

방금 논의한 예제를 연결하여이 정리를 확인할 수 있습니다. 지금까지 이해했다면 다음과 같이 시작할 수 있습니다. - 나이브 베이 즈 . 조건부 확률을 사용하여 이메일이 스팸인지 여부를 분류합니다. 다른 많은 분류 작업을 수행 할 수 있습니다. 하지만 본질적으로 조건부 확률은 .

통계:

통계는 많은 데이터 포인트를 요약하고 추론하는 데 사용됩니다. 데이터 과학 및 기계 학습에서 종종 다음과 같은 용어를 접하게됩니다.

  • 중심성 측정
  • 분포 (특히 정상)

중심성 측정 및 스프레드 측정

평균:

평균은 단지 평균 숫자 . 평균을 알아 내려면 숫자를 더하고 숫자의 개수로 나누어야합니다. 예를 들어 [1,2,3,4,5]의 평균은 15/5 = 3입니다.

mean-statistics-for-machine-learning

중앙값:

중앙값은 숫자 집합의 중간 요소 오름차순으로 정렬 될 때. 예를 들어 숫자 [1,2,4,3,5]는 오름차순 [1,2,3,4,5]으로 정렬됩니다. 이 중 중간은 3입니다. 따라서 중앙값은 3입니다. 그러나 숫자의 수가 짝수이므로 중간 수가 없으면 어떻게 될까요? 이 경우 가장 중간에있는 두 숫자의 평균을 구합니다. 오름차순으로 된 2n 숫자 시퀀스의 경우 n 번째와 (n + 1)의 평균을 계산합니다.중앙값을 얻을 수 있습니다. 예 – [1,2,3,4,5,6]의 중앙값은 (3 + 4) / 2 = 3.5입니다.

방법:

모드는 단순히 숫자 집합에서 가장 빈번한 숫자 . 예를 들어 [1,2,3,3,4,5,5,5] 모드는 5입니다.

Google 클라우드 플랫폼 사용 방법

변화:

분산은 중심성 측정이 아닙니다. 측정 데이터가 평균에 분산되는 방식 . 다음과 같이 정량화됩니다.

엑스N 숫자의 평균입니다. 당신은 점을 취하고 평균을 빼고이 차이의 제곱을 취합니다. 모든 N 개의 숫자에 대해 이것을 수행하고 평균을 내십시오. 분산의 제곱근을 표준 편차라고합니다. 다음으로, 기계 학습을위한 통계에 대한이 기사에서 정규 분포를 이해하겠습니다.

정규 분포

배포는 우리를 돕습니다 데이터가 어떻게 확산되는지 이해 . 예를 들어, 연령 표본에서 우리는 노인보다 젊은 사람들이 더 많기 때문에 더 큰 값보다 더 작은 연령 값을 가질 수 있습니다. 하지만 분포를 어떻게 정의할까요? 아래 예를 고려하십시오.

Y 축은 밀도를 나타냅니다. 이 분포의 최빈값은 최대 30이므로 가장 자주 발생합니다. 중앙값도 찾을 수 있습니다. 중앙값은 곡선 아래 영역의 절반이 덮는 x 축 지점에 있습니다. 모든 사건의 확률의 합이 1이기 때문에 정규 분포의 면적은 1입니다. 예를 들면 다음과 같습니다.

위의 경우 중앙값은 약 4입니다. 이것은 4 이전의 곡선 아래 면적이 4 이후의 면적과 동일하다는 것을 의미합니다. 다른 예를 고려하십시오.

세 가지 정규 분포를 볼 수 있습니다. 파란색과 빨간색은 평균이 같습니다. 빨간색은 분산이 더 큽니다. 따라서 파란색보다 더 많이 퍼져 있습니다. 그러나 면적이 1이어야하므로 면적을 일정하게 유지하기 위해 빨간색 곡선의 피크가 파란색 곡선보다 짧습니다.

기본 통계와 정규 분포를 이해 하셨기를 바랍니다. 이제 기계 학습을위한 통계에 관한이 기사의 다음으로 선형 대수에 대해 알아 보겠습니다.

선형 대수

현대 AI는 선형 대수 없이는 불가능합니다. 그것은 핵심을 형성합니다 딥 러닝 그리고 같은 간단한 알고리즘에서도 사용되었습니다. . 더 이상 지체하지 않고 시작하겠습니다.

벡터에 익숙해야합니다. 그것들은 공간에서 일종의 기하학적 표현입니다. 예를 들어, 벡터 [3,4]는 x 축에 3 개 단위와 y 축에 4 개 단위가 있습니다. 다음 이미지를 고려하십시오.

벡터 d1은 x 축을 따라 0.707 단위와 y 축을 따라 0.707 단위를 갖습니다. 벡터에는 1 차원이 있습니다. 그것은 반드시 규모와 방향을 가지고 있습니다. 예를 들면

석사는 대학원 학위입니다

위의 이미지에는 벡터 (4,3)가 있습니다. 그 크기는 5이고 x 축으로 36.9도를 만듭니다.

자, 행렬이란 무엇입니까? 행렬은 숫자의 다차원 배열입니다. 용도는 무엇입니까? 우리는 앞서 볼 것입니다. 하지만 먼저 어떻게 사용되는지 살펴 보겠습니다.

매트릭스

행렬은 여러 차원을 가질 수 있습니다. 2 차원 행렬을 생각해 봅시다. 행 (m)과 열 (n)이 있습니다. 그러므로 그것은 m * n 개의 요소를 가지고 있습니다.

예를 들면

이 행렬에는 5 개의 행과 5 개의 열이 있습니다. A라고 부르겠습니다. 따라서 A (2,3)는 두 번째 행과 세 번째 열의 항목 인 8입니다.

이제 행렬이 무엇인지 알았으므로 행렬의 다양한 연산을 살펴 보겠습니다.

행렬 연산

행렬 추가

두 개의 행렬 같은 치수를 추가 할 수 있습니다. 추가는 요소별로 발생합니다.

스칼라 곱셈

행렬에 스칼라 수량을 곱할 수 있습니다. 이러한 곱셈은 행렬의 모든 항목이 스칼라로 곱해지게합니다. 스칼라는 숫자 일뿐입니다.

행렬 전치

행렬 전치는 간단합니다. 행렬 A (m, n)의 경우 A '를 전치라고합니다. 그때

A '(i, j) = A (j, i)

예를 들면

행렬 곱셈

이것은 아마도 다른 작업보다 약간 까다로울 것입니다. 자세히 알아보기 전에 두 벡터 간의 내적을 정의 해 보겠습니다.

벡터 X = [1,4,6,0] 및 벡터 Y = [2,3,4,5]를 고려하십시오. 그런 다음 X와 Y 사이의 내적은 다음과 같이 정의됩니다.

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

따라서 요소 별 곱셈과 덧셈입니다. 지금,두 개의 행렬 A (m, n) 및 B (n, k)를 고려해 보겠습니다. 여기서 m, n, k는 차원이므로 정수입니다. 행렬 곱셈을 다음과 같이 정의합니다.

위의 예에서, 곱 (44)의 첫 번째 요소는 왼쪽 행렬의 첫 번째 행과 오른쪽 행렬의 첫 번째 열의 내적에 의해 구해집니다. 마찬가지로, 72는 왼쪽 행렬의 첫 번째 행과 오른쪽 행렬의 두 번째 열의 내적에 의해 구해집니다.

왼쪽 행렬의 경우 열 수는 오른쪽 열의 행 수와 같아야합니다. 우리의 경우, 제품 AB는 존재하지만 m은 k와 같지 않기 때문에 BA가 아닙니다. 두 행렬 A (m, n) 및 B (n, k)의 경우 제품 AB가 정의되고 제품의 차원은 (m, k) ((m, n), (n, k)의 가장 바깥 쪽 차원 )). 그러나 m = k가 아니면 BA는 정의되지 않습니다.

이것으로 우리는 기계 학습을위한 통계에 대한이 기사를 마칩니다. 기계 학습 전문 용어 중 일부를 이해 하셨기를 바랍니다. 여기서 끝나지 않습니다. 업계에 대비하려면 데이터 과학 및 AI에 대한 Edureka의 과정을 확인하세요. 그들은 찾을 수 있습니다