머신 러닝은 의심 할 여지없이 시대에 가장 수요가 많은 기술입니다! 머신 러닝을 시작하는 초보자 인 경우 머신 러닝의 전제 조건을 아는 것이 중요합니다. 이 블로그는 기계 학습을 시작하기 전에 알아야 할 다양한 개념을 이해하는 데 도움이됩니다.
인공 지능 및 기계 학습에 대한 심층적 인 지식을 얻으려면 라이브에 등록 할 수 있습니다. 24/7 지원 및 평생 액세스를 제공하는 Edureka
다음은 주제 목록입니다. 이 블로그에서 다루는 내용 :
기계 학습을위한 전제 조건
시작하려면기계 학습은 다음 개념에 익숙해야합니다.
통계
통계에는 데이터에서 일부 결과를 얻는 데 사용할 수있는 도구가 포함되어 있습니다. 일부 중요한 정보에서 원시 데이터를 변환하는 데 사용되는 기술 통계가 있습니다. 또한 추론 통계를 사용하여 전체 데이터 세트를 사용하는 대신 데이터 샘플에서 중요한 정보를 얻을 수 있습니다.
자세히 알아보기 다음 블로그를 통해 확인할 수있는 통계 :
선형 대수
선형 대수 거래벡터, 행렬 및 선형 변환으로. 데이터 세트에 대한 작업을 변환하고 수행하는 데 사용할 수 있으므로 머신 러닝에서 매우 중요합니다.
계산법
미적분은 수학에서 중요한 분야이며 많은 기계 학습 알고리즘에서 필수적인 역할을합니다. 여러 기능을 가진 데이터 세트는다중 다 변수 미적분은 기계 학습 모델을 구축하는 데 중요한 역할을합니다. 통합과 차별화는 필수입니다.
개연성
확률은 발생 가능성을 예측하는 데 도움이되며 상황이 다시 발생하거나 발생하지 않을 수 있다고 추론하는 데 도움이됩니다. 기계 학습의 경우 확률은 기초.
확률에 대해 자세히 알아 보려면 다음 단계를 따르세요. 블로그.
프로그래밍 언어
전체 기계 학습 프로세스를 구현하려면 R 및 Python과 같은 프로그래밍 언어를 알아야합니다. Python과 R은 모두 기계 학습 알고리즘을 매우 쉽게 구현할 수있는 내장 라이브러리를 제공합니다.
기본적인 프로그래밍 지식 외에도 데이터를 추출, 처리 및 분석하는 방법을 아는 것도 중요합니다. 이것은 기계 학습에 필요한 가장 중요한 기술 중 하나입니다.
프로그래밍에 대해 자세히 알아 보려면 기계 학습을위한 언어에 대해서는 다음 블로그를 참조 할 수 있습니다.
기계 학습 사용 사례
머신 러닝은 데이터에서 학습하여 사진에 어떤 종류의 물체가 있는지 예측하거나 특정 질병이나 스팸 필터링을 치료할 수있는 최상의 약물 조합 인 추천 엔진을 만드는 알고리즘을 만드는 것입니다.
기계 학습은 수학적 전제 조건을 기반으로하며 기계 학습에서 수학이 사용되는 이유를 알고 있다면 재미있을 것입니다. 사용할 함수의이면에있는 수학과 데이터에 적합한 모델과 그 이유를 알아야합니다.
이제 주택 가격을 예측하는 흥미로운 문제부터 시작해 보겠습니다. 다양한 기능과 가격의 내역이 포함 된 데이터 세트를 사용합니다. 지금은 생활 공간의 면적 (평방 피트)과 가격을 고려합니다.
이제 아래와 같이 두 개의 열이 포함 된 데이터 세트가 있습니다.
주택 가격을 예측할 수있는 모델을 구축해야한다는 것을 알기 위해서는이 두 변수 사이에 약간의 상관 관계가 있어야합니다. 어떻게 할 수 있습니까?
이 데이터를 그래프로 표시하고 어떻게 보이는지 살펴 보겠습니다.
여기서 X 축은 생활 공간의 평방 피트 당 가격이고 Y 축은 주택 가격입니다. 모든 데이터 포인트를 플로팅하면 위 그림과 같이 선으로 표현할 수있는 산점도를 얻게되고 일부 데이터를 입력하면 결과가 예측됩니다. 이상적으로는 최대 데이터 포인트와 교차하는 선을 찾아야합니다.
여기서 우리는 다음과 같은 라인을 만들려고합니다.
Y = mX + c
목표 (종속 변수)와 예측 변수 (독립 변수) 간의 선형 관계를 예측하는이 방법을 선형 회귀라고합니다. 두 변수 간의 관계를 연구하고 요약 할 수 있습니다.
자바에서 확장과 구현의 차이점
- X = 독립 변수
- Y = 종속 변수
- c = y 절편
- m = 라인 슬롭
방정식을 고려하면 독립 변수 인 X 값이 있으므로 Y 값을 예측하기 위해 m과 c에 대한 값을 계산하면됩니다.
그렇다면 이러한 변수를 어떻게 찾을 수 있습니까?
이러한 변수를 찾기 위해 많은 값을 시도하고 최대 데이터 포인트 수와 교차하는 선을 찾으려고 시도 할 수 있습니다. 그러나 가장 적합한 라인을 어떻게 찾을 수 있습니까?
따라서 가장 적합한 선을 찾기 위해 y의 실제 값과 예측 값 y` 사이의 오류를 찾는 최소 제곱 오차 함수를 사용할 수 있습니다.
최소 제곱 오차 함수는 다음 방정식을 사용하여 나타낼 수 있습니다.
이 함수를 사용하여 각 예측 데이터 포인트의 오류를 데이터 포인트의 실제 값과 비교하여 알아낼 수 있습니다. 그런 다음 이러한 모든 오류를 합산하고 제곱하여 예측 편차를 찾습니다.
가능한 모든 오류 값을 포함하는 세 번째 축을 그래프에 추가하고 3 차원 공간에 플로팅하면 다음과 같이 표시됩니다.
위 이미지에서 이상적인 값은 실제 데이터 포인트에 가까운 가격을 예측하는 하단 검은 색 부분에 있습니다. 다음 단계는 m 및 c에 대해 가능한 최상의 값을 찾는 것입니다. 이는 경사 하강 법이라는 최적화 기술을 사용하여 수행 할 수 있습니다.
경사 하강 법은 반복적 인 방법으로, 변수에 대한 일부 값 집합을 초기화하는 것으로 시작하고 실제 값과 예측 값 사이의 오류를 최소화하여 천천히 개선합니다.
이제 실제로 아파트 가격이 평방 피트 당 가격에만 의존하지 않는다고 생각하면 침실 수, 욕실 수 등과 같은 많은 요소가 있습니다. 이러한 기능도 고려하면 방정식은 다음과 같이 보일 것입니다. 이렇게
Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c
이것은 선형 대수에 속하는 다 선형 회귀입니다. 여기서 우리는 m이 특징이고 n이 데이터 포인트 인 크기 mxn의 행렬을 사용할 수 있습니다.
집의 상태가 좋은지 나쁜지에 따라 집을 분류하기 위해 확률을 사용하여 집의 상태를 찾을 수있는 또 다른 상황을 고려해 보겠습니다. 이를 위해 우리는 시그 모이 드 함수로 표현되는 발생 확률에 대해 작동하는 로지스틱 회귀라는 기술을 사용해야합니다.
이 기사에서는 기계 학습의 전제 조건과 기계 학습에 적용되는 방법에 대해 설명했습니다. 따라서 기본적으로 통계, 미적분, 선형 대수 및 확률 이론으로 구성됩니다. 미적분에는 최적화에 사용되는 기술이 있고, 선형 대수에는 엄청난 데이터 세트에서 작동 할 수있는 알고리즘이 있으며, 확률로 발생 가능성을 예측할 수 있으며 통계는 데이터 세트 샘플에서 유용한 통찰력을 추론하는 데 도움이됩니다.
이제 머신 러닝의 전제 조건을 알았으니 더 자세히 알고 싶으 실 것입니다. 다음은 데이터 과학을 시작하는 데 도움이되는 몇 가지 블로그입니다.
인공 지능 및 기계 학습에 대한 전체 과정에 등록하려는 경우 Edureka는 특별히 선별 된 지도 학습, 비지도 학습 및 자연어 처리와 같은 기술에 능숙하게 만들 것입니다. 여기에는 딥 러닝, 그래픽 모델 및 강화 학습과 같은 인공 지능 및 기계 학습의 최신 발전 및 기술적 접근에 대한 교육이 포함됩니다.