머신 러닝에서 편향-분산이란 무엇입니까?



이 문서에서는 모델의 예측 정확도를 결정하는 관계와 함께 머신 러닝의 편향 및 분산 개념을 다룹니다.

에 , 모델의 성능은 예측과 보이지 않는 독립적 인 데이터에 대해 얼마나 잘 일반화되는지를 기반으로합니다. 모델의 정확도를 측정하는 한 가지 방법은 모델의 편향과 분산을 고려하는 것입니다. 이 기사에서는 편향 분산이 모델의 진위성을 결정하는 데 중요한 역할을하는 방법에 대해 알아 봅니다. 이 문서에서는 다음 항목에 대해 설명합니다.

돌이킬 수없는 오류

모든 모델 새로운 독립적 인 보이지 않는 데이터 세트에 대한 예측 오류를 기반으로 평가됩니다. 오류는 실제 출력과 예측 출력의 차이 일뿐입니다. 오차를 계산하기 위해 우리는 감소 가능한 오차와 감소 할 수없는 오차의 합, 즉 편향 분산 분해를 수행합니다.





PHP는 객체를 배열로 변환

돌이킬 수없는 오류는 어떤 경우에도 줄일 수없는 오류입니다. 모델에서 사용합니다. 이는 출력 변수에 직접적인 영향을 미치는 비정상적인 변수로 인해 발생합니다. 따라서 모델을 효율적으로 만들기 위해 모든 비용으로 최적화해야하는 감소 가능한 오류가 남습니다.

감소 가능한 오류에는 두 가지 구성 요소가 있습니다. 편향 및 분산 , 편향 및 분산의 존재는 다음과 같은 여러 방식으로 모델의 정확도에 영향을줍니다. 과적 합, 과소 적합 등감소 가능한 오류를 처리하는 방법을 이해하기 위해 편향과 분산을 살펴 보겠습니다. .



머신 러닝의 바이어스는 무엇입니까?

바이어스는 기본적으로 실제 값에서 얼마나 멀리 예측했는지입니다. 평균 예측이 실제 값과 멀리 떨어져 있으면 편향이 너무 높다고 말합니다.

바이어스가 높으면 알고리즘이 입력 변수와 출력 변수 사이의 지배적 인 패턴이나 관계를 놓치게됩니다. 편향이 너무 높으면 모델이 매우 단순하고 관계를 결정하기 위해 데이터 세트의 복잡성을 계산하지 않는다고 가정합니다.과소 적합을 유발합니다.

기계 학습 모델의 차이?

보이지 않는 독립적 인 데이터 세트 또는 검증 세트. 모델이 훈련 된 데이터 세트와 같이 잘 수행되지 않는 경우 모델에 분산이있을 가능성이 있습니다. 기본적으로 예측 값이 실제 값에서 얼마나 흩어져 있는지 알려줍니다.



데이터 세트의 분산이 크다는 것은 모델이 많은 노이즈와 관련없는 데이터로 학습되었음을 의미합니다. 따라서 모델에 과적 합이 발생합니다. 모델의 분산이 높으면 매우 유연 해지고 새로운 데이터 포인트에 대해 잘못된 예측을합니다. 학습 세트의 데이터 포인트에 맞춰 조정 되었기 때문입니다.

또한 편향 분산의 개념을 수학적으로 이해하려고 노력합시다. 우리가 예측하는 변수는 Y이고 다른 독립 변수는 X가되도록합니다. 이제 두 변수 사이에 다음과 같은 관계가 있다고 가정하겠습니다.

Y = f (X) + e

위의 방정식에서 여기 이다 평균값이 0 인 추정 오류입니다. 다음과 같은 알고리즘을 사용하여 분류기를 만들 때 선형 회귀 , 등, 점 x에서 예상되는 제곱 오차는 다음과 같습니다.

오류 (x) = 바이어스2+ 분산 + 환원 불가능한 오류

또한 편향-분산이 기계 학습 모델의 성능.

기계 학습 모델에 어떤 영향을 미칩니 까?

아래 나열된 네 가지 범주에 편향 분산 간의 관계를 입력 할 수 있습니다.

  1. 높은 분산-높은 바이어스 – 모델이 일관성이없고 평균적으로 부정확합니다.
  2. 낮은 분산-높은 바이어스 – 모델은 일관되지만 평균적으로 낮습니다.
  3. 높은 분산-낮은 바이어스 – 다소 정확하지만 평균적으로 일관성이 없음
  4. 낮은 분산-낮은 바이어스 – 이상적인 시나리오이며 모델은 평균적으로 일관되고 정확합니다.

기계 학습 -edureka의 편향-분산

모델에서 편향과 분산을 감지하는 것은 매우 분명합니다. 분산이 높은 모델은 훈련 오류가 낮고 유효성 검사 오류가 높습니다. 편향이 높은 경우 모델은 높은 훈련 오류를 가지며 검증 오류는 훈련 오류와 동일합니다.

탐지가 쉬워 보이지만 실제 작업은 최소로 줄이는 것입니다. 이 경우 다음을 수행 할 수 있습니다.

  • 더 많은 입력 기능 추가
  • 다항식 기능을 도입하여 더 복잡함
  • 정규화 기간 감소
  • 더 많은 훈련 데이터 얻기

이제 편향과 분산이 무엇이고 그것이 모델에 어떤 영향을 미치는지 알았으니 편향-분산 절충을 살펴 보겠습니다.

편향-분산 트레이드 오프

모델의 편향과 분산 사이의 올바른 균형을 찾는 것을 편향-분산 절충이라고합니다. 기본적으로 모델이 어떤 경우에도 과적 합되거나 과소 적합되지 않도록하는 방법입니다.

모델이 너무 단순하고 매개 변수가 매우 적 으면 편향이 높고 분산이 적습니다. 반면 모델에 매개 변수가 많으면 분산이 높고 편향이 낮습니다. 이 절충안은 둘 사이에 완벽하게 균형 잡힌 관계를 가져야합니다. 이상적으로는 낮은 편향과 낮은 분산이 모든 기계 학습 모델의 목표입니다.

def __init __ (자체)

총 오류

모든 기계 학습 모델에서 편향과 분산 사이의 적절한 균형은 예측 정확도 측면에서 완벽한 시나리오 역할을하며 과적 합, 모두 과소 적합을 방지합니다. 알고리즘 복잡성 측면에서 편향과 분산 사이의 최적의 균형은 모델이 결코 과적 합되거나 과소 적합되지 않도록 보장합니다.

통계 모델의 평균 제곱 오차는 제곱 편향과 분산 및 오차 분산의 합으로 간주됩니다. 이 모든 것은 모델에 편향, 분산 및 축소 불가능한 오류가있는 전체 오류에 포함될 수 있습니다.

실제 구현을 통해 전체 오류를 줄일 수있는 방법을 이해하겠습니다.

우리는 선형 회귀 분류기기계 학습의 선형 회귀 데이터 세트 모듈의 당뇨병 데이터 세트를 사용하는 Edureka에 대한 기사 scikit 배우다 도서관.

분류기의 평균 제곱 오차를 평가할 때 약 2500의 총 오차를 얻었습니다.

총 오류를 줄이기 위해 분류기에 더 많은 데이터를 제공하고 평균 제곱 오류를 2000으로 줄였습니다.

모델에 더 많은 학습 데이터를 제공하여 전체 오류를 줄이는 간단한 구현입니다. 마찬가지로 다른 기술을 적용하여 오류를 줄이고 효율적인 기계 학습 모델을 위해 편향과 분산 사이의 균형을 유지할 수 있습니다.

이것으로 마하에서의 편향-분산을 배운이 기사의 끝으로 이동합니다.구현 및 사용 사례를 통한 학습. 이 튜토리얼에서 여러분과 공유 한 모든 내용이 명확하기를 바랍니다.

'머신 러닝의 바이어스-분산'에 대한이 기사가 관련이있는 경우 전 세계에 250,000 명 이상의 만족 한 학습자 네트워크를 보유한 신뢰할 수있는 온라인 학습 회사입니다.

우리는 당신의 여정의 모든 단계에서 당신을 돕고 싶어하는 학생과 전문가를 위해 설계된 커리큘럼을 마련하기 위해 여기 있습니다. . 이 과정은 Python 프로그래밍을 먼저 시작하고 다양한 Python 개념과 함께 핵심 및 고급 Python 개념을 교육하도록 설계되었습니다. 처럼 , 등

질문이있는 경우 '머신 러닝의 편향-변이'의 댓글 섹션에있는 모든 질문에 자유롭게 질문하시면 저희 팀이 기꺼이 답변 해 드리겠습니다.