Mahout의 퍼지 K- 평균 클러스터링



이 블로그는 Apache Mahout의 Fuzzy K-Means 클러스터링을 소개합니다.

퍼지 K- 평균은 널리 사용되는 단순 클러스터링 기술인 K- 평균과 정확히 동일한 알고리즘입니다. 유일한 차이점은 점을 하나의 군집에만 할당하는 대신 두 개 이상의 군집간에 일종의 모호함이나 겹침이있을 수 있다는 것입니다. 다음은 퍼지 K- 평균을 설명하는 핵심 사항입니다.





informatica의 능동 및 수동 변환
  • 각 포인트가 하나의 클러스터에 속하는 하드 클러스터를 찾는 K-Means와 달리 퍼지 K-Means는 중첩을 위해 더 부드러운 클러스터를 찾습니다.
  • 소프트 클러스터의 단일 포인트는 각 포인트에 대한 특정 선호도 값을 가진 둘 이상의 클러스터에 속할 수 있습니다.
  • 친화 성은 클러스터 중심에서 해당 점의 거리에 비례합니다.
  • K-Means와 유사하게 Fuzzy K-Means는 거리 측정이 정의 된 객체에 대해 작동하며 엔- 차원 벡터 공간.

퍼지 K-Means MapReduce 흐름

K-Means의 MapReduce 흐름과 Fuzzy K-Means 사이에는 큰 차이가 없습니다. Mahout의 두 가지 구현은 비슷합니다.

다음은 필수 매개 변수 퍼지 K- 평균 구현을 위해 :



  • 입력을 위해 벡터 데이터 세트가 필요합니다.
  • 초기 k 클러스터를 시드하려면 RandomSeedGenerator가 있어야합니다.
  • 거리 측정을 위해서는 SquaredEuclideanDistanceMeasure가 필요합니다.
  • 거리 측정의 제곱 값이 사용 된 경우 –cd 1.0과 같은 큰 수렴 임계 값
  • maxIterations의 값은 기본값 인 -x 10입니다.
  • 값이 -m 1.0보다 큰 정규화 계수 또는 퍼지 계수

질문이 있으십니까? 댓글 섹션에서 언급하시면 다시 연락 드리겠습니다.

관련 게시물

html의 span 태그는 무엇입니까



Apache Mahout의지도 학습