나는 당신이 t-SNE 알고리즘의 개요와 예를 즐겼기를 바랍니다. t-SNE는 내가 작업한 거의 모든 데이터가 고차원적인 것처럼 보였기 때문에 시각화 도구로매우 흥미롭고 유용하다고 판단했습니다. 나는 아래에 슈퍼 도움이 발견 자원을 게시 할 수 있습니다. 나를 위해 최고의 자원은 로렌스에 의해 유튜브 동영상이었다. 그것은 거의 1 시간에 조금 길지만 잘 설명하고 세부 사항으로 가장 명확한 설명을 발견 했습니다. t-분산 형 Stochastic 이웃 포함 (t-SNE)은 고차원 데이터 세트의 시각화에 특히 적합한 차원 감소를위한 (수상 경력) 기술입니다. 이 기술은 Barnes-Hut 근사치를 통해 구현할 수 있으므로 대규모 실제 데이터 집합에 적용할 수 있습니다. 최대 3,000만 개의 예제가 있는 데이터 세트에 적용했습니다. 기술과 그 변종은 다음 논문에 소개됩니다 : 알고리즘 t-SNE는 최근 배운 scikit의 마스터에 병합되었습니다. 그것은 시각화하고 고차원 데이터를 이해하는 좋은 도구입니다. 이 게시물에서는 알고리즘의 기본 개념을 설명하고 scikit 학습의 구현이 어떻게 사용될 수 있는지 보여주고 몇 가지 예를 보여줍니다. 여기에 내장 된 IPython 노트북은 여기에서 찾을 수 있습니다. t-SNE를 가진 우리의 실험의 몇몇 결과는 아래에 다운로드할 수 있습니다.

Netflix 데이터 집합 및 단어 데이터 집합의 플롯에서 세 번째 차원은 색상 인코딩을 통해 인코딩됩니다(유사한 단어/동영상이 서로 가깝고 동일한 색상). 포함된 대부분의 `오류`(예: 20개의 뉴스 그룹)는 실제로 t-SNE가 적용된 기능의 `오류`로 인해 처리됩니다. 이러한 많은 예에서 포함에는 원래 고차원 피처와 비교할 수 있는 1-NN 오류가 있습니다. 이러한 알고리즘의 사용 사례는 무엇인지 물어볼 수 있습니다. t-SNE는 거의 모든 고차원 데이터 세트에서 사용할 수 있습니다. 그러나 이미지 프로세싱, NLP, 게놈 데이터 및 음성 처리에 광범위하게 적용된다. 그것은 뇌와 심장 스캔의 분석을 개선 하기 위해 활용 되었습니다. 다음은 몇 가지 예입니다 : t-SNE의 흥미로운 사용을 확인하려면 Displayr가 최근 중동 정치를 분석하는 데 사용했습니다. 매혹적인 읽기: https://www.displayr.com/using-machine-learning-t-sne-to-understand-middle-eastern-politics/ 본질적으로 이것이 의미하는 바는 알고리즘에 입력된 원본 데이터를 살펴보고 이를 가장 잘 표현하는 방법을 살펴보는 것입니다. 두 분포를 일치시켜 더 적은 차원을 사용하는 데이터를 사용할 수 있습니다.

이 작업을 수행하는 방법은 계산적으로 매우 무겁기 때문에이 기술의 사용에 몇 가지 (심각한) 제한이 있습니다. 예를 들어 권장 사항 중 하나는 매우 높은 차원 데이터의 경우 t-SNE를 사용하기 전에 다른 차원 감소 기술을 적용해야 할 수 있습니다: 각 교육 및 테스트 예제는 다음 레이블 중 하나에 할당됩니다. 예를 들어, 여기에 scikit 구현이 있는 것과 같은 일을 하기 위해, http://scikit-learn.org/stable/auto_examples/decomposition/plot_kernel_pca.html 그러나 우리는 이 세포에서 하위 집단을 찾을 수 있습니까? 우리가 단일 세포 데이터 세트와 AML (마커)와 골수 단핵 세포를로드 할 수 있습니다.