lda 예제

다음은 Trig/Family/Inspiration 범주(특히 대표적인 단어가 파란색으로 강조 표시됨)로 99% 감소한 이메일의 예입니다. 여기서는 θ의 모양(즉, 분포)에 영향을 주는 α에 3개의 매개변수가 있는 3차원 문제의 예를 설명합니다. N차원 디리클렛 분포의 경우 N 길이 벡터를 α로 사용할 수 있습니다. θ의 모양이 다른 α 값으로 어떻게 변경되는지 확인할 수 있습니다. 예를 들어 위쪽 중간 플롯이 θ 접지와 유사한 모양을 표시하는 방법을 볼 수 있습니다. 그래서 당신은 배울 수있는 카테고리의 몇 가지 숫자 K를 선택 (즉, 당신은 사람들이 에 속하는 카테고리의 K 가장 중요한 종류를 배우고 싶어), 당신이 어디에 사람들을 볼 이유를 추측하여 시작합니다. 예를 들어, 처음에는 X에 관심이 있는 사람들이 그곳에서 놀고 싶어하기 때문에 Alice가 쇼핑몰에 있다고 추측합니다. 공원에서 그녀를 볼 때, 당신은 Y에 관심이있는 그녀의 친구가 거기에 놀고 싶어하기 때문에 추측; 영화관에서 Bob을 볼 때, 이 도시의 Z 사람들이 정말 영화를 보고 싶어하기 때문에 무작위로 추측할 수 있습니다. 등등. 그런데 왜 우리는이 아이디어를 사용합니까? 예를 들어 상상해 봅시다. 이 자습서에서는 `20 개의 뉴스 그룹` 데이터 집합의 실제 예제를 수행 하 고 LDA를 사용 하 여 자연스럽 게 설명 된 항목을 추출 합니다.

이 예제에서는 데이터 집합에 대한 사전 지식을 기반으로 n_topics를 20으로 설정했습니다. 나중에 그리드 검색을 사용하여 최적의 번호를 찾을 수 있습니다. 예를 들어 LDA 모델에는 CAT_related 및 DOG_related로 분류할 수 있는 항목이 있을 수 있습니다. 주제에는 우유, 야옹 및 새끼 고양이와 같은 다양한 단어가 생성될 확률이 있으며, 이는 뷰어가 “CAT_related”로 분류하고 해석할 수 있습니다. 당연히 고양이라는 단어 자체는 이 주제를 고려할 때 높은 확률을 갖게 될 것입니다. DOG_related 항목도 마찬가지로 각 단어를 생성할 확률이 있습니다: 강아지, 껍질 및 뼈는 높은 확률을 가질 수 있습니다. “the”(함수 단어 참조)와 같이 특별한 관련성이 없는 단어는 클래스 간에 대략 균등한 확률을 갖습니다(또는 별도의 범주에 배치할 수 있음).

Comments

Comments are closed.