nltk 예제

nltk는 우리를 위해 일을 할 기능 FreqDist ()를 제공합니다. 또한, 우리는 우리의 단어 빈도 수를 방해하기 위해 그들을 필요로하지 않기 때문에 우리는 우리의 웹 페이지에서 중지 단어 (에서, 에, 등)를 제거합니다. 우리는 우리가 nltk.download()를 사용하여 NLTK 패키지를 설치 기억하면 웹 페이지의 컨텍스트의 명확한 그림을 얻기 위해 웹 페이지에서 가장 자주 발생하는 단어에 대한 그래프를 플롯합니다. 패키지 중 하나는 WordNet이었습니다. WordNet은 자연어 처리를 위해 구축된 데이터베이스입니다. 여기에는 동의어 그룹과 간략한 정의가 포함됩니다. NLP를 사용하면 컴퓨터가 자연스럽게 인간과 상호 작용할 수 있습니다. 그것은 컴퓨터가 인간의 언어를 이해하고 그것에서 의미를 파생하는 데 도움이됩니다. NLP는 음성 인식, 언어 번역, 문서 분류에서 정보 추출에 이르기까지 여러 가지 문제가 있습니다. 영화 리뷰를 분석하는 것은 영화 리뷰에서 간단한 NLP 단어 가방 모델을 보여주는 고전적인 예 중 하나입니다. 데이터 준비 첫 번째 단계는 데이터를 준비하는 것입니다.

우리는 nltk에 포함 된 이름 세트를 사용합니다. 우리는 음성 인식, 음성 번역, 완전한 문장 이해, 일치하는 단어의 동의어 이해, 완전한 문법적으로 올바른 문장 작성과 같은 자연어 처리 (NLP)의 실용적인 예에 대해 여기에서 이야기하고 있습니다. 단락. 관계 추출을 사용하면 원시 텍스트와 같은 구조화되지 않은 소스에서 구조화 된 정보를 얻을 수 있습니다. 엄격하게 명시되어 있으며, 명명된 법인(예: 사람, 조직, 위치) 간의 관계(예: 취득, 배우자, 고용)를 식별합니다. 예를 들어, “마크와 에밀리가 어제 결혼했다”라는 문장에서 마크가 에밀리의 남편이라는 정보를 추출할 수 있습니다. 모든 패키지에 대해 “모두”를 다운로드한 다음 `다운로드`를 클릭합니다. 이렇게하면 모든 토큰화기, 청크커, 기타 알고리즘 및 모든 코포라가 제공됩니다. 공간이 문제가 되는 경우 모든 것을 수동으로 선택적으로 다운로드하도록 선택할 수 있습니다. NLTK 모듈은 약 7MB를 차지하며 전체 nltk_data 디렉터리에는 청커, 파서 및 코포라가 포함 되는 약 1.8GB가 포함됩니다.

Comments

Comments are closed.