06 질문 대답 매칭하기
이 책은 (주)느린생각에서 'Deep Learning Cookbook' 책을 지원 받아 이 책을 교재로 스터디를 진행하였습니다. 이 글은 Deep Learning Cookbook의 6장 < >를 실습을 목적으로 공부한 내용을 정리한 글입니다.
Tokenize
개념 설명 (https://excelsior-cjh.tistory.com/63)
TF-IDF
개념 설명
특정 문서 내에서 단어 빈도가 높고, 전체 문서 중에서 그 단어를 포함한 단어가 적을수록 TF-IDF 값이 높다. TF-IDF 값을 이용하면 모든 문서에서 흔하게 사용하는 단어를 걸러낼 때 이용할 수 있다.
IDF의 로그 함수값은 항상 1 이상이므로, IDF값과 TF-IDF값은 항상 0 이상이 된다. 특정 단어를 포함하는 문서들이 많을 수록 로그 함수 안의 값이 1에 가까워지게 되고, 이 경우 IDF값과 TF-IDF값은 0에 가까워지게 된다.
References
'20. 인공지능과 딥러닝' 카테고리의 다른 글
밑바닥부터 시작하는 딥러닝2 :: Ch 08 어텐션 (2) 양방향 LSTM (0) | 2019.07.14 |
---|---|
밑바닥부터 시작하는 딥러닝2 :: Ch 08. 어텐션 (1) 어텐션 구조 (0) | 2019.07.14 |
Deep Learning Cookbook :: 04 위키피디아 외부 링크를 이용한 추천 시스템 구축 (0) | 2019.04.06 |
Deep Learning Cookbook :: Chapter 03 단어 임베딩을 사용하여 텍스트 유사성 계산하기 (2) (feat. SVM) (0) | 2019.03.10 |
Deep Learning Cookbook :: Chapter 03 단어 임베딩을 사용하여 텍스트 유사성 계산하기 (1) (0) | 2019.03.10 |
댓글