본문 바로가기
  • 기술을 이야기하지만 사람을 생각합니다.
20. 인공지능과 딥러닝

Deep Learning Cookbook :: 06

by WE DONE IT. 2019. 5. 1.

06 질문 대답 매칭하기

 

 

 

 

[그림] Deep Learning Cookbook

 

이 책은 (주)느린생각에서 'Deep Learning Cookbook' 책을 지원 받아 이 책을 교재로 스터디를 진행하였습니다. 이 글은 Deep Learning Cookbook의 6장 < >를 실습을 목적으로 공부한 내용을 정리한 글입니다.


 

Tokenize

개념 설명 (https://excelsior-cjh.tistory.com/63

TF-IDF

개념 설명

특정 문서 내에서 단어 빈도가 높고, 전체 문서 중에서 그 단어를 포함한 단어가 적을수록 TF-IDF 값이 높다. TF-IDF 값을 이용하면 모든 문서에서 흔하게 사용하는 단어를 걸러낼 때 이용할 수 있다. 

 

IDF의 로그 함수값은 항상 1 이상이므로, IDF값과 TF-IDF값은 항상 0 이상이 된다. 특정 단어를 포함하는 문서들이 많을 수록 로그 함수 안의 값이 1에 가까워지게 되고, 이 경우 IDF값과 TF-IDF값은 0에 가까워지게 된다.

 

References

TF-IDF 위키피디아

댓글