Skip to content

halegreen/IR_system_form_scratch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IR system

基于基本向量空间模型,先用爬虫爬取新闻组成语料库,使用Hanlp分词库进行分词,再使用TF-IDF算法,目前已完成query和document相似度矩阵的计算。


目前效果


to-do

  • python爬虫爬取新闻网站
  • 文档分词,分词清理;
  • TF-IDF(term frequency–inverse document frequency)
  • 实现倒排索引算法
  • 在网页前端展示
  • 信息抽取