找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫码,快速开始

[地区]

QQ登录

只需一步,快速开始

微信登录

微信扫码,快速开始

茶叶展示厅
  • 阿里新员工入职培训-“百年阿里”,可圈可
  • 淘宝如何补流量?注意事项有哪些?
  • 金婵直播电商培训开课啦!「案例+实操」带
  • 贝索斯要坐火箭离开地球,贾西能否带动亚马
  • SEO站内优化,关键词排名错误页面,什么原
  • 銓网推-公司推广预算不多,做什么网络推广
  • 最新估值45亿!天猫第一的“咖啡黑马”下一
  • 西安360搜索优化公司排名?360搜索优化主要
  • 那些年赚几十亿闷声发大财的独立站卖家,20
  • 型材切割机行业seo网络推广哪家好?型材切
迪奥 见习会员
      最新会员
      • 天茗站长

        天茗站长

      • 模板之家

        模板之家

      • 北京市地区

        北京市地区

      • 天茗官方

        天茗官方

      • 泉州市地区

        泉州市地区

      • 福州市地区

        福州市地区

      • 兴安盟地区

        兴安盟地区

      • 汕头市地区

        汕头市地区

      • 天津市地区

        天津市地区

      • 落叶不知夏

        落叶不知夏

      • 国外地区

        国外地区

      • 厦门市地区

        厦门市地区

      • 莆田市地区

        莆田市地区

      • 沙龙

        沙龙

      • 阿拉善盟地区

        阿拉善盟地区

      文章提取关键词TF-IDF算法-重庆seo博客

      0 / 483

      14

      主题

      50

      帖子

      124

      积分

      见习会员

      Rank: 5

      积分
      124
      发表于 2021-7-7 12:03:37 | 显示全部楼层 |阅读模式

      马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

      您需要 登录 才可以下载或查看,没有帐号?立即注册

      x
      “若何计较关键词在文章中的重要性”,在网上找了很多材料,都提到了这个算法,就是文章提取关键词TF-IDF算法。

      文章提取关键词TF-IDF算法

      总结

      TF-IDF,了解起来相当简单,他现实上就是TF*IDF,两个计较值的乘积,用来权衡一个关键词库中的词对每一篇文档的重要水平。下面我们分隔来说这两个值,TF和IDF。

      TF

      TF,是Term Frequency的缩写,就是某个关键字出现的频次,具体来说,就是词库中的某个词在当前文章中出现的频次。那末我们可以写出它的计较公式:


      TF值算法

      TF:关键词j在文档中的出现频次。

      比如,一篇文章一共100个辞汇,其中“内蒙古seo”一共出现10次,那末他的TF就是10/100=0.1。

      这么看来似乎仅仅是一个TF就能用来评价一个关键词的重要性(出现频次越高就越重要),实在否则,纯真利用TF来评价关键词的重要性疏忽了常用词的干扰。常用词就是指那些文章中大量用到的,可是不能反应文章性质的那种词,比如:由于、所以、是以等等的连词,在英文文章里就表现为and、the、of等等的词。这些词常常具有较高的TF,所以仅仅利用TF来考查一个词的关键性,是不够的。这里我们要引出IDF,来帮助我们处理这个题目。

      IDF

      IDF,英文全称:Inverse Document Frequency,即“逆文档频次”。先看什么是文档频次,文档频次DF就是一个词在全部文库辞书中出现的频次,就拿上一个例子来说:一个文件集合有100篇文章,共有10篇文章包括“机械进修”这个词,那末它的文档频次就是10/100=0.1,逆文档频次IDF就是这个值的倒数,即10。是以得出它的计较公式:


      IDF值算法

      IDF:词语的逆文档频次

      +1是为了避免分母变0。

      因而这个TF*IDF就能用来评价一个词语的重要性。


      IF-IDF值算法

      还是用上面这个例子,我们来看看IDF是怎样消去常用词的干扰的。假定100篇文档有10000个词,研讨某篇500词文章,“重庆seo”出现了20次,“而且”出现了20次,那末他们的TF都是20/500=0.04。再来看IDF,对于语料库的100篇文章,每篇都出现了“而且”,是以它的IDF就是log1=0,他的TF*IDF=0。而“机械进修”出现了10篇,那末它的IDF就是log10=1,他的TF*IDF=0.04>0,明显“机械进修”比“而且”加倍重要。

      总结

      这算法看似简单,现实上搜索引擎优化啊,文天职类方面用的挺多的,口试时也经常作为信息论常识储备来出题。怕什么真理无穷,进一寸有一寸的欢乐
      天茗SEO站群系统,网店优化,搜索引擎关键词排名等等业务,请联系微信A13489884026
      您需要登录后才可以回帖 登录 | 立即注册

      本版积分规则

      关闭

      站长推荐 上一条 /4 下一条

      最好的茶叶都在这里

      在这里,你可以找到最好的茶叶

      多维度在线交流 新房独家优惠 线上预约线下线上

      扫码下载APP
      免费赠送红包