红薯HtmlSucker 0.0.1 HTML网页信息提取工具包

  • 源码大小:14.1KB
  • 源码语言:英文软件
  • 源码类型:汉化补丁
  • 源码授权:免费软件
  • 更新时间:2018-01-30 15:50:50
  • 源码类别:jsp其它
  • 源码官网:
  • 网友评分:源码评分
  • 应用平台:Windows平台
14.1KB
360通过 腾讯通过 金山通过
内容介绍热点排行相关文章下载地址↓

HtmlSucker是一款用来从一个HTML网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。

HtmlSucker 提供两种正文提取算法:

最大文本块:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。
文本密度算法:参考 WebCollector 项目的代码
目前还处于非常简单的阶段,但是可用。

人气源码
下载地址
相关文章
网友评论
下载声明

☉ 解压密码:www.jb51.net 就是本站主域名,希望大家看清楚,[ 分享码的获取方法 ]可以参考这篇文章
☉ 推荐使用 [ 迅雷 ] 下载,使用 [ WinRAR v5 ] 以上版本解压本站软件。
☉ 如果这个软件总是不能下载的请在评论中留言,我们会尽快修复,谢谢!
☉ 下载本站资源,如果服务器暂不能下载请过一段时间重试!或者多试试几个下载地址
☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持!
☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。
☉ 本站提供的红薯HtmlSucker 0.0.1 HTML网页信息提取工具包资源来源互联网,版权归该下载资源的合法拥有者所有。


http://www.vxiaotou.com