您现在的位置是:首页 >  云笔记 >  开发笔记 >  文章详情

Java爬虫技术解析:抓取网页数据方式对比

豆豆   2023-11-11 15:44:14   372人已围观

常用的Java爬虫框架&技术包括:

1、Jsoup:

 一款开源的Java HTML解析器,用于解析HTML文档。

官网:https://jsoup.org/

2.HttpClient:

  Apache官方推出的一个功能强大、简单易用的HTTP客户端工具包。

官网:https://hc.apache.org/httpcomponents-client-4.5.x/

3.WebMagic:

WebMagic是一款基于Java语言开发的一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。

特性:

简单的API,可快速上手、轻量级

模块化的结构,可轻松扩展

提供多线程和分布式支持

官网:http://webmagic.io/

4.HtmlUnit:

htmlunit是一款开源的web页面分析工具,理论上来说htmlunit应用于网页的自动化测试,但是相对来说更多人使用它来进行小型爬虫的快速开发。使用htmlunit进行爬虫开发不仅是其运行速度快,更重要的是此框架上手更为容易(相对于POST、selenium)。

官网:https://htmlunit.sourceforge.io/

5.Selenium:什么是selenium?

(1)Selenium是一个用于Web应用程序测试的工具。

(2)Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。

(3)支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver)驱动真实浏览器完成测试。

(4)selenium也是支持无界面浏览器操作的。

官网:https://www.selenium.dev/

参考资料:

1、https://cloud.tencent.com/developer/article/2099739

2、你认识哪些爬虫高手? - 天际青年的回答 - https://www.zhihu.com/question/270866846/answer/3035194995


分享到:

编辑发布时间:2023-11-11 15:44:14