上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.4 本章小结
解析网页除了Jsoup,还可以使用HtmlCleaner。
本章介绍了使用OkHttp项目中的OkHttpClient抓取静态网页、使用Selenium抓取动态网页的方法。OkHttp是Square公司开发的用于发送和接收基于HTTP网络请求的库。
WebDriver是W3C组织制定的一套浏览器自动化的规范。Chrome、Firefox、Opera、Safari 等都遵守这个规范并且实现规范中的接口,这些实现一般都是伴随浏览器的开发进行的。
Selenium有广泛的用户群和活跃的开发团队,Google公司资助并且使用Selenium。
Selenium最初是由Jason Huggins在2004年作为ThoughtWorks公司的内部工具开发的。后来ThoughtWorks公司的其他程序员和测试人员加入Huggins。之后Paul Hammant加入开发团队,指导了后来成为Selenium Remote Control(RC)的第二种操作模式的开发。该工具当年开放了源代码。
本章还介绍了使用Apache Commons IO将数据存入CSV文件,使用Jdbi将数据存入数据库中。