jsoup的Elements Api 使用

2021-04-07 09:27

阅读:469

public void schoolGrab() throws IOException {
// 根据地址,获取网页中相应列表的URL和text()值
Document document = null;
String filePath = "E:/school.txt";
WriteToTxt writeToTxt = new WriteToTxt();
writeToTxt.isExitsFile(filePath);
PrintStream ps = new PrintStream(new FileOutputStream(new File(filePath)));
try {
document = Jsoup.connect("http://gaokao.chsi.com.cn/sch/search.do?start=0") .get();
} catch (IOException e) {
e.printStackTrace();
}
Element element = document.body();
//System.out.println(element);
//Elements ths = document.select("th").removeAttr("th");
Elements ths = document.select("th");
System.out.println(ths.size());
//System.out.println(ths);
Elements tds = document.select("td");
//System.out.println(tds);
//Elements td = doc.getElementsByAttributeValue("class", "nlctd1");//后续有可能用到,留下以备不时之需

//解析html中的标题头 形成javaBean schoolIntroduction

for (Element e : ths) {
//调用写入文件的方法,写入到文件中
String text = e.getElementsByTag("th").text().trim();
ps.print(text);// 往文件里写入字符串
ps.print("\r\t");
System.out.println(text);
/*if ("院校名称".equals(text)) {
//这里可以定位到“提名与责任”的td标签
System.out.println(text);
}*/
}
ps.println();
//解析td标签
int flag = 1;
for(Element e : tds) {
//调用写入文件的方法,写入到文件中
String text = e.getElementsByTag("td").text().trim();
ps.print(text);// 往文件里写入字符串
ps.print("\r\t");
System.out.println(text);
if(flag%8==0){
ps.println();
}
flag ++;
/*if ("院校名称".equals(text)) {
//这里可以定位到“提名与责任”的td标签
System.out.println(text);
}*/
}


评论


亲,登录后才可以留言!