1.URLConnection

2021-04-22 04:28

阅读：736

标签：out 爬取 getc 提取一个输入流解析 int 文本 htm

//爬虫：
//1.请求到某个网站去
//2.返回一些HTML代码
//3.从HTML代码提取你想要的信息 HTML解析
//4.如果这些HTML中又有你感兴趣的内容
//5.递归爬取
//准备好网址
            URL url = new URL("http://zuidazy2.net/");
            //准备好连接
            java.net.URLConnection urlConnection = url.openConnection();
            //发送连接请求
            urlConnection.connect();
            //确定获取一个输入流对象  强转
            InputStream in = (InputStream)urlConnection.getContent();
　　　　　　  //获取一个输出流对象  将输入流对象写进文本
            OutputStream out = new FileOutputStream(new File("d://zuidazy.html"));
            byte[] b = new byte[1024];
            int len = 0;
            while ((len=in.read(b))!=-1)
            {
                out.write(b,0,len);
            }
            in.close();
            out.close();
//            //in.available()获取当前流中的数据量
//            byte[] b = new byte[in.available()];
//            //将数据读取到byte数组中
//            in.read(b);
//            //将字节数组转换为字符串
//            String content = new String(b);
//            System.out.println(content);

未完成HTML的解析

1.URLConnection

标签：out 爬取 getc 提取一个输入流解析 int 文本 htm

原文地址：https://www.cnblogs.com/Tsugar/p/12246067.html

上一篇：异步js

下一篇：thinkphp5控制器不存在的问题

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：1.URLConnection
文章链接：http://soscw.com/index.php/essay/77921.html

亲，登录后才可以留言！

1.URLConnection

评论

热门文章

推荐文章

最新文章

置顶文章