使用jsoup爬取所有成语

通知

此博客运行在jpress系统上，如果你喜欢此博客模板，请加QQ群：1061691290（whimurmur模板/jpress插件），免费下载使用

使用jsoup爬取所有成语

1207人浏览 / 0人评论 | 作者：whisper | 分类： JAVA基础 | 标签： JAVA |

作者：whisper

链接：http://proprogrammar.com:443/article/288

声明：请尊重原作者的劳动，如需转载请注明出处

前几天看到有人在博问上求所有成语，想到刚好看了jsoup，就动手实践了一下，提问者给出了网站，一看很简单，就两种页面，一种是包含某个字的成语链接页面，一个是具体的包含某个字的成语的页面

　　下面是我的代码，用到了jsoup的jar包

package cnblogs.spider;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class IdiomScratch
{

    public static void main(String[] args)
    {
        final String url = "http://www.hydcd.com/cy/chengyu/cy.htm";
        final String urlSub = "http://www.hydcd.com/cy/chengyu/";
        BufferedWriter writer = null;
        try
        {
            Document doc = Jsoup.parse(new URL(url).openStream(), "gb18030", "http://www.hydcd.com");
            Element cyTable = doc.getElementById("table1");
            Elements aElements = cyTable.getElementsByTag("a");
            List<String> aHrefs = new ArrayList<String>();

            if(null != aElements && aElements.size() > 0)
            {
                for(int i = 0, size = aElements.size(); i < size; i++)
                {
                    aHrefs.add(urlSub + aElements.get(i).attr("href"));
                }

                File cytxt = new File("c://cengyu.txt");
                if(!cytxt.exists())
                {
                    cytxt.createNewFile();
                }

                writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(cytxt)));
                String cy = null;

                for(int i = 0, size = aHrefs.size(); i < size; i++)
                {
                    doc = Jsoup.parse(new URL(aHrefs.get(i)).openStream(), "gb18030", "http://www.hydcd.com");
                    cyTable = doc.getElementById("table1");
                    aElements = cyTable.getElementsByTag("a");

                    if(null != aElements && aElements.size() > 0)
                    {
                        int b = 0;
                        for(int j = 0, size2 = aElements.size(); j < size2; j++)
                        {
                            cy = aElements.get(j).text();

                            writer.write(cy + " ");
                            b++;
                            if(b == 8)
                            {
                                b = 0;
                                writer.write("\r\n");
                            }
                        }

                        writer.write("\r\n");
                        if(b != 0)
                        {
                            writer.write("\r\n");
                        }
                        writer.flush();
                    }
                }
            }
        }
        catch(IOException e)
        {
            e.printStackTrace();
        }
        finally
        {
            if(null != writer)
            {
                try
                {
                    writer.close();
                }
                catch(IOException e)
                {
                    e.printStackTrace();
                }
            }
        }
    }

}

说一下碰到的坑，一开始没有注意编码问题，得到的txt结果中总有一些乱码，后来看网页源码显示编码是gb2312，就换成了gb2312，但还是不对，一想gb2312是简体字的，肯定不能包含所有的成语中的汉字啊，所有就查了一下汉字的编码，发现有gb18030，就用这个试了一下，果然没有乱码了

　　结果如下：

　　下面是所有成语的txt文件和代码：

　　所有成语+代码

亲爱的读者：有时间可以点赞评论一下

我慒慒懂懂过了一年，这一年似乎没有改变，守着一个人的世界，空空如也

点赞(0) 打赏

全部评论

还没有评论！

注册登陆

搜索

泽被生民，一路走好

最新文章

热评文章排行

点赞文章排行

文章标签

产品标签

原创文章时间线

原创文章详情

月份	原创文章数
202212	3
202103	10
202102	14
202010	3
202009	3
202008	8
202007	7
202006	10
202005	11
202004	22
202003	52
202002	44
202001	83
201912	52
201911	29
201910	41
201909	99
201908	35
201907	73
201906	121
201811	1
201810	2
201804	1
201803	1
201802	1
201707	1

2022年写作了3篇文章.
2021年写作了24篇文章.
2020年写作了243篇文章.
2019年写作了450篇文章.
2018年写作了6篇文章.
2017年写作了1篇文章.

转载文章时间线

转载文章详情

月份	转载文章数
202212	4
202103	2
202102	3
202009	5
202008	3
202007	17
202005	17
202004	23
202003	11
202002	2
201912	13
201909	1

2022年转载了4篇文章.
2021年转载了5篇文章.
2020年转载了78篇文章.
2019年转载了14篇文章.

网站信息

网站名称：晴雨

网站运行天数：1798天

网站系统：JPress(一个使用Java开发，类似WordPress的产品。天生融合微信生态系统，简单易上手。)

文章分类总数： 114

文章总数： 828

产品总数： 0

标签总数： 70

评论总数： 1196

文章最后更新时间： 2022年12月12日 06时

网站页面： whimurmur模板 (designed by whisper)

我在哪：力扣中国 github

联系我： QQ:2222071789, QQ群:1061691290(备注来自晴雨)

关于网站名：晴雨：天晴下雨，总见蓝天

使用jsoup爬取所有成语

相关文章

作者其它文章

全部评论