栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Java实现一个小说采集程序的简单实例

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Java实现一个小说采集程序的简单实例

被标题吸引进来的不要骂我。

只是一个简单的实现,随手写了来下载一部喜欢的小说的。示例中的小说只是示例,不是我的菜。

使用了jsoup。挺好用的一个工具。

有需要的话,参考下自己改吧。挺简单的,是吧。

代码如下:

package com.zhyea.doggie;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.document; 
import org.jsoup.select.Elements;

public class Doggie {

  public static void main(String[] args){
    try{
      File txtFile = new File("D:/无限崩坏.txt");
      createTxtDoc(txtFile); 
      addContent(txtFile);
    }catch(Exception e){
      e.printStackTrace();
    }
      
  }
  
  
  private static void addContent(File txtFile) throws IOException, InterruptedException{
    appendTxt(txtFile, getBookInfo("无限崩坏", "啪啪啪狂魔"));
    String url = "http://www.83kxs.com/View/12/12653/{pattern}.html";
    for(int i=5850686; i<=5945501; i++){
      try{
 String tmp = url.replace("{pattern}", i+"");
 appendTxt(txtFile, getPageContent(tmp));
      }catch(Exception e){
 e.printStackTrace();
 continue;
      }
    }
  }
    
  
  private static String getBookInfo(String bookName, String author){
    return COMMON.replace("{book}", bookName).replace("{author}", author);
  }  
  
  
  private static String getPageContent(String url) throws IOException{
    String rtn = null;
    
    document doc = Jsoup.connect(url).get();
    Elements content = doc.select(".text p");
    Elements title = doc.select("#title");
    
    System.out.println(title.text());
    
    content.select("font").remove();
    content.select("script").remove();
    content.select("ins").remove();
    content.select("a").remove();
      
    rtn = title.text() + newline 
      + content.html().replaceAll("

", "") .replaceAll("

", "") .replaceAll("\
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号