一个简单的java网络爬虫(spider)
一个简单的java网络爬虫,由于时间原因,没有进一步解释.
需要的htmlparser.jar包到官方网上去下.
---------------------------------------------Spider.java-----------------------------------------------------------------
import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL;
import java.net.URLConnection; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.List;
import org.htmlparser.RemarkNode; import org.htmlparser.StringNode;
import org.htmlparser.Node; import org.htmlparser.tags.*; import org.htmlparser.Parser;
import org.htmlparser.filters.StringFilter; import org.htmlparser.util.NodeIterator; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; import java.util.Queue; import java.util.LinkedList;
public class Spider implements Runnable {
boolean search_key_words = false;
int count = 0;
int limitsite = 10;
int countsite = 1;
String keyword = \中国\搜索关键字
Parser parser = new Parser();
// List linklist = new ArrayList(); String startsite = \搜索的其实站点
SearchResultBean srb;//保存搜索结果
List resultlist = new ArrayList();//搜索到关键字链接列表
List searchedsite = new ArrayList();//已经被搜索站点列表
Queue linklist = new LinkedList();//需解析的链接列表
HashMap<String, ArrayList<String>> disallowListCache = new HashMap<String, ArrayList<String>>();
public Spider(String keyword, String startsite) { this.keyword = keyword; this.startsite = startsite; linklist.add(startsite); srb = new SearchResultBean();