栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > PHP

php使用curl和正则表达式抓取网页数据示例

PHP 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

php使用curl和正则表达式抓取网页数据示例

利用curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说。
依赖项:curl
可以简单的看下,里面用到了curl ,正则表达式,ajax等技术,适合新手看看。在本地测试,必须保证联网并且确保php开启curl的mode

SpiderTools.class.php
复制代码 代码如下:
  session_start();
 //封装成类 开启这些自动抓取文章
  #header("Refresh:30;http://www.test.com:8080");
 class SpiderTools{ 
 //////////////////////////////////////////////////////////////////////////////////////////////////////////
 
 //////////////////////////////////////////////////////////////////////////////////////////////////////////
 public function getBookNameById($aid){
  //初始化curl
  $ch= curl_init();
  //url
  $url='http://www.motie.com/book/'.$aid;
  if(is_numeric($aid)){
  //正则表达式匹配
  $ru="/s*(.*)s*s*/";
  }
  else{
  //丧尸爆发之全家求生路_第一章  丧尸爆发  为吾友爱乐儿更新~_磨铁
  $ru="/(.*)/";
  }
  //设置选项,包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  //执行curl
  $output = curl_exec($ch);
  //错误提示
  if(curl_exec($ch) === false){
   die(curl_error($ch));
  }
  // 检查是否有错误发生
  if(curl_errno($ch)){
  echo 'Curl error: ' . curl_error($ch);
  }
  //释放curl句柄
  curl_close($ch);
  $arr=array();
  preg_match_all($ru,$output,$arr);
  return $arr[1][0];
   }
 //////////////////////////////////////////////////////////////////////////////////////////////////////////     
 
 //////////////////////////////////////////////////////////////////////////////////////////////////////////
 public  function getBookContextById($aid){
  //开始解析文章
  $ids=array();
  $ids=explode("_",$aid);
  $titleId=trim($ids[0]);
  $aticleId=trim($ids[1]);
  $ch= curl_init();
  $ru="/[sS]*

[sS]*(.*)
/ui"; 
  $url='http://www.motie.com/book/'.$aid;
  //正则表达式匹配

  //设置选项,包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  //执行curl
  $output = curl_exec($ch);
  //错误提示
  if(curl_exec($ch) === false){
   die(curl_error($ch));
  }
  // 检查是否有错误发生
  if(curl_errno($ch)){
   echo 'Curl error: ' . curl_error($ch);
  }
  $arr=array();
  $arr2=array();
  preg_match_all($ru,$output,$arr);
  curl_close($ch);
  #var_dump($arr);
  $s=$arr[0][0];
  $s=substr($s,180);
  $arr2=explode("   return trim($arr2[0]);
 }

 ////////////////////////////////////////////////////////////////////////////////////////////////////////// 
 
 //////////////////////////////////////////////////////////////////////////////////////////////////////////
     public static function createBookById($id){
  
  if(!is_numeric($id)){

  echo "
INIT BEGIN START WRITE!";
  $st=new self();
  $cons=$st->getBookContextById($id);
  $title=$st->getBookNameById($id);
  $cons=trim($cons);
  $t=explode(" ",$title);
  //构造目录
  $dir=array();
  $dir=explode("_",$t[0]);
  $wzdir=$dir[0];  //书名称 作为目录名称
  $wzchapter=$dir[1]; //第几章
  //创建目录
  $wzdir2=iconv("UTF-8", "GBK", $wzdir);//目录编码 注意这里保留对$wzdir字符串的引用,用来构造文件名,不能用此处,防止二次编码
  if(!file_exists($wzdir2)){
   mkdir($wzdir2); //创建目录
  }
  //构造文件名
  $wztitle="./".$wzdir."/"."$t[0]".".txt";
  //保证保存的文件名称不是乱码
  $wztitle=iconv("UTF-8", "GBK", $wztitle);
  $f=fopen($wztitle,"w+");
  fwrite($f,$cons);
  echo "$wzdir ".$wzchapter."写入成功";
  fclose($f); 
  
  } 
  else{
  $ids=self::getBookIdsById($id); 
 
  //这里服务器可能会掉线,所以最好用session记录循环
  #for($i=$_SESSION["$id"."_fid"];$i<=count($ids);$_SESSION["$id"."_fid"]++,$i++){
 
   #self::createBookById($id."_".$ids[$_SESSION["$id"."_fid"]++]);//构造id
  #}
  
  for($i=$_SESSION["$id"."_fid"];$i<=count($ids);$_SESSION["$id"."_fid"]++,$i++){
 
   self::createBookById($id."_".$ids[$i]);//构造id
  }
  
  #echo "




写入工作全部完成";
  #echo $id."_".$ids[0]."
"; 
  #var_dump($ids);
  
  }


 }
  
  public static function getBookIdsById($aid){ 
  $ch= curl_init();
  $url='http://www.motie.com/book/'.$aid."/chapter";
  //注意这里的?可以获取最少匹配项
  $ru='/[sS]*?

  • [sS]*?.*?.*?/u';//正则表达式匹配
      //设置选项,包括URL
      curl_setopt($ch, CURLOPT_URL, $url);
      curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
      curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
      curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
      //执行curl
      $output = curl_exec($ch);
      // 检查是否有错误发生
      if(curl_errno($ch)){
      echo 'Curl error: ' . curl_error($ch);
      }
      //释放curl句柄
      curl_close($ch);
      $arr=array();
      preg_match_all($ru,$output,$arr,PREG_PATTERN_ORDER);
      return $arr[1];
      }
    }
    ?>

    getinfo.php
    复制代码 代码如下:
     session_start();
    require_once("SpiderTools.class.php");
    if($_REQUEST["bid"]){
    if(is_numeric($_REQUEST["bid"])){
     SpiderTools::createBookById(trim($_REQUEST["bid"]));
     }
     else{
      echo "
    请输入正确的文章ID
    ";
     }
    }
    ?>

    index.html
    复制代码 代码如下:


    下载小说啦

    输入磨铁中文网你想看到的小说ID号就可以下载小说啦






    PS:关于正则,这里再为大家推荐2款本站的正则表达式在线工具供大家参考使用(包括正则生成、匹配、验证等功能):

    Javascript正则表达式在线测试工具:http://tools.jb51.net/regex/javascript

    正则表达式在线生成工具:http://tools.jb51.net/regex/create_reg

  • 转载请注明:文章转载自 www.mshxw.com
    本文地址:https://www.mshxw.com/it/48374.html
    我们一直用心在做
    关于我们 文章归档 网站地图 联系我们

    版权所有 (c)2021-2022 MSHXW.COM

    ICP备案号:晋ICP备2021003244-6号