php网页采集教程交流(PHP实现的抓取小说网站内容功能示例)
类别:编程学习 浏览量:1802
时间:2022-01-21 00:11:52 php网页采集教程交流
PHP实现的抓取小说网站内容功能示例本文实例讲述了PHP实现的抓取小说网站内容功能。分享给大家供大家参考,具体如下:
爬取免费内容,弄到手机,听书,妥妥的。
|
ini_set ( 'user_agent' , 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; GreenBrowser)' ); ini_set ( 'max_execution_time' , '0' ); $base = 'https://www.qu.la/book/19434/' ; $start = '7504808.html' ; $content_grep = '/ (.*)<br\/>/' ; //$content_grep = '/<li id="content">(.*)<br\/>/sS'; $next_grep = '/<a id="pager_next" href=\"(\d+\.html)\" target="_top" class="next">下一章<\/a>/' ; $next = $start ; $file_name = '听书了.txt' ; while ( $next ) { echo 'getting ' . $next . PHP_EOL; $result = file_get_contents ( $base . $next ); preg_match_all( $content_grep , $result , $match ); $isTitle = true; $content = "" ; foreach ( $match [1] as $line ) { $line = str_replace ( "<br/>" , '' , $line ); $line = str_replace ( " " , '' , $line ); if ( $isTitle ) { $content = $line . PHP_EOL . PHP_EOL; $isTitle = false; } else { $content .= ' ' . $line . PHP_EOL . PHP_EOL; } } $file = fopen ( $file_name , 'a' ); echo 'write length: ' . strlen ( $content ) . PHP_EOL; fwrite( $file , $content ); fclose( $file ); echo '.' ; preg_match( $next_grep , $result , $match ); $next = $match [1]; } |
希望本文所述对大家PHP程序设计有所帮助。
原文链接:https://blog.csdn.net/Alen_xiaoxin/article/details/79567579
您可能感兴趣
- phplaravel开发规范(Laravel解决nesting level错误和隐藏index.php的问题)
- php如何继承多个类(PHP面向对象程序设计子类扩展父类子类重新载入父类操作详解)
- 腾讯云换php版本(腾讯云服务器配置php环境的方法)
- php排序代码详解(PHP实现数据四舍五入的方法小结4种方法)
- php怎么实现多线程(PHP实现的多进程控制demo示例)
- thinkphp5如何实现消息队列(thinkPHP5.1框架使用SemanticUI实现分页功能示例)
- php中变量定义规则(php use和include区别总结)
- php无法读取txt文件(php写入txt乱码的解决方法)
- php如何定时执行某项(php解决crontab定时任务不能写入文件问题的方法分析)
- php语言程序设计基础面向对象(PHP面向对象程序设计之对象的遍历操作示例)
- php-fpm配置文件在哪里(PHP-FPM 设置多pool及配置文件重写操作示例)
- thinkphp控制器怎么设置自定义(Thinkphp5.0 框架实现控制器向视图view赋值及视图view取值操作示例)
- thinkphp5怎么设置当前的模块(thinkPHP5.1框架中Request类四种调用方式示例)
- php开发的主要技术(详解PHP神奇又有用的Trait)
- php大量数据计算有什么技巧(PHP各种常见经典算法总结排序、查找、翻转等)
- phpstudy如何部署在linux上(phpstudy linux面板CC防护功能使用教程)
- 古代的鸽子是爱情的象征,并非和平的使者(古代的鸽子是爱情的象征)
- 一课译词 放鸽子(一课译词放鸽子)
- 终于来了,淘宝更改账户名测试中,快去看看你能不能修改(淘宝更改账户名测试中)
- 淘宝支持账号名修改,网友 终于可以 重新做人 了(淘宝支持账号名修改)
- 盘点那些年让人称奇的年终奖 最后一个赢辣条毫无悬念(盘点那些年让人称奇的年终奖)
- 你还没有升职吗 他竟因为几套激励理论,升职了(你还没有升职吗)
热门推荐
- 如何提高移动网站的用户体验
- mysql查看执行计划
- python 提取微信消息(python实现文件助手中查看微信撤回消息)
- python异常值处理(一篇文章带你弄懂Python异常传递和自定义异常)
- html5 postMessage(html5关于外链嵌入页面通信问题postMessage解决跨域通信)
- phpweb应用技术开发与数据库教程(IIS8 使用FastCGI配置PHP环境图文教程)
- 阿里云服务器实例用户名(阿里云服务器新建用户具体方法)
- 护卫神主机大师教程(护卫神主机大师Linux版安装及卸载图文教程)
- canvas 缩放后字发虚(canvas 绘图时位置偏离的问题解决)
- thinkphp微信开发教程(微信公众平台开发教程④ ThinkPHP框架下微信支付功能图文详解)
排行榜
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9