Linux 下的抓书工具

我做了一个抓书的 shell 工具集,纯属无心之作,因为我自己比较喜欢看一些门户网站读书频道上连载的历史书,却懒得一页一页的翻 Web,这样不但速度比较慢,而且还要看花里胡哨的网站广告。于是用 shell 脚本自己写了一个抓书的东东,share 出来,相信肯定有热爱读书又买不起书的书生同好们需要的 :)

ZhuaShuShell 是基于 shell 的书籍自动下载工具,它能够自动整理成长篇 txt 格式书籍,方便电脑手机上阅读。

目前,ZhuaShuShell 支持如下站点:

http://club.book.sina.com.cn/booksearch/booksearch.php http://book.qq.com/ http://cn.news.yahoo.com/reading/ http://msn.hongxiu.com/ http://book.mop.com/migindex.html http://book.wuhan.net.cn/index.html http://lianzai.culture.china.com/books/ http://www.renyu.net/ http://www.readnovel.com/ http://www.baidu.com/search/guoxue/dir/fenlei.html http://culture.163.com/book/ http://www.shuku.net/ http://gui.hcdj.com/longgui/index.htm http://bbs.ustc.edu.cn/cgi/bbs0an?board=Marvel

ZhuaShuShell 的最新版本为 2.7,你可以从这里下载

2007 年 11 月 10 日更新

增加了对溜溜读书频道 (http://www.66book.net/) 的支持,该站点目前提供三千多部书籍、二十多万篇文章免费在线阅读。相关使用说明请见《Linux 下的抓书工具 2》。

2007 年 11 月 28 日更新

  1. 增加对之乎书坊 (http://www.wannish.com/) 的支持,该站点拥有大量电子图书,种类非常齐全。
  2. 删除无效的 mop 读书频道的代码(该站点已经转型为论坛)。

[作者/fangvv]

Read More:

22 Comments

  1. 1 Mumonitor Commented @ 2007-11-08 17:10Reply to this comment

    使用了一下,确实不错! 赞一个!

  2. 2 percy Commented @ 2007-11-08 17:23Reply to this comment

    国人写的啊,顶

  3. 3 leixinren Commented @ 2007-11-08 17:27Reply to this comment

    去作者的博客看看吧,否则不会用! http://hi.baidu.com/vvfang/blog/item/d9169010d5e9d600213f2eb6.html

  4. 4 gcell Commented @ 2007-11-08 17:40Reply to this comment

    文本文档有的书看不了,现在有很多都是做的图片,能把图片一起下载下来就最好了

  5. 5 沈蚊 Commented @ 2007-11-08 18:05Reply to this comment

    跑个题,,一直都很好奇,为什么你在Bloglines里面的Logo是“百度空间”?

  6. 6 Toy Commented @ 2007-11-08 19:24Reply to this comment

    @沈蚊:可能是这个原因:本站有段时间无法访问,当时曾通过 FeedBurner 转发百度空间的 rss 地址来发布通知。

  7. 7 老李 Commented @ 2007-11-08 20:48Reply to this comment

    爱死你了,之前有一个朋友的网站可以生成TXT的,结果网站关停了,朋友给我讲了半天我也没有弄明白这个正则表达是什么意思....我就直接用就好了,这个太感人了...

  8. 8 wyg1258 Commented @ 2007-11-09 21:28Reply to this comment

    学着做一个CSDN的~~

  9. 9 fangvv Commented @ 2007-11-10 15:17Reply to this comment

    我是作者,感谢LinuxToy分享我的工具,也感谢支持我的各位朋友在这里给我留言,给我的blog上留言,并且加我为好友。谢谢大家!我也是Linux的fans,长期使用Ubuntu和Debian,RedHat等版本,希望今后能够和大家共同学习,一起提高。有好的Linux软件开发想法也可以和我联系:)

  10. 10 fangvv Commented @ 2007-11-10 22:18Reply to this comment

    好久没有更新,今晚更新到2.7版本,增加了对“溜溜读书频道”的支持(www.66book.net)。该站目前提供三千多部书籍、二十多万篇文章免费在线阅读。代码可以从Sourceforge上下载,使用说明见http://hi.baidu.com/vvfang/blog/item/c8ed524a68147c2108f7efe6.html

    谢谢大家的支持,谢谢LinuxToy!

  11. 11 noxide Commented @ 2007-11-11 13:47Reply to this comment

    顶!一直就看一些yahoo的书有个工具就方便多了

  12. 12 jazzi Commented @ 2007-11-11 20:41Reply to this comment

    好久没用ArchLinux了,偶尔来这转转竟然发现了这么一个宝贝。 fangvv,在百度上加你了,关注你。

  13. 13 用XeTeX处理中文LaTeX笔记 at e.a.s.e Pingbacked @ 2007-11-12 8:18Reply to this comment

    [...] 要说也没想着“研究”这个。前两天LinuxToy上贴了一个从几个连载小说的 网站上往下抓书的脚本,正好LP以前曾经跟我说过郭敬明的《梦里花落知 多少》挺有意思的,说新浪读书有连载,由于不喜欢在新浪那儿一直翻一直翻 的,加上对郭这个人没什么好印象,就放着没动。今天想起来了,于是下载 了试了一下,结果发现至少新浪那个脚本,是相当的不好使──下回来的东西完全 就是一空白文件。 [...]

  14. 14 fangvv Commented @ 2007-11-12 9:08Reply to this comment

    楼上的朋友,注意看一下,首页链接是http://book.sina.com.cn/nzt/1071755256menglihua/,而第一页的链接是http://book.sina.com.cn/longbook/1071755256menglihua/1.shtml

    看到区别了吧,所以这里应该使用: ./sina http://book.sina.com.cn/longbook/1071755256_menglihua 137 gjm

    如果发现还是有困难,我已经下载下来了,如果您要,我可以发给您。

  15. 15 fangvv Commented @ 2007-11-12 9:16Reply to this comment

    地址sina有改动,请按照正文地址进行抓取。

  16. 16 fangvv Commented @ 2007-11-15 16:01Reply to this comment

    现在正在针对抓下来的中文书(GB2312编码)做一个基于QT4.3的阅读软件,这里有介绍:http://hi.baidu.com/vvfang/blog/item/d3c65636b7d98ddea2cc2b2d.html 很快会在sf上建一个project,因为个人时间比较紧张,欢迎大家加入一起开发:)请联系我。

  17. 17 Ivan Chen(西滨) Commented @ 2007-11-19 14:05Reply to this comment

    写了个下载、合并szdaily PDF的脚本。 http://ubuntu.group.javaeye.com/group/blog/141663

  18. 18 nana Commented @ 2008-05-14 15:26Reply to this comment

    电子书下载的一个不错的网站 大家可以试一试 http://www.51cnnet.net

  19. 19 fangvv Commented @ 2008-08-26 13:42Reply to this comment

    针对新浪读书频道最新的改版(增加了一些vip书籍章节试读功能),增加了对此的支持;作废了一些已经倒闭的书籍网站的下载代码;由于sourceforge网站访问速度过慢,现在我只在百度博客上更新代码,请登录我的博客访问,不便之处望谅解.

  20. 20 fangvv Commented @ 2008-08-28 16:15Reply to this comment

    再次更新,增加对搜狐读书频道的支持

  21. 21 chenfengyuan Commented @ 2009-03-05 20:15Reply to this comment

    不错呀。以后看书方便多了。**科幻小说网

  22. 22 wulun Commented @ 2009-09-18 21:39Reply to this comment

    用得着吗? 安装命令行界面的网页浏览器w3m吧。 用Firefox打开浏览器目录页,dta批量下载html章节到一目录。进入目录, w3m *.html >> book.txt 搞定!