Linux 下的抓书工具
我做了一个抓书的 shell 工具集,纯属无心之作,因为我自己比较喜欢看一些门户网站读书频道上连载的历史书,却懒得一页一页的翻 Web,这样不但速度比较慢,而且还要看花里胡哨的网站广告。于是用 shell 脚本自己写了一个抓书的东东,share 出来,相信肯定有热爱读书又买不起书的书生同好们需要的 :)
ZhuaShuShell 是基于 shell 的书籍自动下载工具,它能够自动整理成长篇 txt 格式书籍,方便电脑手机上阅读。
目前,ZhuaShuShell 支持如下站点:
http://club.book.sina.com.cn/booksearch/booksearch.php http://book.qq.com/ http://cn.news.yahoo.com/reading/ http://msn.hongxiu.com/ http://book.mop.com/migindex.html http://book.wuhan.net.cn/index.html http://lianzai.culture.china.com/books/ http://www.renyu.net/ http://www.readnovel.com/ http://www.baidu.com/search/guoxue/dir/fenlei.html http://culture.163.com/book/ http://www.shuku.net/ http://gui.hcdj.com/longgui/index.htm http://bbs.ustc.edu.cn/cgi/bbs0an?board=Marvel
ZhuaShuShell 的最新版本为 2.7,你可以从这里下载。
2007 年 11 月 10 日更新
增加了对溜溜读书频道 (http://www.66book.net/) 的支持,该站点目前提供三千多部书籍、二十多万篇文章免费在线阅读。相关使用说明请见《Linux 下的抓书工具 2》。
2007 年 11 月 28 日更新
- 增加对之乎书坊 (http://www.wannish.com/) 的支持,该站点拥有大量电子图书,种类非常齐全。
- 删除无效的 mop 读书频道的代码(该站点已经转型为论坛)。
[作者/fangvv]
使用了一下,确实不错! 赞一个!
国人写的啊,顶
去作者的博客看看吧,否则不会用! http://hi.baidu.com/vvfang/blog/item/d9169010d5e9d600213f2eb6.html
文本文档有的书看不了,现在有很多都是做的图片,能把图片一起下载下来就最好了
跑个题,,一直都很好奇,为什么你在Bloglines里面的Logo是“百度空间”?
@沈蚊:可能是这个原因:本站有段时间无法访问,当时曾通过 FeedBurner 转发百度空间的 rss 地址来发布通知。
爱死你了,之前有一个朋友的网站可以生成TXT的,结果网站关停了,朋友给我讲了半天我也没有弄明白这个正则表达是什么意思....我就直接用就好了,这个太感人了...
学着做一个CSDN的~~
我是作者,感谢LinuxToy分享我的工具,也感谢支持我的各位朋友在这里给我留言,给我的blog上留言,并且加我为好友。谢谢大家!我也是Linux的fans,长期使用Ubuntu和Debian,RedHat等版本,希望今后能够和大家共同学习,一起提高。有好的Linux软件开发想法也可以和我联系:)
好久没有更新,今晚更新到2.7版本,增加了对“溜溜读书频道”的支持(www.66book.net)。该站目前提供三千多部书籍、二十多万篇文章免费在线阅读。代码可以从Sourceforge上下载,使用说明见http://hi.baidu.com/vvfang/blog/item/c8ed524a68147c2108f7efe6.html
谢谢大家的支持,谢谢LinuxToy!
顶!一直就看一些yahoo的书有个工具就方便多了
好久没用ArchLinux了,偶尔来这转转竟然发现了这么一个宝贝。 fangvv,在百度上加你了,关注你。
[...] 要说也没想着“研究”这个。前两天LinuxToy上贴了一个从几个连载小说的 网站上往下抓书的脚本,正好LP以前曾经跟我说过郭敬明的《梦里花落知 多少》挺有意思的,说新浪读书有连载,由于不喜欢在新浪那儿一直翻一直翻 的,加上对郭这个人没什么好印象,就放着没动。今天想起来了,于是下载 了试了一下,结果发现至少新浪那个脚本,是相当的不好使──下回来的东西完全 就是一空白文件。 [...]
楼上的朋友,注意看一下,首页链接是http://book.sina.com.cn/nzt/1071755256menglihua/,而第一页的链接是http://book.sina.com.cn/longbook/1071755256menglihua/1.shtml
看到区别了吧,所以这里应该使用: ./sina http://book.sina.com.cn/longbook/1071755256_menglihua 137 gjm
如果发现还是有困难,我已经下载下来了,如果您要,我可以发给您。
地址sina有改动,请按照正文地址进行抓取。
现在正在针对抓下来的中文书(GB2312编码)做一个基于QT4.3的阅读软件,这里有介绍:http://hi.baidu.com/vvfang/blog/item/d3c65636b7d98ddea2cc2b2d.html 很快会在sf上建一个project,因为个人时间比较紧张,欢迎大家加入一起开发:)请联系我。
写了个下载、合并szdaily PDF的脚本。 http://ubuntu.group.javaeye.com/group/blog/141663
电子书下载的一个不错的网站 大家可以试一试 http://www.51cnnet.net
针对新浪读书频道最新的改版(增加了一些vip书籍章节试读功能),增加了对此的支持;作废了一些已经倒闭的书籍网站的下载代码;由于sourceforge网站访问速度过慢,现在我只在百度博客上更新代码,请登录我的博客访问,不便之处望谅解.
再次更新,增加对搜狐读书频道的支持
不错呀。以后看书方便多了。**科幻小说网