Linux 下的抓书工具
我做了一个抓书的 shell 工具集,纯属无心之作,因为我自己比较喜欢看一些门户网站读书频道上连载的历史书,却懒得一页一页的翻 Web,这样不但速度比较慢,而且还要看花里胡哨的网站广告。于是用 shell 脚本自己写了一个抓书的东东,share 出来,相信肯定有热爱读书又买不起书的书生同好们需要的 :)
ZhuaShuShell 是基于 shell 的书籍自动下载工具,它能够自动整理成长篇 txt 格式书籍,方便电脑手机上阅读。
目前,ZhuaShuShell 支持如下站点:
http://club.book.sina.com.cn/booksearch/booksearch.php
http://book.qq.com/
http://cn.news.yahoo.com/reading/
http://msn.hongxiu.com/
http://book.mop.com/migindex.html
http://book.wuhan.net.cn/index.html
http://lianzai.culture.china.com/books/
http://www.renyu.net/
http://www.readnovel.com/
http://www.baidu.com/search/guoxue/dir/fenlei.html
http://culture.163.com/book/
http://www.shuku.net/
http://gui.hcdj.com/longgui/index.htm
http://bbs.ustc.edu.cn/cgi/bbs0an?board=Marvel
ZhuaShuShell 的最新版本为 2.7,你可以从这里下载。
2007 年 11 月 10 日更新
增加了对溜溜读书频道 (http://www.66book.net/) 的支持,该站点目前提供三千多部书籍、二十多万篇文章免费在线阅读。相关使用说明请见《Linux 下的抓书工具 2》。
2007 年 11 月 28 日更新
- 增加对之乎书坊 (http://www.wannish.com/) 的支持,该站点拥有大量电子图书,种类非常齐全。
- 删除无效的 mop 读书频道的代码(该站点已经转型为论坛)。
[作者/fangvv]
使用了一下,确实不错! 赞一个!
国人写的啊,顶
去作者的博客看看吧,否则不会用!
http://hi.baidu.com/vvfang/blo.....f2eb6.html
文本文档有的书看不了,现在有很多都是做的图片,能把图片一起下载下来就最好了
跑个题,,一直都很好奇,为什么你在Bloglines里面的Logo是“百度空间”?
@沈蚊:可能是这个原因:本站有段时间无法访问,当时曾通过 FeedBurner 转发百度空间的 rss 地址来发布通知。
爱死你了,之前有一个朋友的网站可以生成TXT的,结果网站关停了,朋友给我讲了半天我也没有弄明白这个正则表达是什么意思….我就直接用就好了,这个太感人了…
学着做一个CSDN的~~
我是作者,感谢LinuxToy分享我的工具,也感谢支持我的各位朋友在这里给我留言,给我的blog上留言,并且加我为好友。谢谢大家!我也是Linux的fans,长期使用Ubuntu和Debian,RedHat等版本,希望今后能够和大家共同学习,一起提高。有好的Linux软件开发想法也可以和我联系:)
好久没有更新,今晚更新到2.7版本,增加了对“溜溜读书频道”的支持(www.66book.net)。该站目前提供三千多部书籍、二十多万篇文章免费在线阅读。代码可以从Sourceforge上下载,使用说明见http://hi.baidu.com/vvfang/blog/item/c8ed524a68147c2108f7efe6.html
谢谢大家的支持,谢谢LinuxToy!
顶!一直就看一些yahoo的书有个工具就方便多了
好久没用ArchLinux了,偶尔来这转转竟然发现了这么一个宝贝。
fangvv,在百度上加你了,关注你。
[...] 要说也没想着“研究”这个。前两天LinuxToy上贴了一个从几个连载小说的 网站上往下抓书的脚本,正好LP以前曾经跟我说过郭敬明的《梦里花落知 多少》挺有意思的,说新浪读书有连载,由于不喜欢在新浪那儿一直翻一直翻 的,加上对郭这个人没什么好印象,就放着没动。今天想起来了,于是下载 了试了一下,结果发现至少新浪那个脚本,是相当的不好使──下回来的东西完全 就是一空白文件。 [...]
楼上的朋友,注意看一下,首页链接是http://book.sina.com.cn/nzt/1071755256_menglihua/,而第一页的链接是http://book.sina.com.cn/longbook/1071755256_menglihua/1.shtml
看到区别了吧,所以这里应该使用:
./sina http://book.sina.com.cn/longbo....._menglihua 137 gjm
如果发现还是有困难,我已经下载下来了,如果您要,我可以发给您。
地址sina有改动,请按照正文地址进行抓取。
现在正在针对抓下来的中文书(GB2312编码)做一个基于QT4.3的阅读软件,这里有介绍:http://hi.baidu.com/vvfang/blog/item/d3c65636b7d98ddea2cc2b2d.html
很快会在sf上建一个project,因为个人时间比较紧张,欢迎大家加入一起开发:)请联系我。
写了个下载、合并szdaily PDF的脚本。 http://ubuntu.group.javaeye.com/group/blog/141663
电子书下载的一个不错的网站
大家可以试一试
http://www.51cnnet.net