Skip to content

爬取论坛文章并生成指定格式 markdown 的爬虫。

License

Notifications You must be signed in to change notification settings

hibikilogy/spiders

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spiders

一系列根据各论坛 / 网站帖子 / 文章 ID 生成指定格式 markdown 文件的爬虫。

目前功能较为完善的网站:

  • 贴吧
  • 虎扑
  • bilibili
  • NGA
  • Stage1

使用方法

安装 Python 并下载本仓库,在仓库目录输入命令如下:

python xxx.py id

其中 xxx.py 是对应平台的文件名称,id 是帖子 ID。

注意事项

如需正常使用以 GitHub 作为图床的功能,请确保目录满足以下条件:

.
├─hibikilogy.github.io
│  └─images
└─spiders(当前目录)

图片需要提交 hibikilogy.github.io 内的更改后方可查看。如果有更好的解决方法,欢迎贡献。

TODO

咕咕咕

  • 全局
    • 自动上传图床。
    • 模块化。
    • 当 sm.ms 图床不可用时使用 GitHub 图床。
    • 修改 html2text 使其不自动删除 <span> 标签。
    • 将第一幅图自动设置为头图。
    • NGA 文章内的图片链接会中间换行,咋办?
    • 面向对象。
  • Bilibili
    • 基本功能实现。
  • 虎扑
    • 基本功能实现。
  • NGA
    • 基本功能实现。
    • 修复只能找到 UID 的问题。
  • S1
    • 基本功能实现。
  • 贴吧
    • 基本功能实现。
    • 修复日期有时变成“一楼”的问题。似乎暂无可靠的方法。

已知问题

  • 图床 sm.ms 限制每个 IP 一小时上传 100 张图片(如果上传太频繁似乎会变成每周 50 张)。

如何贡献

只要功能 OK 代码可观性高就行了。

感谢

About

爬取论坛文章并生成指定格式 markdown 的爬虫。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages