基于搜狗微信搜索的微信公众号爬虫接口

项目简介

基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫

基于Python3

如果有问题，请提issue

关于我，欢迎关注微博：Chyroc

项目使用

参见test.py

引用

from wechatsogou import *
wechats = WechatSogouApi()

搜索公众号 - search_gzh_info

name = '南京航空航天大学'
wechat_infos = wechats.search_gzh_info(name)

返回结果是列表，每一项均是公众号具体信息字典，具体如下

字段	含义
name	公众号名称
wechatid	公众号ID
jieshao	介绍
renzhen	认证信息，为空表示未认证
qrcode	二维码图片地址
img	头像地址
url	最近文章地址

获取公众号

对于一个已知wechatid的公众号

wechat_id = 'nanhangqinggong'
wechat_info = wechats.get_gzh_info(wechat_id)

返回结果与上述search_gzh_info返回结果一致

搜索微信文章

keywords = '傅里叶变换'
wechat_articles = wechats.search_article_info(keywords)

返回结果是列表，每一项均是文章信息字典，具体如下

字段	含义
name	文章标题
url	文章链接
img	文章封面图片缩略图，可转为高清大图
zhaiyao	文章摘要
time	文章推送时间，10位时间戳
gzhname	公众号名称
gzhqrcodes	公众号二维码
gzhurl	公众号最近文章地址

获取最近文章详情页字典 - get_gzh_recent_info

wechat_id = 'nanhangqinggong'
wechat_info = wechats.get_gzh_info(wechat_id)
data = wechats.get_gzh_recent_info(wechat_info['url'])

字段	含义
gzh_info	公众号信息字典
articles	最近文章列表，每一项均是字典

其中gzh_info的具体如下

字段	含义
name	公众号名称
wechatid	公众号id
jieshao	介绍
renzhen	认证，为空表示未认证
qrcode	二维码
img	头像图片
url	最近文章地址

articles的每一项具体如下

字段	含义
main	是否是一次推送中第一篇文章，1则是
title	文章标题
digest	摘要
content
fileid
content_url	文章地址
source_url	原文地址
cover	封面图片
author	作者
copyright_stat	文章内容版权性

通过微信号获取上一步数据 - get_gzh_article_by_wechatid_dict

wechat_id = 'nanhangqinggong'
articles_by_wechatid = wechats.get_gzh_article_by_wechatid_dict(wechat_id)

返回结果与上一步一样

处理文章 - get_gzh_article_info

一般需要处理，因为需要在这一步获取固定的而不是临时的文章链接

wechat_id = 'nanhangqinggong'
wechat_info = wechats.get_gzh_info(wechat_id)
articles = wechats.get_gzh_article_by_url_dict(wechat_info['url'])
article_info = wechats.get_gzh_article_info(articles[0])

返回字典，具体如下

字段	含义
yuan	文章固定地址
related	相似文章信息字典
comment	评论信息字典
content	文章内容

comment是评论以及阅读量，字典

字段	含义
base_resp	返回码，字典，包含下面两项
base_resp->ret	返回码
base_resp->errmsg	返回错误信息
read_num	阅读量
like_num	点赞数
elected_comment_total_cnt	评论数
comment	具体评论数据，每一项均是一个列表，设为comment_comment

comment_comment是一项评论

字段	含义
content	评论内容
like_num	点赞数
nick_name	评论者昵称
logo_url	评论者头像
reply	回复
其余字典未说明，请打印自行查看

content是文章内容，字典，一下三项均含img和br标签

字段	含义
content_html	原始文章内容，包括html标签及样式
content_rich	包含图片（包括图片应展示的样式）的文章内容
content_text	包含图片（`<img src="..." />`格式）的文章内容

获取首页推荐文章公众号最近文章地址 - get_recent_article_url_by_index_single

articles_single = wechats.get_recent_article_url_by_index_single()

返回的是列表，每一项是不同公众号的的最近文章页

获取首页推荐文章公众号最近文章地址所有分类 - get_recent_article_url_by_index_all

articles_all = wechats.get_recent_article_url_by_index_all()

返回的是列表，每一项是不同公众号的的最近文章页

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
screenshot		screenshot
wechatsogou		wechatsogou
changelog.md		changelog.md
readme.md		readme.md
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基于搜狗微信搜索的微信公众号爬虫接口

项目简介

项目使用

引用

搜索公众号 - search_gzh_info

获取公众号

搜索微信文章

获取最近文章详情页字典 - get_gzh_recent_info

通过微信号获取上一步数据 - get_gzh_article_by_wechatid_dict

处理文章 - get_gzh_article_info

获取首页推荐文章公众号最近文章地址 - get_recent_article_url_by_index_single

获取首页推荐文章公众号最近文章地址所有分类 - get_recent_article_url_by_index_all

TODO

About

Releases

Packages

Languages

nffly/WechatSogou

Folders and files

Latest commit

History

Repository files navigation

基于搜狗微信搜索的微信公众号爬虫接口

项目简介

项目使用

引用

搜索公众号 - search_gzh_info

获取公众号

搜索微信文章

获取最近文章 详情页 字典 - get_gzh_recent_info

通过微信号获取上一步数据 - get_gzh_article_by_wechatid_dict

处理文章 - get_gzh_article_info

获取首页推荐文章公众号最近文章地址 - get_recent_article_url_by_index_single

获取首页推荐文章公众号最近文章地址 所有分类 - get_recent_article_url_by_index_all

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

获取最近文章详情页字典 - get_gzh_recent_info

获取首页推荐文章公众号最近文章地址所有分类 - get_recent_article_url_by_index_all

Packages