crawle_weibo

微博爬虫，爬取微博个人账号的原创微博内容
纯属娱乐项目

18-12-03

19-06-04

使用

在项目根目录添加config.py文件

# -*- coding: utf-8 -*-
config = {
	"userId": "userId",			# 需要爬取的用户微博ID，注意，一定要是 number 类型
	"cookie": {
		"Cookie": "cookie"		# cookie
	},
	"background": "resource/background/qb.png"	# 生成词云的图片，resource下有几张可选图片
}

请在https://weibo.cn/你的微博id/profile?filter=1&page=1这里获取cookie

执行weibo.py爬取原创微博，并下载图片
执行analysis.py解析微博内容，并生成图表
执行main.py生成词云图
执行help.py爬取个人被赞信息，并生成词云图(19-06-06新增)

或者

# start.sh中并没有添加 help.py 的执行命令

bash start.sh

# ./start.sh

爬取完成后，会在项目根目录生成result文件夹，以及对于的user_id文件夹
解析完成后，会在对应的user_id文件夹下生成：

分类 category.txt
使用最多的表情 express.txt
使用最多的名字 name.txt
使用最多的词语 word.txt
分类图表 category.html
表情图表 express.html
常去地点 address.html

wordcloud的安装

windows

到http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载wordcloud模块所需要的whl文件，根据自己版本下载
cd到下载的路径下
执行pip install wordcloud-1.5.0-cp36-cp36m-win32.whl（这是我下载的版本，根据自己电脑，下载相应的版本即可）

mac

xcode-select --install
pip3 install wordcloud

解决wordcloud中文乱码

中文乱码，是因为使用的字体不支持中文，只要使用支持中文的字体即可

wordcloud = WordCloud(font_path="simhei.ttf").generate(text)

这里的font_path就是指定使用的字体文件，simhei.ttf是黑体，将字体文件复制到项目下即可，不需要重命名，会自动变成英文名的

在Mac上遇到的坑

执行python3 analysis.py时，报错

Traceback (most recent call last):
  File "analysis.py", line 10, in <module>
    from pyecharts import Pie, Bar, Geo
ModuleNotFoundError: No module named 'pyecharts'

# 或者

Traceback (most recent call last):
  File "analysis.py", line 10, in <module>
    from pyecharts import Pie, Bar, Geo
ImportError: cannot import name 'Pie' from 'pyecharts' (/usr/local/lib/python3.7/site-packages/pyecharts/__init__.py)

卸载掉pyecharts，重新安装即可

pip3 uninstall pyecharts

pip3 install pyecharts==0.5.11

参考地址

history

2019-06-06

爬取个人被赞信息(仅能爬到当前cookie账号`被人点赞`记录)

./result/my_help: 赞你的用户
./result//my_help.jpg: 生成的词云图

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
resource		resource
.gitignore		.gitignore
README.md		README.md
analysis.py		analysis.py
help.py		help.py
keywords_new.py		keywords_new.py
main.py		main.py
requirements.txt		requirements.txt
start.sh		start.sh
test.py		test.py
weibo.py		weibo.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

crawle_weibo

18-12-03

19-06-04

使用

wordcloud的安装

windows

mac

解决wordcloud中文乱码

在Mac上遇到的坑

参考地址

history

2019-06-06

爬取个人被赞信息(仅能爬到当前cookie账号`被人点赞`记录)

About

Releases

Packages

Languages

Jessom/crawle_weibo

Folders and files

Latest commit

History

Repository files navigation

crawle_weibo

18-12-03

19-06-04

使用

wordcloud的安装

windows

mac

解决wordcloud中文乱码

在Mac上遇到的坑

参考地址

history

2019-06-06

爬取个人被赞信息(仅能爬到当前cookie账号被人点赞记录)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

爬取个人被赞信息(仅能爬到当前cookie账号`被人点赞`记录)

Packages