RentCrawler

Crawlers para sites de aluguel com persistência de dados em banco não relacional e deduplicação de itens usando banco em memória. Os itens são enviados para um cluster Elasticsearch para serem analisados e visualizados no Kibana.

O projeto foi desenvolvido visando agregar as informações disponíveis em vários sites de aluguel em um único local para facilitar a busca de um novo apartamento e ter mais parâmetros de busca além dos que os sites disponibilizam.

Sites de aluguel

Requisitos

Python 3.8+
Scrapy 2.6.1
MongoDB
Redis
Elasticsearch

Configurações

rent_crawler/settings.py

MONGODB_URI = 'mongodb://localhost:27017'
MONGODB_DATABASE = 'rent'
MONGODB_UNIQUE_KEY = 'code'
MONGODB_ADD_TIMESTAMP = True
MONGODB_SEPARATE_COLLECTIONS = True

ELASTICSEARCH_SERVERS = ['localhost']
ELASTICSEARCH_UNIQ_KEY = 'code'
ELASTICSEARCH_BUFFER_LENGTH = 250

REDIS_HOST = 'localhost'
REDIS_PORT = 6379

Parâmetros

start_page
- página inicial que o crawler vai realizar a extração
pages_to_crawl
- quantidade de páginas que o crawler deverá extrair

Os crawlers usam as urls internas de cada site para extrair os dados ao invés de acessar a página de busca. Atualmente as urls estão apontando para a cidade de São Paulo, para atualizar o local é preciso descobrir essa url interna ou o payload de dados enviado na requisição de cada site para a cidade desejada e atualizar a variável start_url ou o payload com esse valor.

Mais informações em:

Rodar local

Para rodar local e salvar os itens para um arquivo json sem enviar para nenhum banco ou cluster Elasticsearch, é preciso comentar a configuração dos pipelines no arquivo de configurações:

ITEM_PIPELINES = {
    'rent_crawler.pipelines.RentCrawlerPipeline': 100,
    'rent_crawler.pipelines.RedisDuplicatePipeline': 200,
    'scrapy_mongodb.MongoDBPipeline': 300,
    'rent_crawler.pipelines.ElasticSearchAdapterPipeline': 400
}

Instalar as dependências do projeto:

pip install -r requirements.txt

Rodar o crawler:

scrapy crawl vivareal -a start_page=1 -a pages_to_crawl=2 -o vivareal.json

License

Distributed under the GNU License. See LICENSE for more information.

Name		Name	Last commit message	Last commit date
Latest commit History 83 Commits
.ipynb_checkpoints		.ipynb_checkpoints
elasticsearch		elasticsearch
rent_crawler		rent_crawler
.DS_Store		.DS_Store
.gitignore		.gitignore
LICENSE		LICENSE
Pipfile		Pipfile
README.md		README.md
Untitled.ipynb		Untitled.ipynb
deploy.py		deploy.py
docker-compose.yml		docker-compose.yml
emcasa2.json		emcasa2.json
pi_rent.json		pi_rent.json
pi_sale.json		pi_sale.json
qandar2.json		qandar2.json
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg
tmp.json		tmp.json
top_rent.json		top_rent.json
top_sale.json		top_sale.json
untitled.js		untitled.js
vr_rent2.json		vr_rent2.json
vr_sale2.json		vr_sale2.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RentCrawler

Sites de aluguel

Requisitos

Configurações

Parâmetros

Rodar local

License

About

Releases

Packages

Languages

License

Dmaturana81/RentCrawler

Folders and files

Latest commit

History

Repository files navigation

RentCrawler

Sites de aluguel

Requisitos

Configurações

Parâmetros

Rodar local

License

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages