Проект Скрапинга Вакансий

Этот проект включает в себя скрипты для сбора данных о вакансиях, их парсинга и поиска с использованием Elasticsearch. Ниже приведено описание каждого файла в проекте:

`scrapper.rb`

Этот файл предназначен для первичного сбора ссылок на вакансии.
Собранные ссылки сохраняются в файл vacancy_urls.json.
В нем более 5300 ссылок на вакансии.
Работадатели делают по несколько одинаковых вакансий(могут быть дубликаты по названиям) для некоторых популярных категорий, обычно работа не требующая навыков, курьер/оператор call-центра

`scrap_by_url.rb`

Этот файл используется для парсинга данных о вакансиях с использованием собранных ссылок.
Данные вакансий собираются и сохраняются в файл vacancy_data.json.
Вакансии могут быть представлены в разных форматах, таких как обычный текст или сверстанная вакансия работодателем.
Парсер извлекает следующие поля: "url", "Title", "Salary", "overview", "description", "skills", "dreamJob", "recomendationPercent".
Некоторые поля могут оставаться пустыми, так как не все работодатели предоставляют полную информацию.

`poiskovik.rb`

Этот файл отвечает за поиск вакансий с использованием Elasticsearch.
В процессе поиска применяются синонимы для запросов, опечаточная коррекция и маппинг по всем полям.

`danilin-serp-version-1.xlsx`

Этот файл содержит статистику по запросам и результатам поиска вакансий.
Некоторые документы могут иметь одинаковые названия вакансий, но разные ссылки (проверено по идентификаторам).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проект Скрапинга Вакансий

`scrapper.rb`

`scrap_by_url.rb`

`poiskovik.rb`

`danilin-serp-version-1.xlsx`

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
README.md		README.md
danilin-serp-version-1.xlsx		danilin-serp-version-1.xlsx
danilin-serp-version-2.xlsx		danilin-serp-version-2.xlsx
poiskovik.rb		poiskovik.rb
scrap_by_url.rb		scrap_by_url.rb
scrapper.rb		scrapper.rb
vacancy_data.json		vacancy_data.json
vacancy_urls.json		vacancy_urls.json

right9alt/scrap

Folders and files

Latest commit

History

Repository files navigation

Проект Скрапинга Вакансий

scrapper.rb

scrap_by_url.rb

poiskovik.rb

danilin-serp-version-1.xlsx

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

`scrapper.rb`

`scrap_by_url.rb`

`poiskovik.rb`

`danilin-serp-version-1.xlsx`

Packages