Skip to content

right9alt/scrap

Repository files navigation

Проект Скрапинга Вакансий

Этот проект включает в себя скрипты для сбора данных о вакансиях, их парсинга и поиска с использованием Elasticsearch. Ниже приведено описание каждого файла в проекте:

scrapper.rb

  • Этот файл предназначен для первичного сбора ссылок на вакансии.
  • Собранные ссылки сохраняются в файл vacancy_urls.json.
  • В нем более 5300 ссылок на вакансии.
  • Работадатели делают по несколько одинаковых вакансий(могут быть дубликаты по названиям) для некоторых популярных категорий, обычно работа не требующая навыков, курьер/оператор call-центра

scrap_by_url.rb

  • Этот файл используется для парсинга данных о вакансиях с использованием собранных ссылок.
  • Данные вакансий собираются и сохраняются в файл vacancy_data.json.
  • Вакансии могут быть представлены в разных форматах, таких как обычный текст или сверстанная вакансия работодателем.
  • Парсер извлекает следующие поля: "url", "Title", "Salary", "overview", "description", "skills", "dreamJob", "recomendationPercent".
  • Некоторые поля могут оставаться пустыми, так как не все работодатели предоставляют полную информацию.

poiskovik.rb

  • Этот файл отвечает за поиск вакансий с использованием Elasticsearch.
  • В процессе поиска применяются синонимы для запросов, опечаточная коррекция и маппинг по всем полям.

danilin-serp-version-1.xlsx

  • Этот файл содержит статистику по запросам и результатам поиска вакансий.
  • Некоторые документы могут иметь одинаковые названия вакансий, но разные ссылки (проверено по идентификаторам).

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages