Этот проект включает в себя скрипты для сбора данных о вакансиях, их парсинга и поиска с использованием Elasticsearch. Ниже приведено описание каждого файла в проекте:
- Этот файл предназначен для первичного сбора ссылок на вакансии.
- Собранные ссылки сохраняются в файл
vacancy_urls.json
. - В нем более 5300 ссылок на вакансии.
- Работадатели делают по несколько одинаковых вакансий(могут быть дубликаты по названиям) для некоторых популярных категорий, обычно работа не требующая навыков, курьер/оператор call-центра
- Этот файл используется для парсинга данных о вакансиях с использованием собранных ссылок.
- Данные вакансий собираются и сохраняются в файл
vacancy_data.json
. - Вакансии могут быть представлены в разных форматах, таких как обычный текст или сверстанная вакансия работодателем.
- Парсер извлекает следующие поля: "url", "Title", "Salary", "overview", "description", "skills", "dreamJob", "recomendationPercent".
- Некоторые поля могут оставаться пустыми, так как не все работодатели предоставляют полную информацию.
- Этот файл отвечает за поиск вакансий с использованием Elasticsearch.
- В процессе поиска применяются синонимы для запросов, опечаточная коррекция и маппинг по всем полям.
- Этот файл содержит статистику по запросам и результатам поиска вакансий.
- Некоторые документы могут иметь одинаковые названия вакансий, но разные ссылки (проверено по идентификаторам).