Студенты РУТ (МИИТ) создали удобный инструмент для структурирования информации из текстов тендеров на оказание услуг по добровольному медицинскому страхованию (ДМС). Разработка станет частью программного продукта российской IT-компании HFLabs и позволит автоматизировать рабочие процессы менеджеров страховых компаний.
Целью проекта стало создание алгоритма, который сможет структурировать списки тендеров и выделять отдельные сущности, такие как название лечебно-профилактических учреждений, их адрес, контактную информацию и виды предоставляемых услуг, в то время как раньше это требовало ручной работы.
— На рынке есть продукты, которые позволяют решить данную задачу, но большинство из них произведены иностранными вендорами, которые ушли из Российской Федерации, некоторые из них просто не умеют работать с русским языком. У нашего заказчика компании HFLabs есть собственный инструмент для аналитики текстовых данных и наша разработка станет его дополнением. За счет автоматизации процесса, скорость его выполнения увеличится примерно в 10 раз, при этом освободится кадровый ресурс, ведь обработкой информации будет заниматься компьютер, — рассказал Егор Роменко, студент 2 курса АВИШ.
— Задача для студентов АВИШ была выбрана неслучайно. С такой проблемой к нам уже обращались страховые компании. Кроме того, нам хотелось научить ребят чему-то интересному на практическом примере, — объясняет Мирон Кузнецов, ML-разработчик HFLabs. — Студенты получили проектные навыки: научились смотреть проблему с разных сторон и искать подходы к решению каждой подзадачи. Они познакомились с азами машинного обучения и поняли, какие алгоритмы можно попробовать и как выбрать из них финальный. Разобрались, с помощью каких инструментов можно работать с данными. Каждую неделю у них была маленькая победа с решением одной подзадачи, и в целом ребята успешно справились с проектом. Примечательно, что наработки этого проекта можно использовать для обработки данных не только лечебных учреждений, но и других организаций. После небольшой модернизации программы возможно её переиспользование для проектов по извлечению похожих сущностей (наименование, адрес, контактная информация).
В процессе создания продукта, участники использовали язык программирования Python, специальные библиотеки для работы с данными, а также проводили исследования и тестовые выборки, чтобы определить какая модель лучше всего справится с поставленной задачей.
Уникальный алгоритм разработан в рамках проектной деятельности, над ним работали студенты 1 курса АВИШ Тиводар Олег и Рябов Семен, а также студенты 2 курса АВИШ Роменко Егор, Горбунов Владислав и Иванов Дмитрий.