Оценки пользователей:
83%
17%
1692
360

Описание Система классификации документов с маркшейдерскими данными

Все предприятия, осуществляющие геологоразведочные работы на территории РФ, сталкиваются с необходимостью формирования задач для маркшейдерской службы и контроля выполнения поставленных задач. Это отражается в процессах документооборота предприятий. В данной связи существует проблема организации эффективной обработки документов в системах электронного документооборота – своевременного выявления документов, содержащих маркшейдерские данные. В статье представлено возможное решение указанной проблемы – автоматизированная система классификации документов в СЭД в виде рекомендательной надстройки над системой 1С:Документооборот. В рамках создания системы классификации был разработан и реализован сценарий предварительной обработки первичных текстов документов, включающий очистку, лемматизацию и удаление стоп-слов, а также подготовку входных признаков для классификатора. Исследована применимость различных алгоритмов машинного обучения к решению рассматриваемой задачи классификации, определены значения гиперпараметров, обеспечивающие наибольшее значение метрики ROC AUC. Выполнена оценка качества всех полученных моделей с использованием метрик Precision, Recall и F-меры, исследована устойчивость качества классификации к изменению входных данных. Выявленная проблема нестабильности результатов классификации решалась путем построения модели машинного обучения в виде ансамбля классификаторов. Обученная модель (ансамбль классификаторов) тестировалась на наборе реальных документов ООО «Газпром недра»; качество классификации на тестовой выборке по метрике ROC AUC составило 0,91. Кроме собственно модуля классификации разработанная система включает базу данных хранения результатов обучения, библиотеку функций для организации работы с базой данных, а также API-интерфейсы, позволяющие обрабатывать запросы на классификацию, приходящие из внешних систем. В API-интерфейсах, в частности, реализованы возможности загрузки сохраненных обученных моделей, валидации данных, приходящих из внешних систем, предварительной обработки входных текстовых документов, обучения новых моделей и оценки их качества, сохранение как обученных моделей, так и результатов их тестирования. Реализована возможность дообучения сохраненных моделей на новых данных.

Книги цикла

Разработка моделей сорсинга информационно-технологических процессов организации - Е. А. Прохорова
Разработка моделей сорсинга информационно-технологических процессов организации
Е. А. Прохорова
Информационное обеспечение системы поддержки принятия решений на крупнотоннажных предприятиях промышленного комплекса - Р. Ю. Тарасенко
Информационное обеспечение системы поддержки принятия решений на крупнотоннажных предприятиях промышленного комплекса
Р. Ю. Тарасенко
Моделирование издательских процессов в научной периодике - Н. Н. Прокимнов
Моделирование издательских процессов в научной периодике
Н. Н. Прокимнов
Повышение эффективности конструкторско-технологической подготовки производства изделий «Отвод» и «Переход» - К. С. Головкин
Повышение эффективности конструкторско-технологической подготовки производства изделий «Отвод» и «Переход»
К. С. Головкин
Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы - Е. А. Поляков
Компьютерное конструирование неорганических соединений на основе интегрированной информационной системы
Е. А. Поляков
Информационная система управления эффективностью деятельности деканата - Т. В. Алексеева
Информационная система управления эффективностью деятельности деканата
Т. В. Алексеева
Оптимизация решения задачи ортогональной упаковки - В. А. Чеканин
Оптимизация решения задачи ортогональной упаковки
В. А. Чеканин
Проблемы ложных срабатываний антивирусных средств - Д. С. Сильнов
Проблемы ложных срабатываний антивирусных средств
Д. С. Сильнов

Рекомендуем к прочтению

Базы данных: конспект лекций - Коллектив авторов
Базы данных: конспект лекций
Коллектив авторов
Открытые системы. СУБД №06/2009 - Открытые системы
Открытые системы. СУБД №06/2009
Открытые системы
Открытые системы. СУБД №07/2009 - Открытые системы
Открытые системы. СУБД №07/2009
Открытые системы
Открытые системы. СУБД №08/2009 - Открытые системы
Открытые системы. СУБД №08/2009
Открытые системы
Открытые системы. СУБД №09/2009 - Открытые системы
Открытые системы. СУБД №09/2009
Открытые системы
Открытые системы. СУБД №10/2009 - Открытые системы
Открытые системы. СУБД №10/2009
Открытые системы
Открытые системы. СУБД №03/2010 - Открытые системы
Открытые системы. СУБД №03/2010
Открытые системы
Открытые системы. СУБД №04/2010 - Открытые системы
Открытые системы. СУБД №04/2010
Открытые системы