Целью учебной практики является систематизация теоретических знаний и расширение круга практических умений по профилю подготовки путем изучения современных методов и технологий в области систем искусственного интеллекта, применяемых для автоматической обработки текстовой информации.
Практика – вид внеурочной работы студента, предусмотренный профессиональной образовательной программой, направленный на закрепление полученных теоретических знаний и формирование профессиональных компетенций в области прикладной информатики.
Тема практики: «Разработка системы автоматического извлечения информации из юридических документов». Актуальность данной темы обусловлена постоянно растущим объемом правовой документации в Российской Федерации. Ежегодно принимаются тысячи нормативных правовых актов, заключаются миллионы договоров, выносятся судебные решения. Ручная обработка такого массива информации требует значительных временных и трудовых затрат, что делает задачу автоматизации этих процессов одной из наиболее востребованных в сфере Legal Tech.
Цель практики состоит в исследовании существующих подходов к автоматическому извлечению информации из юридических документов и разработке концептуальной модели такой системы с использованием методов обработки естественного языка (NLP).
В соответствии с поставленной целью были определены следующие задачи: провести анализ предметной области и существующих решений в сфере Legal Tech; изучить методы обработки естественного языка, применимые к юридическим текстам; исследовать архитектуры нейронных сетей для задач извлечения именованных сущностей и классификации документов; разработать концептуальную модель системы автоматического извлечения информации; определить критерии и метрики оценки эффективности разработанной модели; подготовить отчет об учебной практике.
Объектом исследования являются юридические документы и методы их автоматической обработки с использованием технологий искусственного интеллекта. Предмет исследования – методы и алгоритмы автоматического извлечения структурированной информации из неструктурированных юридических текстов.
Описание организации
Местом прохождения учебной практики является АНО ВО «Российский новый университет» (РосНОУ). Университет был основан в 1991 году и является одним из ведущих негосударственных высших учебных заведений Российской Федерации, аккредитованным по широкому спектру направлений подготовки [10]. РосНОУ осуществляет образовательную деятельность в области информационных технологий, экономики, юриспруденции, гуманитарных и естественных наук.
Институт информационных систем и инженерно-компьютерных технологий (ИСиКТ) является структурным подразделением университета, ответственным за подготовку специалистов в области информационных технологий. Институт реализует образовательные программы бакалавриата и магистратуры, обеспечивает проведение научно-исследовательской работы в области информатики, искусственного интеллекта и смежных дисциплин.
Практика проходила на базе кафедры информационных систем в экономике и управлении, которая обеспечивает реализацию образовательных программ по направлению 09.04.03 «Прикладная информатика» с профилем «Прикладная информатика в экономике». Кафедра располагает необходимой учебно-методической базой, включая доступ к современному программному обеспечению, облачным вычислительным ресурсам и электронным библиотечным системам.
Техническое оснащение кафедры включает компьютерные классы с установленным программным обеспечением для разработки и тестирования систем искусственного интеллекта: среды разработки Python (PyCharm, Jupyter Notebook), библиотеки машинного обучения (TensorFlow, PyTorch, scikit-learn, Hugging Face Transformers), а также средства работы с текстовыми данными (spaCy [8], NLTK, Natasha) [9].
Анализ предметной области Legal Tech и методов NLP
Legal Tech (правовые технологии) – динамично развивающееся направление на стыке юриспруденции и информационных технологий, охватывающее разработку программных решений для автоматизации юридической деятельности. По данным исследовательских компаний, мировой рынок Legal Tech в 2024 году оценивался в более чем 30 млрд долларов с прогнозируемым ежегодным ростом около 8% [7].
Юридические документы обладают рядом особенностей, отличающих их от других типов текстов. Во-первых, это специализированная терминология, включающая латинские заимствования, аббревиатуры нормативных актов и устойчивые юридические конструкции. Во-вторых, сложная синтаксическая структура с длинными предложениями, множественными придаточными оборотами и перечислениями. В-третьих, многочисленные перекрестные ссылки между документами – указания на статьи законов, пункты договоров, судебные прецеденты. Наконец, строгие требования к точности формулировок, где замена одного слова может существенно изменить правовой смысл.
Среди существующих решений в области автоматической обработки юридических документов выделяются несколько направлений. Справочно-правовые системы («КонсультантПлюс», «Гарант», «Кодекс») обеспечивают поиск и систематизацию нормативных актов, однако используют преимущественно ключевые слова и формальные атрибуты документов, не анализируя семантику текста. Системы электронного документооборота (например, Directum, «1С:Документооборот») автоматизируют маршрутизацию и хранение документов, но не извлекают содержательную информацию. Современные системы интеллектуального анализа на основе NLP, такие как решения от ABBYY, Contractbook и Kira Systems, выходят на новый уровень, применяя модели глубокого обучения для понимания содержания юридических текстов [6].
Обработка естественного языка (Natural Language Processing, NLP) объединяет методы компьютерной лингвистики и машинного обучения для автоматического анализа, понимания и генерации текстов [2]. Применительно к юридическим документам ключевыми задачами NLP являются следующие.
Извлечение именованных сущностей (Named Entity Recognition, NER) – автоматическое выделение из текста структурных элементов: имен сторон, наименований организаций, дат, денежных сумм, номеров нормативных актов. Данная задача решается с помощью моделей последовательного маркирования на основе архитектур BiLSTM-CRF и Transformer [3].
Классификация документов – автоматическое определение типа документа (договор, исковое заявление, судебное решение, нормативный акт и др.). Для решения этой задачи используются модели на основе архитектуры Transformer, дообученные на размеченных корпусах юридических текстов.
Извлечение отношений (Relation Extraction) – определение семантических связей между сущностями: «сторона – обязательство», «нарушение – санкция», «норма – исключение». Суммаризация – автоматическое создание кратких аннотаций объемных документов с сохранением ключевой информации.
Анализ существующих подходов показал, что наиболее результативными для обработки юридических текстов на русском языке являются модели на основе архитектуры Transformer. Предобученная модель BERT (Bidirectional Encoder Representations from Transformers) [3] и ее русскоязычные версии – RuBERT от DeepPavlov [4] и ruGPT – демонстрируют высокое качество при решении задач NER и классификации после дообучения на специализированных корпусах. В зарубежной практике активно применяется модель LEGAL-BERT, специально предобученная на англоязычных правовых текстах и показавшая прирост качества на 2–5% по сравнению с базовым BERT на задачах юридического NLP [5].
Разработка концептуальной модели системы
На основании проведенного анализа предметной области была разработана концептуальная модель системы автоматического извлечения информации из юридических документов. Система построена по модульному принципу и включает четыре основных компонента: модуль предобработки, модуль извлечения сущностей, модуль классификации и модуль структурирования данных.
На рисунке 1 представлена схема концептуальной модели разработанной системы.
Рисунок 1 – Концептуальная модель системы
Модуль предобработки текста обеспечивает приведение входных документов к единому формату. Поддерживаются форматы PDF, DOCX, RTF, а также сканированные изображения с применением технологии оптического распознавания символов (OCR). Этап предобработки включает: токенизацию – разбиение текста на слова и предложения с учетом юридической специфики (сохранение аббревиатур, номеров статей, дат); лемматизацию – приведение слов к начальной форме с использованием морфологического анализатора pymorphy2 [1]; нормализацию – унификацию написания дат, денежных сумм, реквизитов документов; сегментацию – выделение структурных блоков документа (преамбула, основная часть, реквизиты сторон, подписи).
Модуль извлечения именованных сущностей (NER) является центральным компонентом системы. Для юридических документов определена расширенная система типов сущностей, включающая: PERSON – физические лица (стороны, представители, судьи); ORG – организации, государственные органы, суды; DATE – даты и временные периоды; MONEY – денежные суммы, пени, штрафы; LAW – ссылки на нормативные акты (с указанием номера статьи, пункта); ADDRESS – адреса и географические объекты; DOC_ID – номера и реквизиты документов. В качестве базовой архитектуры выбрана модель RuBERT [4] с дополнительным слоем CRF (Conditional Random Field) [3] для последовательного маркирования, что позволяет учитывать зависимости между соседними метками и повышает точность выделения многословных сущностей.
Модуль классификации документов определяет тип юридического документа на основании его текстового содержания. Реализация основана на дообучении модели RuBERT для задачи многоклассовой классификации. Определены следующие категории: нормативные правовые акты (федеральные законы, постановления, приказы, указы); договоры (купли-продажи, аренды, оказания услуг, подряда, трудовые); процессуальные документы (исковые заявления, ходатайства, жалобы); судебные акты (решения, определения, постановления); корпоративные документы (уставы, протоколы, доверенности). Для обучения классификатора предполагается использование размеченного корпуса объемом не менее 10 000 документов с равномерным распределением по категориям.
Модуль структурирования информации формирует итоговое представление извлеченных данных в формате JSON. Каждый обработанный документ преобразуется в структурированную запись, содержащую: метаданные документа (тип, дата, номер); список извлеченных сущностей с указанием типа, значения и позиции в тексте; выявленные отношения между сущностями; краткую аннотацию. Такое представление обеспечивает удобство интеграции с информационными системами и базами данных, а также возможность дальнейшей аналитической обработки.
Для оценки качества работы системы определены метрики: точность (Precision), полнота (Recall) и F1-мера для каждого типа сущностей и каждой категории документов. На основе анализа результатов аналогичных систем установлены целевые показатели: F1-мера не ниже 85% для задачи NER на юридических текстах и не ниже 90% для задачи классификации документов. Валидация модели предполагается с применением метода кросс-валидации (5-fold cross-validation) на размеченном тестовом корпусе.