Отчет по практикеПрикладная информатикаГод: 2025РосНОУ: Российский новый университет
👁 9💼 0

Готовый отчет по практике: NLP для юрдокументов

Загружена: 15.04.2026 07:39

Практика по созданию системы автоматического извлечения сведений из юридических документов. Рассмотрены Legal Tech, NLP, NER, классификация и JSON-структурирование. Полезно для студентов ИТ-направлений и прикладной информатики.

Содержание

Содержание
Введение	3
Описание организации	4
Анализ предметной области Legal Tech и методов NLP	5
Разработка концептуальной модели системы	7
Заключение	9
Список использованных источников	10

 
Введение
Целью учебной практики является систематизация теоретических знаний и расширение круга практических умений по профилю подготовки путем изучения современных методов и технологий в области систем искусственного интеллекта, применяемых для автоматической обработки текстовой информации.
Практика – вид внеурочной работы студента, предусмотренный профессиональной образовательной программой, направленный на закрепление полученных теоретических знаний и формирование профессиональных компетенций в области прикладной информатики.
Тема практики: «Разработка системы автоматического извлечения информации из юридических документов». Актуальность данной темы обусловлена постоянно растущим объемом правовой документации в Российской Федерации. Ежегодно принимаются тысячи нормативных правовых актов, заключаются миллионы договоров, выносятся судебные решения. Ручная обработка такого массива информации требует значительных временных и трудовых затрат, что делает задачу автоматизации этих процессов одной из наиболее востребованных в сфере Legal Tech.

Введение

Целью учебной практики является систематизация теоретических знаний и расширение круга практических умений по профилю подготовки путем изучения современных методов и технологий в области систем искусственного интеллекта, применяемых для автоматической обработки текстовой информации.
Практика – вид внеурочной работы студента, предусмотренный профессиональной образовательной программой, направленный на закрепление полученных теоретических знаний и формирование профессиональных компетенций в области прикладной информатики.
Тема практики: «Разработка системы автоматического извлечения информации из юридических документов». Актуальность данной темы обусловлена постоянно растущим объемом правовой документации в Российской Федерации. Ежегодно принимаются тысячи нормативных правовых актов, заключаются миллионы договоров, выносятся судебные решения. Ручная обработка такого массива информации требует значительных временных и трудовых затрат, что делает задачу автоматизации этих процессов одной из наиболее востребованных в сфере Legal Tech.
Цель практики состоит в исследовании существующих подходов к автоматическому извлечению информации из юридических документов и разработке концептуальной модели такой системы с использованием методов обработки естественного языка (NLP).
В соответствии с поставленной целью были определены следующие задачи: провести анализ предметной области и существующих решений в сфере Legal Tech; изучить методы обработки естественного языка, применимые к юридическим текстам; исследовать архитектуры нейронных сетей для задач извлечения именованных сущностей и классификации документов; разработать концептуальную модель системы автоматического извлечения информации; определить критерии и метрики оценки эффективности разработанной модели; подготовить отчет об учебной практике.
Объектом исследования являются юридические документы и методы их автоматической обработки с использованием технологий искусственного интеллекта. Предмет исследования – методы и алгоритмы автоматического извлечения структурированной информации из неструктурированных юридических текстов.
Описание организации
Местом прохождения учебной практики является АНО ВО «Российский новый университет» (РосНОУ). Университет был основан в 1991 году и является одним из ведущих негосударственных высших учебных заведений Российской Федерации, аккредитованным по широкому спектру направлений подготовки [10]. РосНОУ осуществляет образовательную деятельность в области информационных технологий, экономики, юриспруденции, гуманитарных и естественных наук.
Институт информационных систем и инженерно-компьютерных технологий (ИСиКТ) является структурным подразделением университета, ответственным за подготовку специалистов в области информационных технологий. Институт реализует образовательные программы бакалавриата и магистратуры, обеспечивает проведение научно-исследовательской работы в области информатики, искусственного интеллекта и смежных дисциплин.
Практика проходила на базе кафедры информационных систем в экономике и управлении, которая обеспечивает реализацию образовательных программ по направлению 09.04.03 «Прикладная информатика» с профилем «Прикладная информатика в экономике». Кафедра располагает необходимой учебно-методической базой, включая доступ к современному программному обеспечению, облачным вычислительным ресурсам и электронным библиотечным системам.
Техническое оснащение кафедры включает компьютерные классы с установленным программным обеспечением для разработки и тестирования систем искусственного интеллекта: среды разработки Python (PyCharm, Jupyter Notebook), библиотеки машинного обучения (TensorFlow, PyTorch, scikit-learn, Hugging Face Transformers), а также средства работы с текстовыми данными (spaCy [8], NLTK, Natasha) [9].
Анализ предметной области Legal Tech и методов NLP
Legal Tech (правовые технологии) – динамично развивающееся направление на стыке юриспруденции и информационных технологий, охватывающее разработку программных решений для автоматизации юридической деятельности. По данным исследовательских компаний, мировой рынок Legal Tech в 2024 году оценивался в более чем 30 млрд долларов с прогнозируемым ежегодным ростом около 8% [7].
Юридические документы обладают рядом особенностей, отличающих их от других типов текстов. Во-первых, это специализированная терминология, включающая латинские заимствования, аббревиатуры нормативных актов и устойчивые юридические конструкции. Во-вторых, сложная синтаксическая структура с длинными предложениями, множественными придаточными оборотами и перечислениями. В-третьих, многочисленные перекрестные ссылки между документами – указания на статьи законов, пункты договоров, судебные прецеденты. Наконец, строгие требования к точности формулировок, где замена одного слова может существенно изменить правовой смысл.
Среди существующих решений в области автоматической обработки юридических документов выделяются несколько направлений. Справочно-правовые системы («КонсультантПлюс», «Гарант», «Кодекс») обеспечивают поиск и систематизацию нормативных актов, однако используют преимущественно ключевые слова и формальные атрибуты документов, не анализируя семантику текста. Системы электронного документооборота (например, Directum, «1С:Документооборот») автоматизируют маршрутизацию и хранение документов, но не извлекают содержательную информацию. Современные системы интеллектуального анализа на основе NLP, такие как решения от ABBYY, Contractbook и Kira Systems, выходят на новый уровень, применяя модели глубокого обучения для понимания содержания юридических текстов [6].
Обработка естественного языка (Natural Language Processing, NLP) объединяет методы компьютерной лингвистики и машинного обучения для автоматического анализа, понимания и генерации текстов [2]. Применительно к юридическим документам ключевыми задачами NLP являются следующие.
Извлечение именованных сущностей (Named Entity Recognition, NER) – автоматическое выделение из текста структурных элементов: имен сторон, наименований организаций, дат, денежных сумм, номеров нормативных актов. Данная задача решается с помощью моделей последовательного маркирования на основе архитектур BiLSTM-CRF и Transformer [3].
Классификация документов – автоматическое определение типа документа (договор, исковое заявление, судебное решение, нормативный акт и др.). Для решения этой задачи используются модели на основе архитектуры Transformer, дообученные на размеченных корпусах юридических текстов.
Извлечение отношений (Relation Extraction) – определение семантических связей между сущностями: «сторона – обязательство», «нарушение – санкция», «норма – исключение». Суммаризация – автоматическое создание кратких аннотаций объемных документов с сохранением ключевой информации.
Анализ существующих подходов показал, что наиболее результативными для обработки юридических текстов на русском языке являются модели на основе архитектуры Transformer. Предобученная модель BERT (Bidirectional Encoder Representations from Transformers) [3] и ее русскоязычные версии – RuBERT от DeepPavlov [4] и ruGPT – демонстрируют высокое качество при решении задач NER и классификации после дообучения на специализированных корпусах. В зарубежной практике активно применяется модель LEGAL-BERT, специально предобученная на англоязычных правовых текстах и показавшая прирост качества на 2–5% по сравнению с базовым BERT на задачах юридического NLP [5].
Разработка концептуальной модели системы
На основании проведенного анализа предметной области была разработана концептуальная модель системы автоматического извлечения информации из юридических документов. Система построена по модульному принципу и включает четыре основных компонента: модуль предобработки, модуль извлечения сущностей, модуль классификации и модуль структурирования данных.
На рисунке 1 представлена схема концептуальной модели разработанной системы.
Рисунок 1 – Концептуальная модель системы
Модуль предобработки текста обеспечивает приведение входных документов к единому формату. Поддерживаются форматы PDF, DOCX, RTF, а также сканированные изображения с применением технологии оптического распознавания символов (OCR). Этап предобработки включает: токенизацию – разбиение текста на слова и предложения с учетом юридической специфики (сохранение аббревиатур, номеров статей, дат); лемматизацию – приведение слов к начальной форме с использованием морфологического анализатора pymorphy2 [1]; нормализацию – унификацию написания дат, денежных сумм, реквизитов документов; сегментацию – выделение структурных блоков документа (преамбула, основная часть, реквизиты сторон, подписи).
Модуль извлечения именованных сущностей (NER) является центральным компонентом системы. Для юридических документов определена расширенная система типов сущностей, включающая: PERSON – физические лица (стороны, представители, судьи); ORG – организации, государственные органы, суды; DATE – даты и временные периоды; MONEY – денежные суммы, пени, штрафы; LAW – ссылки на нормативные акты (с указанием номера статьи, пункта); ADDRESS – адреса и географические объекты; DOC_ID – номера и реквизиты документов. В качестве базовой архитектуры выбрана модель RuBERT [4] с дополнительным слоем CRF (Conditional Random Field) [3] для последовательного маркирования, что позволяет учитывать зависимости между соседними метками и повышает точность выделения многословных сущностей.
Модуль классификации документов определяет тип юридического документа на основании его текстового содержания. Реализация основана на дообучении модели RuBERT для задачи многоклассовой классификации. Определены следующие категории: нормативные правовые акты (федеральные законы, постановления, приказы, указы); договоры (купли-продажи, аренды, оказания услуг, подряда, трудовые); процессуальные документы (исковые заявления, ходатайства, жалобы); судебные акты (решения, определения, постановления); корпоративные документы (уставы, протоколы, доверенности). Для обучения классификатора предполагается использование размеченного корпуса объемом не менее 10 000 документов с равномерным распределением по категориям.
Модуль структурирования информации формирует итоговое представление извлеченных данных в формате JSON. Каждый обработанный документ преобразуется в структурированную запись, содержащую: метаданные документа (тип, дата, номер); список извлеченных сущностей с указанием типа, значения и позиции в тексте; выявленные отношения между сущностями; краткую аннотацию. Такое представление обеспечивает удобство интеграции с информационными системами и базами данных, а также возможность дальнейшей аналитической обработки.
Для оценки качества работы системы определены метрики: точность (Precision), полнота (Recall) и F1-мера для каждого типа сущностей и каждой категории документов. На основе анализа результатов аналогичных систем установлены целевые показатели: F1-мера не ниже 85% для задачи NER на юридических текстах и не ниже 90% для задачи классификации документов. Валидация модели предполагается с применением метода кросс-валидации (5-fold cross-validation) на размеченном тестовом корпусе.

Заключение

В ходе прохождения учебной практики на базе кафедры информационных систем в экономике и управлении АНО ВО «Российский новый университет» были выполнены все поставленные задачи.
Проведен комплексный анализ предметной области Legal Tech. Изучены существующие решения для автоматической обработки юридических документов, включая справочно-правовые системы, платформы электронного документооборота и современные системы на основе NLP. Выявлены ключевые особенности юридических текстов, создающие вызовы для автоматической обработки: специализированная терминология, сложный синтаксис, перекрестные ссылки.
Исследованы методы обработки естественного языка, применимые к юридическим документам: извлечение именованных сущностей (NER), классификация, извлечение отношений и суммаризация. Проанализированы архитектуры нейронных сетей семейства Transformer, в частности модели BERT и их русскоязычные адаптации (RuBERT), а также специализированная модель LEGAL-BERT.
Разработана концептуальная модель системы автоматического извлечения информации, включающая модули предобработки, NER, классификации и структурирования данных. Определена расширенная система типов сущностей для юридических документов, выбрана архитектура RuBERT+CRF для задачи NER, обоснованы целевые метрики качества.
Полученные в ходе практики результаты могут быть использованы в качестве теоретической базы для последующей реализации прототипа системы в рамках выпускной квалификационной работы.

Список литературы

1.	Девятков В.В. Прикладная информатика в экономике: учебное пособие для вузов. – М.: Издательство МГТУ им. Н.Э. Баумана, 2021. – 352 с.
2.	Николенко С.И., Кадурин А.А., Архангельская Е.О. Глубокое обучение. Погружение в мир нейронных сетей. – СПб.: Питер, 2020. – 480 с.
3.	Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. – 2019. – P. 4171–4186.
4.	Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // Proceedings of the International Conference "Dialogue". – 2019.
5.	Chalkidis I., Fergadiotis M., Malakasiotis P., Aletras N., Androutsopoulos I. LEGAL-BERT: The Muppets straight out of Law School // Findings of EMNLP. – 2020. – P. 2898–2904.
6.	Ваsilev V. Deep Learning Natural Language Processing Techniques for Legal Text Analytics. – Springer, 2022. – 285 p.
7.	Юдина Д.И. Применение технологий обработки естественного языка в правовой сфере // Вестник Университета имени О.Е. Кутафина. – 2022. – №4. – С. 115–123.
8.	Наташа – библиотека для извлечения структурированной информации из русскоязычных текстов – URL: https://github.com/natasha.
9.	Hugging Face Transformers – библиотека предобученных моделей – URL: https://huggingface.co/.
10.	Официальный сайт АНО ВО «Российский новый университет» – URL: https://rosnou.ru/.

Подробное описание

📘 О чем эта работа

Отчет посвящен учебной практике по теме разработки системы автоматического извлечения информации из юридических документов. В центре внимания — анализ Legal Tech, применение методов обработки естественного языка и проектирование концептуальной модели, которая выделяет сущности из договоров, актов и иных правовых текстов.

В материалах отражены цель, задачи, объект и предмет исследования, а также описание базы практики — АНО ВО «Российский новый университет», кафедры информационных систем в экономике и управлении. Работа ориентирована на создание теоретической основы для последующей реализации прототипа системы на Python и современных NLP-библиотеках.

📚 Что внутри

Содержание отчета построено вокруг реальной задачи автоматизации обработки правовой документации и включает как организационную, так и исследовательскую части:

  • описание места прохождения практики, материально-технической базы и используемого ПО: Python, PyCharm, Jupyter Notebook, TensorFlow, PyTorch, scikit-learn, Hugging Face Transformers, spaCy, NLTK, Natasha;
  • обзор рынка и специфики Legal Tech, включая особенности юридических текстов: сложный синтаксис, терминологию, аббревиатуры, перекрестные ссылки и высокие требования к точности формулировок;
  • сравнение подходов к автоматической обработке документов: справочно-правовые системы, электронный документооборот и интеллектуальные решения на основе NLP;
  • подробное описание ключевых задач NLP для юрдокументов: NER, классификация документов, извлечение отношений и суммаризация;
  • концептуальная модель системы с четырьмя модулями: предобработка текста, извлечение именованных сущностей, классификация документа и структурирование результатов в JSON;
  • перечень типов сущностей для юридической области: PERSON, ORG, DATE, MONEY, LAW, ADDRESS, DOC_ID;
  • обоснование выбора архитектуры RuBERT + CRF для последовательного маркирования и многоклассовой классификации документов;
  • метрики оценки качества: Precision, Recall, F1-мера, а также целевые показатели не ниже 85% для NER и 90% для классификации;
  • дневник практики, индивидуальное задание, календарный план и характеристика с итоговой оценкой «отлично».

📊 Для кого подходит

Материал будет полезен студентам 1–4 курсов направлений прикладной информатики, информационных систем, искусственного интеллекта и data science, а также тем, кто готовит отчет по учебной практике на тему NLP, Legal Tech или интеллектуальной обработки текстов.

✨ Особенности

Сильная сторона работы — конкретная привязка к актуальной прикладной задаче: автоматическому извлечению сведений из юридических документов. В отчете не просто перечислены технологии, а показано, как выстраивается полноценная система обработки текста: от токенизации и лемматизации до выделения сущностей, определения типа документа и формирования структурированной записи в формате JSON.

Дополнительную ценность дают проработанные выводы по перспективам применения трансформеров в юридическом NLP, а также ссылка на русскоязычные и специализированные модели, включая BERT, RuBERT и LEGAL-BERT. Такой подход делает работу удобной основой для курсового проекта или выпускной квалификационной работы.

❓ Частые вопросы

Подойдет ли для моего ВУЗа?
Да, структура отчета соответствует стандартному формату учебной практики: введение, описание организации, анализ предметной области, разработка модели, заключение и список источников.

Можно адаптировать?
Да, легко доработать под другой вуз, направление подготовки или собственную тему, сохранив логику исследования и оформление практики.