Аннотация
Предложен новый алгоритм двухэтапного дообучения нейросетевой языковой модели BERT для более эффективного распознавания именованных сущностей. Первый этап представляет собой дообучение BERT как Сиамской нейронной сети с использованием специальной сопоставительной функции потерь, а второй этап связан с окончательным дообучением распознавателя именованных сущностей как "традиционного"классификатора элементов последовательности. Добавление первого этапа, основанного на методе сопоставительного обучения, обеспечивает построение высокоуровневого признакового пространства на выходе нейросетевой языковой модели BERT с более компактными представлениями разных классов именованных сущностей. Эксперименты показывают, что такая схема дообучения повышает обобщающую способность распознавателей именованных сущностей на базе целого ряда предобученных языковых моделей BERT. Исходный код доступен под лицензией Apache 2.0 и размещен на GitHub https://github.com/bond005/runne_contrastive_ner
Переведенное название | Сопоставительное дообучение для повышения обобщающей способности нейросетевого распознавателя именованных сущностей |
---|---|
Язык оригинала | английский |
Страницы (с-по) | 70-80 |
Число страниц | 11 |
Журнал | Komp'juternaja Lingvistika i Intellektual'nye Tehnologii |
Номер выпуска | 21 |
Состояние | Опубликовано - 15 июн 2022 |
Ключевые слова
- распознавание именованных сущностей
- сопоставительное обучение
- Сиамские нейронные сети
- BERT
- NER
Предметные области OECD FOS+WOS
- 1.02.EP ИНФОРМАТИКА, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
- 6.02.OT ЛИНГВИСТИКА