Автоматическое выявление фамилий в тексте

 К. К. Боярский, Е. А. Каневский

Аннотация


При компьютерном анализе текстов возникает проблема выявления имен собственных, в частности фамилий, отсутствующих в словаре, а также определения их морфологических и синтаксических характеристик. Описаны подходы к решению этой проблемы, применяемые в семантико-синтаксическом анализаторе SemSin. Эти подходы основываются на комплексном анализе графематических и морфологических характеристик неизвестных слов и семантико-синтаксическом анализе их окру- жения. Показано, что на новостных текстах удается опознать как фамилии, имена или инициалы до трети неизвестных слов с точностью свыше 95%.

Полный текст:

PDF

Литература


Ляшевская О.Н. и др. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По

материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 318–326.

Тузов В.А. Компьютерная семантика русского языка. СПб.: Изд-во С.-Петерб. ун-та, 2004.

Толдова С.Ю. и др. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной

конференции «Диалог». Вып. 11 (18), Т. 2. М.: Изд-во РГГУ, 2012. С. 78–92.

Боярский К.К., Каневский Е.А. Язык правил для построения синтаксического дерева // Интернет и современное общество: Материалы XIV Всероссийской объединенной конференции «Интернет и современное общество». – СПб.: ООО «МультиПроджектСистемСервис», 2011. С. 233–237.

Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin // http://www.dialog-21.ru/digest/2012/?type=doc

Боярский К.К., Каневский Е.А. Разбиение текста на предложения // Дискуссия теоретиков и практиков. Научно-практический журнал. 2010. №1 (3). С. 135–137.

Нехай И.В. Применение n-грамм и других статистик уровня символов и слов для семантической классификации незнакомых собственных имен // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып.11 (18), Т. 1. – М.: Изд-во РГГУ, 2012. С. 477–489.


Ссылки

  • На текущий момент ссылки отсутствуют.