Использование средств лингвистической обработки текстов в системе мониторинга информационных ресурсов по пользовательским предпочтениям

Н. Л. Сомс, А. В. Добров, А. Е. Доброва

Аннотация


Современные системы мониторинга СМИ и социальных медиаресурсов в большинстве случаев не позволяют конечному пользователю осуществлять непосредственную индивидуальную настройку процедур фильтрации данных, которая давала бы ему возможность отслеживать публикации по созданным этим пользователям темам с учетом показателей охвата интернет-аудитории публикациями и темами. В данной статье описывается подход к решению этой задачи, основанный на методах лингвистической обработки текстов, примененный коллективом разработчиков ООО «Гелайн» при создании программного комплекса «СМиРТЕО».


Ключевые слова


автоматическая обработка текстов; мониторинг СМИ; морфологический анализ; автоматическая класси-фикация текстов; кластерный анализ; проблем ложной корреляции; проблемы неоднозначности языковых единиц; тематическая атрибуция текстов; расчет показателей охв

Полный текст:

PDF

Литература


Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М.: «АСТ-ПРЕСС», 2008. — 794 с.

Кузнецов С.А. Глагольное словоизменение и формообразование в современном русском языке: дис. … докт. фил. наук: 10.02.01. СПб., 2000. — 314 с.

Агеев М.С. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов: дис. ... канд. физ.-мат. наук: 05.13.11 / Московский гос. унив. — М., 2005. — 136 с.

Агеев М.С. УИС РОССИЯ в РОМИП'2007: поиск и классификация / М.С. Агеев, Б.В. Добров, П.В. Красильников, Н.В. Лукашевич, А.М. Павлов, А.В. Сидоров, С.В. Штернов // Российский семинар по оценке методов информационного поиска. Труды РОМИП 2007-2008: Семинар в рамках Всероссийской науч. конф. RCDL'2007. 18 окт. 2007 г., Переславль-Залесский. — СПб.: НУ ЦСИ, 2008. — С. 199-220.

Агеев М.С., Добров Б.В., Луцкашевич Н.В. Автоматическая рубрикация текстов: методы и проблемы // Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. Т. 150, кн. 4. — Казань: Казанский государственный университет, 2008.— С. 25-40

Антонов А.В. Галактика-Zoom на РОМИП'2009 / А.В. Антонов, С.Г. Баглей, В.С. Мешков, В.А. Стоян // Российский семинар по оценке методов информационного поиска. Труды РОМИП 2009. — СПб.: НУ ЦСИ, 2009. — 198 с.

Белов А.А., Волович М.М. Автоматическое распознавание тематики сверхкоротких текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007» (Бекасово, 30 мая - 3 июня 2007 г.) / Под ред. Л.Л. Иомдина, Н.И. Лауфер, А.С. Нариньяни, В.П. Селегея. — М.: Изд-во РГГУ, 2007. — С. 35-37.

Агеев М.С. Экспериментальные алгоритмы поиска/классификации и cравнение с "basic line" / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич, А.В. Сидоров // Российский семинар по оценке методов информационного поиска (РОМИП 2004): Семинар в рамках Всероссийской науч. конф. RCDL'2004. 1 окт. 2004 г. (Пущино, 2004). — СПб.: Изд-во НИИ химии СПбГУ, 2004. — С. 62-89.

Агеев М.С. УИС РОССИЯ в РОМИП 2008: поиск и классификация нормативных документов / М.С. Агеев, Б.В. Добров, Н.В. Лукашевич, С.В. Штернов // Российский семинар по оценке методов информационного поиска. Труды РОМИП 2007-2008: Семинар в рамках Всероссийской науч. конф. RCDL'2008. 9 окт. 2008 г., Дубна. — СПб.: НУ ЦСИ, 2008. — С. 44-58.

Васильев В.Г. Комплексная технология автоматической классификации текстов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). Вып. 7 (14). — М.: РГГУ, 2008. — С. 83-91.

Васильев, В.Г. Выделение фрагментов в текстах лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15). — М.: РГГУ, 2009. — С. 83-90.

Васильев, В.Г. Обучение классификаторов на основе выделения фрагментов // Компьютерная лингвистика и интеллектуальные технологии: По материалам еже-годной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). — М.: Изд-во РГГУ, 2010. — С. 62-70.

Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов на основе латентно-семантического анализа // Труды первой всероссийской научно-методической конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — СПб., 1999. — С. 89-96.

Лукашевич Н.В., Добров Б.В. Автоматическое аннотирование новостных кластеров на основе тематического представления // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15). — М.: РГГУ, 2009. — С. 299-305.

Поддубный В.В., Шевелев О.Г., Бормашов Д.А. Сравнение качества подходов к кластеризации текстов на основе гипергеометрического критерия // Вестник Томского государственного университета. 2006. № 293. — С. 120-125.


Ссылки

  • На текущий момент ссылки отсутствуют.