Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA

С. Н. Кольцов, О. Ю. Кольцова, О. А. Митрофанова, А. С. Шиморина

Аннотация


Данная статья отражает результаты экспериментов по моделированию тематики корпуса текстов Живого Журнала (ЖЖ) Livejournal.ru с помощью программного комплекса TopicMiner, основанного на алгоритме LDA (Latent Dirichlet Allocation). Экспериментальные данные позволяют определить содержательное наполнение тем, отраженных в записях пользователей ЖЖ, и описать основные типы семантических связей слов внутри тем. Исследовательский материал допускает интерпретацию с позиций теории лексических функций, фреймовой семантики и грамматики конструкций. Полученные результаты позволяют судить о динамике языкового сознания русскоязычных пользователей социальных сетей.


Ключевые слова


автоматическая обработка текстов; корпуса текстов; социальные сети; Живой журнал; тематическая модель; латентное размещение Дирихле; семантические связи; русский язык

Полный текст:

PDF

Литература


Леонтьева Н.Н. Автоматическое понимание текстов: Системы, модели, ресурсы. М., 2006.

Bodrunova S., Koltsov S., Koltsova O., Nikolenko S.I., Shimorina A. Interval SemiSupervised LDA: Classifying Needles in a Haystack // 12th Mexican International Conference, MICAI 2013, Mexico City, Mexico, November 24–30, 2013, Proceedings, Part I: Advances in Artificial Intelligence and Its Applications. LNCS, LNAI. Vol. 8265.

Koltsova O., Maslinsky K., Koltsov S. Protests, Elections and Their Contributions to the Topical Structure of the Russian Blogosphere: a «Big Data Approach» // Internet, Politics, Policy 2012: Big data, Big Challenges?, Oxford Internet University 20–21 September 2012. – http://www.hse.ru/data/2012/12/19/1303704698/2.pdf (дата обращения: 15.10.2014)

Anaya L.A. Comparing Latent Dirichlet Allocation and Latent Semantic Analysis as Classifiers. University of North Texas, 2011. – http://digital.library.unt.edu/ark:/67531/metadc103284/ (дата обращения: 15.10.2014)

Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research 3 (4–5), January 2003.

Daud A., Li J., Zhou L., Muhammad F. Knowledge Discovery through Directed Probabilistic Topic Models: a Survey // Proceedings of Frontiers of Computer Science in China. 2010.

Lee S., Song J., Kim Y. An Empirical Comparison of Four Text Mining Methods // 43rd Hawaii International Conference on System Sciences HICSS 2010.

Воронцов К.В., Потапенко А.А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Т. 4. № 4.

Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке // Труды ИСП РАН. М., 2012.

Topic Modelling Bibliography. –http://www.cs.princeton.edu/~mimno/topics.html

Baroni M., Bernardi R., Zamparelli R. Frege in space: A program for compositional distributional semantics. Linguistic Issues in Language Technologies. [To appear]

Mitchell J., Lapata M. Composition in Distributional Models of Semantics. Cognitive Science, 34:8, 2010.

Rohde D.L.T., Gonnerman L.M., Plaut D.C. An Improved Model of Semantic Similarity Based on Lexical Co-Occurrence. 2005. – http://tedlab.mit.edu/~dr/Papers/RohdeGonnermanPlautCOALS.pdf (дата обращения: 15.10.2014)

Sahlgren M. The Word-Space Model: Using Distributional Analysis to Represent Syntagmatic and Paradigmatic Relations between Words in High-Dimensional Vector Spaces. Ph.D. dissertation, Department of Linguistics, Stockholm University. 2006. – http://www.sics.se/~mange/TheWordSpaceModel.pdf (дата обращения: 15.10.2014)

Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // MLMTA–2003. – http://download.yandex.ru/company/iseglas-vegas.pdf (дата обращения: 15.10.2014)

Словарь структурных слов русского языка / Под ред. В.В. Морковкина. М., 1997.

Griffiths T., Steyvers M. Finding Scientific Topics // Proceedings of the National Academy of Sciences. Vol. 101. 2004.

Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». М., 1974 / 1999.

Мельчук И.А., Жолковский А.К. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена, 1984 (ТКС).

Quillian M.R. Semantic memory // Semantic Information Processing. MIT Press, Cambridge, Massachusetts, 1968.

Sowa J.F. Knowledge Representation: Logical, Philosophical, and Computational Foundations. Brooks Cole Publishing Co., Pacific Grove, CA, 2000.

Азарова И.В. Использование сетевых представлений лингвистических данных при автоматической обработке текста. Дис. ... канд. филол. наук. Л., 1989.

Минский М. Фреймы для представления знаний. М., 1979.

Филлмор Ч. Фреймы и семантика понимания // Новое в зарубежной лингвистике. Вып. XII. Когнитивные аспекты языка. М., 1988.

Цейтин Г.С. Программирование на ассоциативных сетях // ЭВМ в проектировании и производстве. Л., 1985.

Fillmore Ch.J. The Mechanisms of Construction Grammar // Proceedings of the Berkeley Linguistic Society. Vol. 14. 1988.

Лингвистика конструкций / Под ред. Рахилиной Е.В. М., 2010.

Lyashevskaya O., Mitrofanova O., Grachkova M., Romanov S., Shimorina A., Shurygina A. Automatic Word Sense Disambiguation and Construction Identification Based on Corpus Multilevel Annotation / // Text, Speech and Dialogue. Proceedings of the 14th International Conference TSD 2011, Pilsen, Czech Republic, September 1 – 5, 2011. Berlin; Heidelberg, 2011.

Митрофанова О.А., Ляшевская О.Н., Грачкова М.А., Шиморина А.С., Шурыгина А.С., Романов С.В. Эксперименты по автоматическому разрешению лексико-семантической неоднозначности и выделению конструкций (на материале Национального корпуса русского языка) // Структурная и прикладная лингвистика. Вып. 9. СПб., 2012.

Караулов Ю.Н., Черкасова Г.А., Уфимцева Н.В., Сорокин Ю.А., Тарасов Е.Ф. Русский ассоциативный словарь. Т.1–2. М., 2002 (РАС).

Уфимцева Н.В. Этнический характер, образ себя и языковое сознание русских // Языковое сознание: формирование и функционирование. М., 1998.

Уфимцева Н.В. Ядро языкового сознания русских (по данным массовых ассоциативных экспериментов) // Корпусная лингвистика и лингвистические базы данных. СПб., 2002.

Программные реализации LDA http://code.google.com/p/topic-modeling-tool/ http://cran.rproject.org/web/packages/lda/index.html http://cran.rproject.org/web/packages/topicmodels/index.html http://mallet.cs.umass.edu/index.php http://nlp.stanford.edu/software/tmt/tmt-0.4/ http://radimrehurek.com/gensim/intro.html https://cwiki.apache.org/confluence/display/MAH OUT/Latent+Dirichlet+Allocation (дата обращения:15.10.2014)


Ссылки

  • На текущий момент ссылки отсутствуют.