Статистический и тематический профиль «Живого журнала»

Олеся Юрьевна Кольцова, Сергей Николаевич Кольцов

Аннотация


Цель этого исследования - выработка системы основных статистических показателей, характеризующих русскоязычную блогосферу с точки зрения задач исследований в области социологии, маркетинга, лингвистики и ряда других отраслей научного и практического знания, а также изучение основных взаимосвязей между ними. Необходимость сбора такой базовой статистики обусловлена ее отсутствием в публичном доступе – в отличие, например, от социо-демографических показателей населения, без которых не возможны социологические и маркетинговые исследования, или различных словарей русского языка, без которых были бы затруднены исследования в области языкознания.

В данном исследовании не ставится задача проверки конкретных гипотез и получения законченных содержательных результатов; вместо этого, исследуются возможности решения различных исследовательских задач с помощью ряда предлагаемых показателей и на основании знаний о связи между ними. Рассматриваются такие показатели, как дата и время поста, длина, тематика и комментируемость поста, строятся временные циклы активности блогеров и их тематические профили. Тематика постов извлекается методами автоматического тематического моделирования, применение которых в сочетании с анализом других данных представляет собой основную новизну работы.

A Statisical and Topical Portrait of Livejournal

The purpose of this work is to explore the basic statistical properties of the Russian blogosphere for the goals of their future application in sociology, marketing, linguistics and other fields of scientific and practical knowledge. The need for such descriptive statistics is driven by its being unavailable in the public domain – unlike socio-demographic properties of population widely used in sociological and marketing research, or various Russian language dictionaries and lexicons facilitating linguistic research. This explorative study does not aim at hypotheses testing; instead, it sketches possible solutions for various research tasks basing them on the knowledge about relations between the properties under scrutiny.

The paper considers relations between posts’ dates, lengths, topic composition, number of comments and some others; it also makes sense of cycles of bloggers’ activity and builds their thematic profiles. Thematic structure is extracted with automatic topic modeling, which, combined with the analysis of other variables, presents the main novelty of the paper.


Полный текст:

PDF

Литература


Andrieu C., Freitas N.D., Doucet A., Jordan M. An introduction to MCMC for machine learning. Journal of Machine Learning. // Machine Learning/ 2003. Vol. 50, № 1. P. 5–43.

Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Vol. 3. P. 993–1022.

Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Journal of Frontiers of Computer Science in China (FCS). 2010. Vol. 4, № 2. P. 280-301.

Golder S.A., Wilkinson D.M., Hubennan B.A. Rhythms of Social Interaction: Messaging Within a Massive Online Network // Communities and Technologies, Conference Proceedings. 2007. P.

-66.

Griffiths T.L., Steyvers M. Finding scientific topics // Proceedings of the National Academy of Sciences, 2004. № 101. P. 5228–5235.

Jamali S., Rangwala H. Digging Digg: Comment Mining, Popularity Prediction, and Social Network Analysis // International Conference on Web Information Systems and Mining, Conference Proceedings. 2009. P. 32-38.

Koltsova O., Koltcov S. Mapping the Public Agenda with Topic Modeling: The Case of the Russian LiveJournal // Policy & Internet. 2013.Vol. 5, № 2. P. 70-89

Koltsova O., Koltcov S. Comment-based communities in the Russian Livejournal and their topical coherence // XXXIII Sunbelt Social Networks Conference of the International Network for Social

Network Analysis (INSNA), 21-26 May 2013. Hamburg, Germany.

Li B., Xu Sh., Zhang J. Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments // ACM-SE 45 Proceedings of the 45th annual southeast regional conference. 2007. P. 94-99.

Maslinsky K., Koltsova O., Koltcov S. Changes in the Topical Structure of Russian Language Livejournal: The Impact of Elections 2011 / Серия препринтов «Sociology», НИУ ВШЭ, 01/2013. - 21 с. URL: http://publications.hse.ru/preprints/72804584

Ramage D., Dumais S., Liebling D. Characterising Microblogs with Topic Models // ICWSM 2010. Association for the Advancement of Artificial Intelligence, Conference Proceedings, 2010. URL: http://www.stanford.edu/dramage/papers/twittericwsm10.pdf (дата обращения: 19.04.2012).

Ramage D., Rosen E., Chuang J., Manning C.D., McFarland D.A. Topic Modeling for the Social Sciences. // Workshop on Applications for Topic Models. NIPS, 2009. URL: http://vis.stanford.edu/files/2009-TopicModels-NIPS-Workshop.pdf.

Steyvers M., Griffiths T. Probabilistic Topic Models // Handbook of Latent Semantic Analysis / Landauer T., McNamara D., Dennis S, Kintsch W. (eds). Hillsdale, NJ. 2007.

Tsagkias M., Weerkamp W., de Rijke M. News Comments: Exploring, Modeling, and Online Prediction // Advances in Information Retrieval. Lecture Notes in Computer Science, 2010. Vol. 5993, 201. P. 191-203.


Ссылки

  • На текущий момент ссылки отсутствуют.