Статистический и тематический профиль «Живого журнала»

Олеся Юрьевна Кольцова, Сергей Николаевич Кольцов


Цель этого исследования - выработка системы основных статистических показателей, характеризующих русскоязычную блогосферу с точки зрения задач исследований в области социологии, маркетинга, лингвистики и ряда других отраслей научного и практического знания, а также изучение основных взаимосвязей между ними. Необходимость сбора такой базовой статистики обусловлена ее отсутствием в публичном доступе – в отличие, например, от социо-демографических показателей населения, без которых не возможны социологические и маркетинговые исследования, или различных словарей русского языка, без которых были бы затруднены исследования в области языкознания.

В данном исследовании не ставится задача проверки конкретных гипотез и получения законченных содержательных результатов; вместо этого, исследуются возможности решения различных исследовательских задач с помощью ряда предлагаемых показателей и на основании знаний о связи между ними. Рассматриваются такие показатели, как дата и время поста, длина, тематика и комментируемость поста, строятся временные циклы активности блогеров и их тематические профили. Тематика постов извлекается методами автоматического тематического моделирования, применение которых в сочетании с анализом других данных представляет собой основную новизну работы.

A Statisical and Topical Portrait of Livejournal

The purpose of this work is to explore the basic statistical properties of the Russian blogosphere for the goals of their future application in sociology, marketing, linguistics and other fields of scientific and practical knowledge. The need for such descriptive statistics is driven by its being unavailable in the public domain – unlike socio-demographic properties of population widely used in sociological and marketing research, or various Russian language dictionaries and lexicons facilitating linguistic research. This explorative study does not aim at hypotheses testing; instead, it sketches possible solutions for various research tasks basing them on the knowledge about relations between the properties under scrutiny.

The paper considers relations between posts’ dates, lengths, topic composition, number of comments and some others; it also makes sense of cycles of bloggers’ activity and builds their thematic profiles. Thematic structure is extracted with automatic topic modeling, which, combined with the analysis of other variables, presents the main novelty of the paper.

