Сохранение сайтов раннего интернета для междисциплинарных исследований на примере сайтов хостинга «Narod.ru» (2000–2013)

Анна Сергеевна Козлова, Ильяс Васифович Асланов, Иван Владимирович Бибилов, Евгений Вячеславович Котельников

Аннотация


Статья об исследовании сохранения и изучения сайтов хостинга «Narod.ru», активно функционировавшего в 2000–2013 гг. Авторы рассматривают сайты хостинга как исчезающие объекты цифрового наследия, сохранение и анализ которых может быть интересен экспертам разных предметных областей, в особенности культурологам и исследователям цифрового фольклора раннего интернета.
Данное исследование проводилось на случайно сформированной выборке в 10 тыс. сайтов из 600 тыс. сайтов хостинга. Для полученной выборки были сохранены скриншоты главных страниц и более 400 тыс. страниц сайтов в формате HTML. В дополнение сохранили более 2 млн отдельных файлов изображений документов, презентаций и таблиц, размещенных на сайтах выборки, и метаинформацию данных файлов. Эти данные собраны в проиндексированную базу с полнотекстовым поиском.
Авторы провели анализ собранных данных. Одним из направлений стало изучение языкового разнообразия сайтов хостинга, в ходе которого помимо русскоязычных были определены сайты на английском, украинском, сербском, болгарском, узбекском и других языках.
Важная часть работы — тематическое моделирование, которое позволило выделить тематические кластеры. «Narod.ru» содержал ресурсы различной направленности: сайты образовательных учреждений, о спорте, видеоиграх, животных. Тематическое моделирование определило наиболее популярные сайты на хостинге.
В статье приведены перспективы развития исследования и сделана оценка ограничений данных, в том числе связанных с этическими и правовыми аспектами, которые на данный момент могут являться препятствием для предоставления открытого доступа к данным.

Ключевые слова


ранний интернет; архивирование веб-сайтов; цифровое наследие; анализ данных; narod.ru; BERTopic; большие языковые модели

Полный текст:

PDF


DOI: https://doi.org/10.17586/3033-5574-2025-9-79-91

Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2025 Информационное общество: образование, наука, культура и технологии будущего

Лицензия Creative Commons
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial» («Атрибуция — Некоммерческое использование») 4.0 Всемирная.