Обзор больших русскоязычных корпусов текстов

Мария Владимировна Хохлова

Аннотация


В последнее время появляется все больше корпусов текстов, создаваемых автоматическими методами и отличающихся от традиционных текстовых коллекций как по объему, так и по содержанию. В статье дается обзор корпусов русского языка RuTenTen, Генерального корпуса русского языка, проекта Aranea, а также обсуждаются вопросы, связанные с построением подобных корпусов.

Ключевые слова


корпусы текстов; Интернет-корпусы; НКРЯ; RuTenTen; RussianWeb корпус; большие данные

Полный текст:

PDF

Ссылки

  • На текущий момент ссылки отсутствуют.