Личная страничка участника    

Фамилия       N участника          

Занимательная лингвистика
Вопрос Светозара

 


   Русский язык и Интернет

«Светозар» открывает новую рубрику, благодаря которой вы познакомитесь с самыми востребованными и полезными интернет-ресурсами, помогающими в изучении русского языка. Ведущая рубрики – кандидат филологических наук Наталья Александровна Светлова (г. Москва).

Первая лекция посвящена Национальному корпусу русского языка – уникальному мегапроекту, содержащему миллионы слов и текстов.

Знакомьтесь: Национальный корпус русского языка

Слово корпус вам, конечно, хорошо знакомо. Корпус человек наклоняет или поворачивает (ср.: лат. corpus – тело). Корпус есть у самолёта, корабля, скрипки. Корпуса бывают заводские, гвардейские, кадетские... А вот лингвисты чаще всего говорят о корпусе текстов, то есть их совокупности, массиве, одного какого-нибудь писателя, или нескольких, или языка в целом.

Именно в этом значении употребляется слово корпус в составном названии Национальный корпус русского языка. «Национальный» – значит самый большой, вбирающий огромное количество текстов данного языка. Объём русского Корпуса – свыше 500 млн слов. Это в 2500 раз больше, чем в четырёхтомном словаре Даля, – несколько книжных шкафов, битком набитых книгами! Прямо скажем, немаленькая библиотека.

Говоря об объёме Корпуса, обязательно нужно указывать дату обращения, потому что онлайн-хранилище постоянно расширяется. В одной из моих статей, написанной десять лет назад, я упоминала, что НКРЯ содержит 100 млн слов, в статье трёхлетней давности – более 300 млн. Сегодня это число увеличено до полумиллиарда. Но дело, конечно, не только в объёме. Дело в тех возможностях, которые  редоставляет Нацкорпус. О них и пойдёт речь. Но вначале запомните интернет-адрес сайта: http://www.ruscorpora.ru/, существующего при поддержке Яндекса, и познакомьтесь с инструкцией «Как пользоваться Корпусом» (http://ruscorpora.ru/instruction-main.pdf). Это облегчит дальнейшую работу.

Как в любой хорошей библиотеке, в Национальном корпусе русского языка можно найти всё: не только тексты художественной литературы, но и публицистику, мемуары, научные и деловые документы, записи устной речи и даже образцы электронной коммуникации (чаты, блоги, форумы...). Если первые пять источников достаточно привычны, с ними лингвисты имеют дело постоянно, то обычная устная речь стала предметом внимания специалистов не так давно, с 60-х годов прошлого века, а переписка в чате или «по мейлу» – только в последние полтора десятилетия. То же и в школьном обучении. Попробуйте сказать учителю, что такие-то примеры вы нашли «ВКонтакте». В ответ: «Ни-ни! "ВКонтакте" нельзя, только из Пушкина или Толстого». А всё потому, что школьная лингвистика имеет дело с нормативным языком, то есть таким, который описан в грамматиках и словарях. Корпус же, говорят учёные, ориентируется не только на норму, но и на узус. Запомним этот термин. Узусом (от лат. usus – применение, обычай, правило) называется общепринятое для носителей данного языка употребление языковых единиц. Узус – это то, как мы обычно говорим и пишем. А говорим мы не только в соответствии с нормой (нет чулок, носков), но и допуская грамматические («чулков», «носок») и всякие иные ошибки. Русский Нацкорпус, как, впрочем, и любой другой (из самых известных назову английский и чешский) отражает то, что в языке есть на самом деле. А уж дело лингвистов – просеивать речь, отделять зёрна от плевел (узнайте, что означает этот фразеологизм и каково его происхождение).

Национальный корпус русского языка – гигантская мегасистема, состоящая из нескольких подкорпусов. Названия: основной, газетный, поэтический, диалектный, акцентологический, мультимедийный, обучающий – говорят сами за себя. Участникам Олимпиады, кроме основного, я советую почаще обращаться к параллельному корпусу. В нём можно найти переводы слов и словосочетаний на русский язык или с русского языка. С каких именно – выясните сами.

Чем ещё может быть полезен Нацкорпус? Мгновенной информацией практически о любом слове, о его употреблении, морфологических и семантических признаках. В этом, пожалуй, его главное назначение и главное преимущество.

Простой пример: учитель даёт задание придумать предложения со словом подлинный (с двумя Н!) или выписать их из каких-нибудь произведений. Если «забить» это прилагательное в окно «Поиск в корпусе», то через несколько секунд вы станете обладателем ни много ни мало 842 документов (дата обращения – 01.08.15). Пролистав несколько страниц, нетрудно выбрать из этого богатства что-нибудь подходящее и сразить учителя наповал своей эрудицией и работоспособностью. (Впрочем, никому не советую выдавать результат деятельности тысячи составителей мегапроекта за свой собственный. Во сто крат лучше сослаться на Нацкорпус и рассказать, как вы добились такого блестящего результата. Проверено: действует неотразимо.) Не хотите иметь дело со всеми 842 документами, создайте подкорпус художественной литературы и работайте только с ним. Я, например, для составления упражнений задала подкорпус «Детская литература» и выбрала из него множество интереснейших примеров. Приведу два: Зато у преследователей глаза горели яростным огнём, щёки пылали нервным румянцем людей, которые имели право на подлинный гнев. [В.К. Железников. Чучело (1981)]; Но если вы боитесь вслух произнести подлинное имя Джироламо, напишите его клювом на песке. [В.А. Каверин. Верлиока (1981)].

Оказавшись в бесценных кладовых Национального корпуса, можно быстро и легко получить ответ на такой, к примеру, вопрос: «Ка- кую обувь носили литературные герои?». Один мой ученик написал в сочинении: «Диван, халат и тапочки – неотъемлемые спутники обломовского существования». Точно знаю, что Обломов не носил тапочек. Доказать это нетрудно: нужно «всего лишь» часа три полистать роман, а затем процитировать нужные места. Ещё проще сделать это, имея дело с электронным текстом: нажимаешь клавиши Ctrl + F, вбиваешь в «Поиск» поочередно тапочки, тапки – результат: 0 слов. Задаёшь туфли – компьютер выдаёт 5 словоупотреблений. Ответ готов: герой И.А. Гончарова носил не банальные тапочки, а благородные домашние туфли. Но вот на следующий «детский вопрос»: «Кто ещё из литературных героев позапрошлого века носил туфли и халат?» – без помощи Корпуса ответить практически невозможно. А с ним ответ вы получите за несколько минут. Предлагаю проверить самостоятельно, задав подкорпус «Художественные тексты» и ограничив их, скажем, периодом 50–80-е годы XIX века (именно в это время были написаны главные русские романы).

В заключение – несколько заданий, которые вы будете выполнять вместе с Нацкорпусом (см. конкурс «Я – исследователь»).

Как видим, Национальный корпус русского языка позволяет решать самые разные задачи. Но для начала нужно просто подружиться с ним, взять за правило  обращаться к нему при выполнении домашних заданий, исследовательских проектов, дистантных туров нашей Олимпиады, отвечая на «Вопросы Светозара». Попробуйте – не пожалеете!

Другие статьи раздела "Русский язык и Интернет"

© 2004 МИМЦ "Русская филология"  
e-mail: info@svetozar.ru

Москва-соотечественникам | Олимпиада | Занимательная лингвистика | Словарь юного филолога | Учебник Светозара
Вопрос Светозара | Золотое перо | Письма Светозару | Гостевая книга