kurgus (kurgus) wrote,
kurgus
kurgus

Лексика научная и матерная: дрейф чего и куда?

Есть интуитивно ясные положения, которые иногда хочется проверить количественно.

Одно из таких положений - это то, что частотность обсценной лексики в корпусе текстов находится в обратном отношении с частотностью лексики научной. И что это отношение может быть индикатором неких процессов социума, генерирующего этот корпус.

Вообще-то это классическая задача корпусной лингвистики - диахронический частотный анализ.
Н
аиболее доступным орудем такого анализа является Google Ngram Viewer, работающий по корпусу оцифрованных изданий - именно печатных изданий, а не массиву постфольклорного интернет-нарратива.
Это важно: в процессе издания происходит отбор текстов и редакторские правки -
включая отбор приемлемых для публикации функциональных стилей и соответствующих им узусов/лексики. В свою очередь, эти правила отбора определяются набором представлений о социальной приемлемости, эстетике, полезности и т.д. и т.п.

Итак, эксперимент:
Язык - русский
Временной диапазон -
1900-2008
Лексемы - три единицы табуированной лексики, два химических и два физических термина
Сглаживание - 3

Вот результат:

Ну и как вам картина?
Я, честно говоря, ожидал нечто подобное, но не до такой же степени...

Есть, конечно, вопросы к составу корпуса - я не нашел информации у Google. Можно предположить, что в корпусе отношение научной литературы и периодики меняется во времени и с конца XX века доля периодики резко возросла... но с другой стороны, если ввести поправочные коэффициенты на тиражи, то картина окажется еще более мрачной.

Моралитэ этой картины? - это вопрос уже не к социологам, а не к лингвистам. Впрочем, оставаясь в рамках социолингвистики, можно сказать, что в конце XX века роль нормализатора языка перешла от одной к гораздо более другой социальной страте.

P.S. Оруэллиана, однако - 1984: "говно" добивается равноправия с "осцилляцией".
P.P.S. C другой стороны, если взять частотность "генитальной триады" мата, то в Ngram при сглаживании = 3 наблюдается любопытный феномен - пик в районе 2-й половины 90-х с некоторым спадом в 2000-е. Артефакт?
Tags: google, Национал-лингвистика
Subscribe

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments