October 21st, 2011

Flammable

US National Academies Press раздает книги

National Academies Press (объединенное издательство Академий наук США) раздает в pdf-ах издаваемые книги - весьма неплохие, следует отметить: в их policy написано: PDF files are available free to developing countries.

Ниже - одна из весьма достойных, где по полочкам расписывается, как работает наука и как она получает достоверные данные - как в общем, так и в некоторых предметных областях (за бумажный вариант просят $79.95 Ж8-)   )




P.S. Одна из глав в этой книге - David Goodstein, How Science works, где есть весьма любопытный раздел Some Myths and Facts About Science, стр. 47-50.
Для тех, кто слишком занят, чтобы скачивать книгу полностью, выкладываю этот раздел.

Collapse )
San Lucifero 13

Лексика научная и матерная: дрейф чего и куда?

Есть интуитивно ясные положения, которые иногда хочется проверить количественно.

Одно из таких положений - это то, что частотность обсценной лексики в корпусе текстов находится в обратном отношении с частотностью лексики научной. И что это отношение может быть индикатором неких процессов социума, генерирующего этот корпус.

Вообще-то это классическая задача корпусной лингвистики - диахронический частотный анализ.
Н
аиболее доступным орудем такого анализа является Google Ngram Viewer, работающий по корпусу оцифрованных изданий - именно печатных изданий, а не массиву постфольклорного интернет-нарратива.
Это важно: в процессе издания происходит отбор текстов и редакторские правки -
включая отбор приемлемых для публикации функциональных стилей и соответствующих им узусов/лексики. В свою очередь, эти правила отбора определяются набором представлений о социальной приемлемости, эстетике, полезности и т.д. и т.п.

Итак, эксперимент:
Язык - русский
Временной диапазон -
1900-2008
Лексемы - три единицы табуированной лексики, два химических и два физических термина
Сглаживание - 3

Вот результат:

Ну и как вам картина?
Я, честно говоря, ожидал нечто подобное, но не до такой же степени...

Есть, конечно, вопросы к составу корпуса - я не нашел информации у Google. Можно предположить, что в корпусе отношение научной литературы и периодики меняется во времени и с конца XX века доля периодики резко возросла... но с другой стороны, если ввести поправочные коэффициенты на тиражи, то картина окажется еще более мрачной.

Моралитэ этой картины? - это вопрос уже не к социологам, а не к лингвистам. Впрочем, оставаясь в рамках социолингвистики, можно сказать, что в конце XX века роль нормализатора языка перешла от одной к гораздо более другой социальной страте.

P.S. Оруэллиана, однако - 1984: "говно" добивается равноправия с "осцилляцией".
P.P.S. C другой стороны, если взять частотность "генитальной триады" мата, то в Ngram при сглаживании = 3 наблюдается любопытный феномен - пик в районе 2-й половины 90-х с некоторым спадом в 2000-е. Артефакт?