kurgus (kurgus) wrote,
kurgus
kurgus

Brute force attack на языковую сложность

В последнее время, с нулевых годов, в теорлингвистике обсуждается такая не вполне определимая штука, как языковая сложность (language complexity).
То есть в порядке эволюции статлингвистики в лингвистику квантитивную классическое положение, что все естественные языки одинаково сложны, было поставлено под сомнение и идут публикации и дискуссии на сию тему.

Об определении критериев сложности продолжают спорить - от числа правил (на уровнях фонетическом, морфологическом и синтаксическом + иррегулярность, т.е. отклонения от них) и попыток оценить сложность выражения  семантики до выбора неких маркеров сложности - от максимально запутанных сложных глагольных форм до алогичности числительных.

Мне, как киберэкстремисту, импонирует ultimo ratio regum - колмогоровская сложность, т.е. минимальная длина полного описания языка. Тем более, что она невычислима :)

Впрочем, вычислимость/трудоемкость - проблема всех подходов к языковой сложности (маркеры сложности - от лени стремления ее понизить) - надо сначала вручную сформировать свод правил, затем (полу)вручную посчитать, прогнав по корпусу текстов...

И здесь замечательную штуку провернул Патрик Юола.
Есть чудесный алгоритм сжатия LZW (Lempel-Ziv-Welch). Который делает что? - правильно, краткие описания длинных текстов. То есть неидеально делает то же, что и идеальный, но несуществующий "колмогоровский" алгоритм.
Что вполне достаточно для квантлингвистических нужд :)
Чтобы не заморачиваться с описанием языков Юола взял текст, имеющийся на различных языках - Библию.
Есть здесь, правда, еще такая проблема, как различная средняя длина лексем в различных языках (например, cow/корова = 3/6).
И здесь Юола провернул еще один замечательный фокус: он заменял словоформы на случайные числа и мерял коэффициент сжатия такого модифицированного текста, после чего сравнивал коэффициенты сжатия исходного (R) и модифицированого (C).
Зачем? - а потому что словоформы в языках с простой и ясной морфологией вроде аналитических с малым числом флексий или агглютинативных (тюркские, армянский, ...) дают хорошие регулярные повторы (последние - на уровне иерархического приклеивания аффиксов к основе) - и, соответственно, лучше сжимаются. В отличие от глючных морфологически иррегулярных языков. А

Вот что у него получилось:
Язык                  R/C
Маори                 0,895
Английский         0,972
Нидерландский  0,994
Французский      1,01
Русский              1,04
Финский             1,12

Что интуитивно предсказуемо - сколько, к примеру, падежей у синтетических финского и русского? - 14 и 6 соответственно. А у аналитического английского? - два.

Традиционный вопрос - раз проранжировали языки, то кто победил? В смысле сложность языка - это предмет гордости или как?

Аллах его знает. Юола измерил морфологическую сложность, оставив синтаксическую и фонологическую за бортом.
Но в ходе оценок сложности различных подсистем языков появилась гипотеза о компенсаторности - простота одной из подсистем компенсируется сложностью другой - например, чем сложнее морфология, тем проще синтаксис.
Так что в итоге наметилось возвращение к классическому положение об одинаковой сложности языков - при различной структуре сложности.

И немного отсебятины по поводу этого возврата: Виктор Ингве в 1961 сформулировал гипотезу глубины - что максимальная синтаксическая сложность конструкции в английской речи (и, соответственно, языка) обусловлена аппаратными нейрофизиологическими ограничениями - объемом "оперативной" кратковременной памяти. Что, в принципе, может быть физиологической причиной компенсаторности и одинаковой сложности языков.

В порядке легкого троллинга упражнений в национал-лингвистике: Хаймз в 1973 отметил, что усложнение языков совпадает с "укреплением границ", усилению роли языка в качестве маркера идентичности и прочим симптомам закукливания. Причем в таких изолированных обществах с их усложняющимися языками типичен монолингвизм - и символическая функция языка (демонстрация принадлежности к той или иной группе) приоритетна над коммуникативной.
Сравниваем в этом свете названия Симферополского университета при Украине (1) и при России (2):
1. Таврический национальный университет (ТНУ)
2. Федеральное государственное автономное образовательное учреждение высшего образования Крымский федеральный университет (ФГАОУ ВО КФУ)

P.S. Рекомендуемое чтиво - обзор А. Бердичевский. Языковая сложность (language complexity). Вопросы языкознания, № 5, 2012
Tags: it, Лингвистика, Научпоп
Subscribe

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 1 comment