kurgus (kurgus) wrote,
kurgus
kurgus

Проблемы автостроительства онтологий, таксономий и гипо/гиперонимий

Тяжела и неказиста
Жизнь простого комплингвиста...
(Народное)
Не меньшую проблему вызывает поиск информации в нормативных документах типа ГОСТов. Это обусловлено, в частности, тем, что в таких документах принципиально иной принцип классификации предметов. Так, галоши, которые в словаре бытовой терминологии попадают в категорию ОБУВЬ, в ГОСТе следует искать в разделе "резиновые изделия".
(Имодин, Б. «Словарь бытовой терминологии: новые проблемы и новые методы». В Компьютерная лингвистика и интеллектуальные технологии, 1:213. Бекасово, 2012.)

Ну да, у "галош" здесь два гиперонима.
А заглянули бы в бухнормативы, нашли бы и третий - "малоценные и быстроизнашиваемые предметы". Et cetera.

Патамушта сначала надо строить таксономию предметных контекстов, извлекать лексические и прочие маркеры и разбрасывать тексты по корпусам, а потом уже парсеры рисовать-напускать.

P.S. И это толоько лексикографическое.
Воспоем же народно нормализацию потока лексем:
С полки книжечка упала
И убила братика.
До чего ж ты нелегка -
Русская грамматика...
Tags: it, Национал-лингвистика, Работа
Subscribe

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 3 comments