ВВЕДЕНИЕ

 

Формальное представление языковых явлений имеет большое практическое значение для  создания автоматических переводчиков, поисковых систем,  систем автоматической коррекции текстов (спеллеров). Предлагаемая алгоритмическая грамматика словоизменений башкирского языка строилась для разработки спеллера башкирского языка.

Обзор существующих работ по лингвистической теории спеллеров показывает, что существуют ряд различающихся концептуальных подходов.

Полиграммный подход. В данном подходе используется избыточность текста на уровне графем, запрещающий существование с точки зрения графической системы языка сочетания букв. Обычно используются цепочки длиной в два или три символа: биграммы и триграммы [Peterson, Vossler, Carlson, Zamorra, Моторин]. Для работы составляют списки разрешенных сочетаний букв, поскольку количество разрешенных полиграмм значительно меньше количества запрещенных. Если в тестовм слове встречаются запрещенные полиграммы, то слово считается ошибочным, предлагается замена согласно полиграмме. Так для русского языка количесвто разрешенных биграмм составляет порядка 400-600 единиц, количесвто триграмм — 3-6 тыс. [Партыко]. Эффективность полиграммного метода составляет порядка 30-40% [Партыко, Zamorra].

Словарный подход. В данном подходе в тексте выделяются словоформы, которые сравниваются со списком правильных словоформ для данного языка. Если слова могут быть обнаружены в словаре, то они считаются правильными. Данный метод предполагает наличия очень большого списка всевозможных словоформ.

Порождающий подход. При этом подходе также обязателен в наличии словарь языка, но не в виде словаря словоформ, а в виде меньшего по объему словаря основ. Основы из данного словаря порождают все возможные словоформы языка, которые сравниваются с текстовыми словами. Для получения всевозможных словоформ языка необходимы таблицы окончаний и алгоритм порождения.

Процесс автоматического порождения  словоформ из основ требует формализации морфологической системы языка, построения сложной модели словоизмения.

В прикладной лингвистике имеется достаточный опыт формализованного описания и моделирования морфологии естественных языков в виде работ таких ученых как Н.Хомский, С.Маркус, А.В.Гладкий, В.Ингве, Г.Г.Белоногов, Т.Виноград, Р.Г.Котов, Р.Г.Пиотровский, И.Н.Ревзин, Р.Шенк, Ю.П.Шабанов-Кушнаренко, А.А.Ляпунов, В.А.Вудс и др

Среди формальных аппаратов моделирования языка видное место занимают порождающие грамматики, которые устанавливают правила получения единиц языка из конечного набора основных структур с помощью специальных правил преобразований. В частности Н.Хомским была предложена трансформационная грамматика (исчисление f высказываний или грамматика Хомского). Данная модель, представляет в основном теоретический интерес, является сложным для практической реализации в естественных языках.

В качестве моделей грамматики естественного языка были использованы конечные графы переходов, рекурсивные сети переходов, сетевые грамматики [Вудс.В.А]. Эти грамматики более просты в реализации, чем порождающие грамматики, но они также обладают рядом недостатков: ориентированы в основном для анализа текста, в режиме же синтеза нуждают в значительной перестройке.

Для передачи смысловых связей между элементами языка предложены семантические сети, в которых вершины представляют элементы языка, а дуги — бинарные отношения между ними [Поспелов].

Ю.П.Шабановым-Кушнаренко  было предложено математическое моделирование с использованеим алгебры конечных предикатов. Данный подход активно продвигался в 80-х годах прошлого века, но ввиду сложности самого математического аппарата, сегодня практически не используется.

Для моделирования словообразования русского языка Соболевой П.А. предложен искусственный реляторный язык аппликативной модели. Аппликативная порождающая модель относится к категории абстрактных деривационных систем, в основе которых лежит ограниченное число исходных объектов и правила деривации производных объектов.

Рядом исследователей были предложены модели языка на базе теоретико-множественного аппарата [Маркус, Ревзин]. Учитывая размытость языковых явлений, предлагался и аппарат нечетких множеств [Zadeh].

Предлагались вероятностные модели, модели на основе логических исчеслений [Налимов В.В., Осыка].

Практический интерес представляют работы в которых моделерование языковых явлений базируется на аппарате теории алгоритмов. [Бузницкая, Белоногов].

Здесь следует особо остановиться на модели многоступенчатого морфологического анализа Г.Г.Белоногова. В этой модели морфологический анализ и синтез производятся с помощью словаря основ и вспомогательных таблиц. Каждой основе ставится в соответствие сочетание кода словоизменительного класса и кода флективного класса. Данная модель явилась прототипом для многих моделей, нашедших практическое применение в реализации спеллеров русского языка.

Как показывает приведенный обзор литературы, порождающая модель является наиболее часто применяемой и переспективной в разработке автоматизированных систем орфографической проверки текстов. Однако отсутсвие формализованного изложения морфологической системы башкирского языка является главным барьером для программистов и лингвистов в деле разработки таких систем для данного языка.

 

Переход на оглавление