Библиотека сайта
Статьи и книги
Документы
Лирика
Полезные ссылки
Студентам и аспирантам
Внимание, розыск!
Гостевая книга
Форум
Блог
DokuWiki
AntiSysWiki

Поиск по сайту:


Режим: "И" "ИЛИ"
Общий поиск по сайту, вики-разделам и форуму:
Гугель-поиск:
Locations of visitors to this page
free counters

Замечание об авторских правах. На представленный ниже текст распространяется действие Закона РФ N 5351-I "Об авторском праве и смежных правах" (с изменениями и дополнениями на текущий момент). Удаление размещённых на этой странице знаков охраны авторских прав либо замещение их иными при копировании данного текста и последующем его воспроизведении в электронных сетях является грубейшим нарушением статьи 9 упомянутого Федерального Закона. Использование данного текста в качестве содержательного контента при изготовлении разного рода печатной продукции (антологий, альманахов, хрестоматий и пр.), подготовке документов, текстов речей и выступлений, использование в аудиовизуальных произведениях без указания источника его происхождения (то есть данного сайта) является грубейшим нарушением статьи 11 упомянутого Федерального Закона РФ. Напоминаем, что раздел V упомянутого Федерального Закона, а также действующее гражданское, административное и уголовное законодательство Российской Федерации предоставляют авторам широкие возможности как по преследованию плагиаторов, так и по защите своих имущественных интересов, в том числе позволяют добиваться, помимо наложения предусмотренного законом наказания, также получения с ответчиков компенсации, возмещения морального вреда и упущенной выгоды на протяжении 70 лет с момента возникновения их авторского права.

Добросовестное некоммерческое использование данного текста без согласия или уведомления автора предполагает наличие ссылки на источник его происхождения (данный сайт), для коммерческого использования в любой форме необходимо прямое и явно выраженное согласие автора.

© П.М.Корявцев, 2010 г.

© "Теория антисистем. Источники и документы", 2010 г.

 

 

Корявцев П.М.

 

О математическом критерии лексической несхожести языков

//Корявцев П.М. О математическом критерии лексической несхожести языков. С-Пб.: 2010.

    В современной лингвистике проблема корректного определения таксономического уровня того или иного идиома в лингвистической иерархии стоит достаточно остро. И действительно, зачастую вопрос о том, что перед нами - язык, наречие, диалект или говор? - решается либо с опорой на научные авторитеты (в результате в России ливвиковский и людиковский языки карел считаются диалектами карельского языка, а зарубежные лингвисты и эксперты Международной организации стандартизации ISO считают их тремя разными языками, хоть и родственными), либо вообще в директивном порядке (в Финляндии того же карельского языка официально "не существует" вообще, а в России он есть). Кроме того, зачастую это вопрос решается в угоду сиюминутным политическим интересам конкретных государств, а иногда - и отдельных политических партий, но в данном случае обычно принципиален уже не абстрактный уровень таксона, а именно степень разноязычия, в зависимости от которой те или иные территории объявляются "исконными", а этносы - "близкородственными" или даже вообще единым монолитом, одна часть которого просто "подверглась ассимиляции" со стороны других, априори враждебных, соседей. Как правило подобные спекуляции становятся возможны именно благодаря тому, что до сих пор чётко не принят формальный критерий определения разноязычия и таксономического уровня идиома внутри того или иного лингвистического конгломерата (кластера).

    В данной небольшой работе автор предлагает своё решение этой проблемы с применением математического аппарата теории множеств, хочется надеяться - совершенно абстрактное и не зависящее от идеологических и политических факторов.

 

    Собственно попытки применить те или иные математические инструменты для определения абстрактных критериев разноязычия предпринимались непрерывно на протяжении многих лет с момента появления метода  лексикостатистической глоттохронологии, разработанного Морисом Сводешом [6,14] и развитого в 1980-е годы русским лингвистом С.А.Старостиным [7,8,9]. Применяемые в рамках этого метода т.н. "списки Сводеша" дали в руки исследователям более-менее формализованный инструмент для сопоставления лексики разных языков. Примерно в это же время - в 1956 году - успешно применил методы математической статистики и системного анализа для решения проблемы определения меры разноязычия Джозеф Гринберг [2,12], его идеи были развиты Стенли Либерсоном [5,13]. Показатель Гринберга даёт возможность измерять уровень языковой коммуникации внутри групп населения, выделенных по территориальному либо по социальному признаку,  показатели Либерсона позволили охарактеризовать уровень языковой коммуникации между отдельными группами конгломерата. С точки зрения абстрактной математики в принципе несущественно, уровень какого именно параметра оценивается - языковой коммуникации или лексической несхожести языков. В то же время показатели Гринберга и Либерсона не вполне соответствуют поставленной нами задаче, поскольку с одной стороны учитывают ряд несущественных вводных (например, территориальную либо социальную принадлежность носителей языка) , а с другой - удовлетворяют задачам статистики, но достаточно примитивны, и, следовательно, не вполне адекватны, с позиций теории множеств.

    Кажется вполне естественным, если бы вскоре после публикации Сводешом и Гринбергом своих результатов  возникла бы идея применить этот аппарат не для исторических или статистических исследований, а для оценки современной степени лексической несхожести тех или иных языков. Однако судя по всему, первым идею использовать таблицы Сводеша для этих целей выдвинул только в 2006 году Ю.Б.Коряков[3] в рамках развития своей более ранней работы[4] по систематике идиомов. Коряков предложил следующие четыре уровня таксонов для лингвистической систематики на основании процентной нормы совпадений лексики в таблицах Сводеша:

Для исчисления процентной нормы совпадений (методику которого автор почему-то не раскрывает, возможно, считая её самоочевидной, вроде примитивной дихотомии "похоже - не похоже", как это собственно и практикуется в глоттохронологии[1]) по неясным мотивам используется относительно короткий вариант списков Сводеша, состоящий из ста лексем, что при столь малом дифференцирующем диапазоне (в переделах одного-шести процентов) даёт существенно большую погрешность оценки. Кроме того, автор почему-то считает, что выявление лексических различий вполне достаточно для определения таксономического уровня идиома, хотя например идиш и платдойч имеют существенно меньше различий в рамках  подобной методики, чем платдойч и хохдойч, однако последние два - диалекты немецкого языка, в то время как первые два - разные языки, которыми пользуются народы, относящиеся даже к разным этническим семьям (семито-хамитской и индоевропейской) и разным расам второго порядка.

    Вместе с тем вполне конструктивна идея  Корякова попытаться соотнести выделенные им уровни идиомов со степенью взаимопонятности: между двумя языками взаимопонятность сильна затруднена и нормальное общение невозможно без специального обучения, внутри языка между двумя наречиями существует взаимопонятность, но не полная; коммуникация возможна, но могут возникнуть недопонимания или ошибки, между диалектами внутри наречия существует практически полная взаимопонятность, хотя носители отмечают особенности каждого диалекта, обычно в произношении (акцент) и употреблении некоторых слов. Фактически это сближает его выкладки с идеями Гринберга и Либерсона, его "взаимопонятность" по сути не более чем инверсия (в терминах математической логики) "разноязычия" Гринберга, однако данное обстоятельство совершенно не отменяет ущербности применённой им математической методики, фактически - примитивного построчного сравнения таблиц Сводеша для двух языков. Таким образом, надо признать, что предложенная Коряковым концепция является безусловно продуктивной при совершенно неудовлетворительной конкретной реализации.

    Таким образом, мы подошли к проблеме выбора адекватной математической методики для решения нашей задачи. Очевидно, что необходим абстрактный математический критерий, достаточно строгий и минимально зависящий от субъективных особенностей конкретного исследователя, его использующего. При этом такой критерий должен обладать хорошими дифференцирующими свойствами и максимально достижимым разрешением при минимально приемлемой погрешности. К сожалению, в силу ряда причин такого инструмента в современной лингвистике нет. Однако сама по себе задача адекватной оценки схожести/несхожести дискретных множеств достаточно тривиальна и уже давно с успехом решена для других научных дисциплин. Например, в биометрии давно и успешно применяются различные индексы общности, вполне доступные пониманию специалистов в сфере естественных наук, не имеющих фундаментальной подготовки в области теории множеств, да и высшей математики в целом. К их числу относятся коэффициенты Жаккара, Серенса, Стугрена-Радулеску, Брея-Кёртиса и другие им подобные безразмерные показатели, используемые в частности в биологии для определения степени сходства видового состава пары растительных сообществ, зооценозов, биогеоценозов. При этом, как справедливо отметил в своей работе, вышедшей в 1984 году, В.М.Шмидт[11], именно коэффициент схожести Жаккара обладает, с позиций теории множеств, наибольшей математической корректностью, при том, что например коэффициент Стугрена-Радулеску обладает наилучшими дифференцирующими свойствами на близкородственных множествах[10]. В любом случае, с абстрактной математической точки зрения в принципе совершенно безразлично, что именно мы сравниваем при помощи этих безразмерных показателей - сходство комплексов видов, населяющих конкретные геобиоценозы, или же несходство лексического набора конкретных языков; результат в рамках теории множеств будет иметь одинаковую силу.

    С нашей точки зрения, было бы оптимальным использовать в целях решения поставленной задачи аналог коэффициента (индекса общности) Жаккара, адаптированный  для использования в качестве исходных данных таблиц Сводеша, но вместо неудовлетворительного "процента совпадений", применяемого в глоттохронологии, применить более сложный интегральн6ый показатель. В общем виде критерий лексической несхожести языков, оцениваемой в процентном отношении, мог бы выглядеть следующим образом:

 

где, соответственно, b - базис используемых таблиц Сводеша (конкретный рассчитанный критерий может обозначаться как Kb), а σ - суммарный показатель совпадений в таблицах, исчисляемый следующим образом:

 

где di - количество букв в наиболее длинной из двух сравниваемых лексем i-той строки таблиц Сводеша для сопоставляемых языков, а kj - весовой коэффициент схожести для j-той позиции в лексеме, который может принимать следующие значения:

Определение классов несовпадения букв в лексемах будет предложено ниже.

    Понятно, что качество оценки существенно зависит именно от размерности используемых таблиц Сводеша, поэтому для достижения наиболее адекватного результата желательно использовать таблицы наибольшего доступного объема (до 207 лексем).

    При использовании данного критерия на практике следует учитывать, что он даёт корректные результаты только для естественных языков и их субидиомов, собственно и изучаемых методами глоттохронологии, по вполне понятным причинам попытка оценить тот или иной социолект или профессиональный жаргон, для которых как правило характерна "перешифровка", затемнение базовой лексики, покажет запредельную степень несхожести с базовым (литературным) языком, характерную только для языков различных языковых семей.

    Отдельно следует пояснить, почему сравнение лексем ведётся именно побуквенно (как они представлены в таблице Сводеша), а не, скажем, по фонемам, с использованием аппарата международного фонетического алфавита. Дело в том, что для целей подобного математического исследования фонетическое представление лексем даёт слишком высокий уровень дифференциации результатов - ведь даже в близких локальных говорах фонетика может быть радикально различной, а объектом нашего анализа является только лексика. С другой стороны, при использовании избранного нами относительно простого математического аппарата погрешностью, которая в отдельных случаях неизбежно может возникать вследствие принятой методики сравнения (например, при использовании сравниваемыми языками различных алфавитов), вероятно допустимо пренебречь. Далее введём определения для классов несовпадения букв при побуквенном сопоставлении лексем:

Следует рассматривать как совпадение (т.е. kj=1) случаи, когда для передачи одних и тех же фонем в сравниваемых языках используются разные буквы (например "И" и "I", "Ы" и "И" в русском и украинском, отсюда, скажем, не входящее в таблицы Сводеша русское и украинское "ПИВО" (графически совпадающее), имеет суммарный показатель совпадений меньше единицы), а также когда идентичные или схожие звуки (звукосочетания) передаются неравным количеством букв из-за особенностей используемых алфавитов или специфики орфографии, например использования диграфов/триграфов: буквы и буквосочетания "Я" и "JA" для русского и немецкого, "Њ" и "НЬ" для сербского и русского, "Ř" и "RZ" для чешского и польского и т.п., при этом естественно параметр di для сравниваемых лексем должен уменьшатся при каждом таком вхождении на единицу.

    Как уже было сказано, предложенные Коряковым уровни таксонов видятся вполне удачными, необходимо только пересчитать диапазоны, определяющие каждый из таксонов, в соответствии с предложенным выше критерием. Итак:

Как видим,  дифференцирующие свойства на близкородственных множествах у предложенного критерия практически на три порядка лучше, чем при использовании принятых в глоттохронологии процентов совпадений, разрешающая способность критерия существенно выше. Высокая разрешающая способность и хорошие дифференцирующие свойства критерия практически полностью компенсируют возможные добросовестные ошибки при определении классов несовпадений в процессе сравнения отдельных лексем.

    Покажем практическое применение предложенной методики на упрощенном примере: возьмем сокращённые списки Сводеша из первых пяти позиций (личные местоимения) для русского, украинского и немецкого языков, и выполним их сравнение.

Русский Украинский Немецкий
я я ich
ты ти du
он вiн er
мы ми wir
вы ви ihr

    Сведем результаты для всех трёх пар в построчную таблицу:

i Русский-Украинский Русский-Немецкий Украинский-Немецкий
1 di =1

k1=1

di =2

k1=0, k2=0

di =2

k1=0, k2=0

2 di =2

k1=1, k2=1

di =2

k1=0,54, k2=0

di =2

k1=0,54, k2=0

3 di =3

k1=0, k2=0, k3=1

di =2

k1=0, k2=0

di =3

k1=0, k2=0, k3=0

4 di =2

k1=1, k2=1

di =3

k1=0, k2=0, k3=0

di =3

k1=0, k2=0, k3=1

5 di =2

k1=1, k2=1

di =2

k1=0, k2=0

di =2

k1=0, k2=0

Во второй, четвёртой и пятой строках второго столбца k2=1 по причине того, что, как уже говорилось выше, для передачи одних и тех же фонем в сравниваемых языках используются разные буквы, в третьем и четвёртом столбцах четвёртой строки k2=0 по прямо противоположной причине - формально одинаковые буквы разных алфавитов обозначают разные фонемы. В третьем и четвёртом столбцах d1 =2, поскольку в немецком диграфом передаётся одна фонема, а d5=2 из-за того, что в немецком первая согласная в слове не произносится и поэтому выпадает из сравнения. В тех же столбцах во второй строке k1=0,54 поскольку формально имеет место несовпадение 3-го класса - на первой позиции в двух сравниваемых языках пара глухая/звонкая согласная, причём это несовпадение лежит вне пределов диалектных различий. Базис в нашем случае b=5, далее нам необходимо на основании полученных коэффициентов рассчитать значения σ для всех трёх пар, и на его основе вычислить искомый коэффициент несхожести K5 для них:

Русский-Украинский Русский-Немецкий Украинский-Немецкий
σ =4.(3)

K5 =23,5294%

σ =0.27

K5 =97.2251%

σ =0,60(3)

K5 =93.5793%

Разумеется, полученный нами в данном примере результат нельзя считать адекватно отражающим реальные таксономические уровни исследовавшихся идиомов - он всего-навсего даёт представление о сути методики и практике её применения. Трудолюбивый читатель вполне может повторить этот эксперимент самостоятельно уже на полных списках Сводеша для данных языков и сравнить реальный результат с полученным здесь. Вместе с тем нельзя не отметить, что мы получили на столь скромном наборе исходных данных весьма неожиданный результат - кроме того что коэффициент K5 =23,5294% для русского и украинского языков весьма близок к обозначенной нами границе в 19.8% для идиомов 4-го уровня, т.е. близкородственных языков (на самом деле, при использовании полноразмерных таблиц Сводеша он окажется в районе 9.5%, то есть на границе между языками и наречиями), так ещё и сопоставление коэффициентов различий русского и украинского с немецким совершенно корректно указывает на то, что украинский действительно несколько ближе (возможно, даже именно на те 3-4%)  к немецкому, главным образом за счёт полонизмов романо-германского происхождения. Таким образом, данная методика позволяет корректно оценить не только таксономический уровень исследуемых идиомов по отношению друг к другу, их степень родства, но и различие их по степени близости к прочим, в том числе и неродственным идиомам. Помимо прочего, применение этой методики открывает широчайшие возможности для исторических исследований, причём не только в области глоттохронологии, для которой появляется возможность абстрактно математически точно оценить степень "расхождения" языков: вполне реально применение методики для компаративной датировки как нарративных текстов значительного объема, так и весьма кратких эпиграфических памятников. Для этого в первом случае надо просто составить таблицу Сводеша для конкретного литературного памятника и затем, рассматривая язык памятника как "отдельный" идиом, сопоставить его с имеющимися; во втором случае целесообразно составление таблицы по типу таблиц Сводеша, но включая в неё вообще все лексемы эпиграфического памятника - как показывает вышеприведённый пример, даже на весьма бедном материале это может дать вполне удовлетворительный результат. Причём перспективным может оказаться и совмещение этих двух случаев, то есть сопоставление по данной методике кратких эпиграфических памятников и обширных нарративных текстов одной или разных эпох. Расчёт по данной методике пакета коэффициентов для литературных памятников разных эпох в рамках одного языка может по сути дать шкалу, в чём-то аналогичную дендрохронологической - письменные памятники с неизвестной заведомо датировкой можно будет с высокой точностью привязывать к конкретным историческим периодам. Помимо этого, появляется возможность оценки времени появления вставных новелл в нарративных текстах и вообще, в целом, выявления самого факта наличия иновременных вставок в тексте, лингвистических анахронизмов, вместе с тем, благодаря специфике используемого математического метода, результат будет малочувствителен к техническим ошибкам текстов - опискам, пропускам и пр.. Здесь нельзя не отметить, что предложенная методика достаточно легко может быть реализована компьютерными средствами, что позволит автоматизировать и многократно ускорить процесс анализа текстов.        

    Таким образом, автор считает возможным полагать, что поставленная перед нами задача дать математически строгое определение несхожести языков в целом решена удовлетворительно, и при этом в простой, относительно доступной форме, кроме того, предлагаемое решение открывает интересные возможности в смежных областях науки. В силу ограниченного объёма данной публикации не дано развернутого распределения несовпадений по предложенным классам, также следует принять во внимание, что весовые коэффициенты kj рассчитаны автором эмпирически и не должны рассматриваться как некая абсолютная истина, как, впрочем, и уровни таксонов по Корякову, при необходимости они вполне могут быть пересчитаны, но, вместе с тем, надо учитывать, что специфика применённого математического аппарата такова, что незначительные ошибки в весовых коэффициентах, как и при применении методики сопоставления лексем, неспособны оказать существенного влияния на конечный результат исследования. Автор выражает надежду, что предложенная здесь методика будет с успехом использована и , при возможности, усовершенствована специалистами, занятыми практическими исследованиями в этой области, однако в силу своей невысокой сложности она вполне доступна для использования и любителями лингвистики, которые вполне могут провести собственные исследования с её использованием.

 

Литература

  1. Арапов М.В., Херц М.М. Математические методы в исторической лингвистике. М., 1974.

  2. Гринберг Дж. Определение меры разноязычия. //Новое в лингвистике. - Вып. 6. - М., 1972. - С. 204-214.
  3. Коряков Ю. Б. Систематика языков. М., - 2006.
  4. Коряков Ю.Б., Майсак Т.А. Систематика языков мира и базы данных в интернете.// Труды Международного семинара "Диалог '2001" по компьютерной лингвистике и ее приложениям. М., 2001.

  5. Либерсон С. Новое приложение показателей разноязычия Гринберга. // Новое в лингвистике. - Вып. 6. - М., 1972. - С. 215-224.
  6. Сводеш М. Лексикостатистическое датирование доисторических этнических контактов.// Новое в лингвистике. - Вып. 1. - М., 1960. - С. 23-52.
  7. Старостин С.А.Сравнительно-историческое языкознание и лексикостатистика // Лингвистическая реконструкция и древнейшая история Востока. Часть 1. 1989.

  8. Старостин С.А., Бурлак С. А. Введение в лингвистическую компаративистику. М., 2001.

  9. Старостин С.А., Бурлак С. А. Сравнительно-историческое языкознание. М., 2005.

  10. Тамарин П.В., Шмидт В.М. Сравнительный анализ некоторых коэффициентов сходства: В кн. «Успехи биометрии». Л.: Изд-во Ленинг. общества естествоисп.,1975. С. 45–54.
  11. Шмидт В.М. Математические методы в ботанике. Ленинград: Изд-во Ленинградского ун-та, 1984. – 288 с.

  12. Joseph H. Greenberg, The Measurement of Linguistic Diversity. //«Language», 32, 1956, 1, р. 109—115.
  13. Stanley Lieberson, An Extension of Greenberg's Linguistic Diversity Measures. //«Language», 40, 1964, 4, р. 526—531.
  14. Swadesh, Morris. La linguistica como instrumento de la prehistoria. Mexico, 1960.
  15. Swadesh, Morris. Towards greater accuracy in lexicostatistic dating. //International Journal of American Linguistics, №21,  1955, р. 121—137.