4.7. Оценка видового сходства биоценозов
Типы мер сходства
Индексы видового сходства имеют принципиальное отличие от всех ранее рассмотренных индексов тем, что вычисленные значения сравниваются не с некоторой эталонной шкалой "грязности", "разнообразия", сапробности и проч., а определяют взаимную упорядоченность объектов (проб, описаний, видовых списков биоценозов) друг относительно друга.
Существует несколько классификаций методов расчета индексов связи [Sokal, Sneath, 1963; Goodall, 1973; Василевич, 1969; Миркин, Розенберг, 1978; Сёмкин, 1979 и др.]. Так, Р. Сокал и П. Снит различали три типа мер сходства:
-
меры ассоциации, выражающие различные отношения числа совпадающих признаков к общему их числу, и близкие им коэффициенты сопряженности (квантифицированные коэффициенты связи);
-
выборочные коэффициенты связи типа корреляции (нормированные "косинусные" меры);
-
показатели расстояния в метрическом пространстве.
Современные исследователи [Гайдышев, 2001] уменьшают это количество типов до двух, полагая ассоциациативные меры естественным распространением "косинусных" мер на номинальные шкалы.
Б.М. Миркин с соавторами [1989] выделяют также следующие типы: вероятностные меры, информационные меры и преобразованные показатели. Однако все меры являются в какой-то степени вероятностными (поскольку оценивается вероятность того, что сравниваемые объекты будут идентичными) и представляют собой некоторые алгебраические выражения (или "преобразования" по Миркину).
Выражений для мер близости или расстояния между объектами существует великое множество: уже на начало 70-х годов в своем обзоре Д. Гудол [Goodall, 1973] перечисляет около 40 коэффициентов подобия. Приводить в полном объеме конкретные формулы или хронологию их создания вряд ли целесообразно4, поэтому мы остановимся на некоторых индексах, традиционно употребляемых в геоботанике и гидробиологии (хотя и их набралось немалое количество).
Д. Гудол замечал, что «...выбор лучшего индекса – дело вкуса». Правда, один из авторов [Розенберг, 1984] полагает, что "вкус" должен диктоваться точными знаниями о возможностях того или иного показателя и целями, стоящими перед исследователем. Но…
Мем № 24:
«Выбор конкретных коэффициентов зависит в первую очередь от цели исследования. А поскольку формальных правил для выбора целей нет, следовательно, не может быть и формальных правил для выбора подходящей меры сходства» В.Л. Андреев [1979б].
Меры ассоциации
Большинство выражений для индексов сходства основаны на общих положениях теории множеств, которые могут быть интерпретированы в виде диаграммы Венна (см. рис. 4.6). При использовании конкретных выражений для коэффициентов подобия в формулы могут подставляться мощности (число элементов) подмножеств a, b, c и d, если исследователи хотят ограничиться альтернативными высказываниями “отсутствие / наличие” вида, либо показатели обилия в абсолютной или интервальной шкале. В первом случае мы будем отождествлять мощность подмножества с ним самим.
Рис 4.6. Диаграмма интерпретации составляющих подмножеств
признакового пространства видов
Первая попытка количественного выражения степени сходства между сообществами принадлежала в 1901 г. швейцарскому исследователю П. Жаккару (P. Jaccard) и
коэффициент флористического сходства Жаккара до сих пор широко используется в геоботанике:
KJ =
с / (
a +
b -
c) . (4.25)
Гидробиологи (да и вообще, экологи) чаще применяют формулу
коэффициента общности видового состава Т. Съёренсена [Sőrensen, 1948
М]:
KS = 2
с / (
a +
b ) . (4.26)
Приведем без комментариев еще несколько подобных формул коэффициентов, оперирующих с мощностями подмножеств [Сёмкин, 1979; Миркин с соавт., 1989; Дедю, 1990]:
-
Роджерса и Танимото (он же, Нордхагена): K3 = с / (a + b + c) ;
-
Маунтфорда: K4 = 2 с / (2ab - ac -bc) ;
-
Рао-Рассела: K5 = с / (a + b + c + d) ;
-
Дейка: K6 = 2 с / (a + b + 2 c) ;
-
Кульчинского: K7 = (a + b) / 2ab ;
-
Экмана: K8 = (a + b) / с ;
-
процент несогласия: K9 = (a + b) / (a + b + c ).
В качестве несимметричных мер можно отметить:
-
меры включения, оценивающие "банальность" K10 и "экзотичность" K11 биоценозов [Рябинин, 1993]:
K10 =
с / (
a +
c) ;
K11 =
с / (
b +
c) ;
-
трансформированный коэффициент Дайса [Миркин с соавт., 1972]:
KD = [
c – min(
a,
b)] / [
c + min(
a,
b)] .
В дальнейшем было сформулировано [Сёмкин, Двойченков, 1973] несколько правил, по которым можно "изобрести" неограниченное количество мер, подобных
Ki .
Традиционное для теории измерений хеммингово расстояние (метрика Хемминга), менее других похоже на перечисленные коэффициенты, т.к. оно не является безразмерным и не ограничено сверху числом 1:
RH = (
c +
d) . (4.27)
В ряде работ [Миркин, Розенберг, 1978, 1979] делаются попытки оценить, какие коэффициенты из вышеперечисленных "завышают" или "занижают" сходство между сообществами и каким коэффициентам следует отдать предпочтение в работе. Однако вряд ли имеет смысл проводить сравнительных анализ абсолютных значений коэффициентов, т.к. в данном случае единственным критерием оценки является последовательность агрегирования объектов на основании меры сходства в более крупные таксоны, иерархические деревья и проч.
Несмотря на почти повсеместную традицию использовать для оценки сходства биоценозов меры ассоциативности по Жаккару (4.25), Съёренсену (4.26) и проч., нам не кажется плодотворной идея без особенной нужды сводить количественную шкалу, в которой измерено подавляющее большинство гидробиологических показателей к информативно более ослабленной номинальной шкале. Слишком много труда гидробиологов вкладывается в подсчет значений численностей гидробионтов, чтобы потом огрублять исходные данные в мере Съёренсена до статистически сомнительного факта простой встречаемости видов...
Коэффициенты связи
Использование в качестве меры близости объектов косинусов углов между информативными векторами удобно тем, что функция сходства нормируется в шкале от 0 до 1 и не зависит от абсолютных значений переменных. Чтобы избежать разбиения на две дополнительные подгруппы положительно и отрицательно коррелируемых параметров, обычно используют квадраты (или абсолютные значения) косинусов углов. В разделах части 3 нами подробно будут рассмотрены конкретные формулы вычисления мер этого типа для различных шкал представления признаков: коэффициенты корреляции Пирсона, Спирмена и Кендалла, критерий c2 и другие меры оценки сопряженности. Ниже рассматриваются некоторые специфические для экологических исследований коэффициенты этого типа.
При подсчете мер сходства показателей обилия, выраженных в абсолютных или относительных значениях видовой численности или биомассы возможно использование коэффициента К. Чекановского [Czekanowcki, 1911М]:
S S S
MT = min( Xi , Yi ) / ( Xi + Yi ) , (4.28),
i=1 i=1 i=1
где Xi и Yi – количественные значения вида i в пробах X и Y, S – общее число видов.
К другим коэффициентам, оценивающим сходство биоценозов по показателям обилия, можно отнести следующие:
-
коэффициент общности удельного обилия, предложенный А.А. Шорыгиным [1939М, 1952М] для сравнения спектра питания рыб, использующий те же обозначения, что и для формулы Чекановского (4.28) (иное название – коэффициент суммы минимумов по А.С. Константинову [1969]):
S S S
MS =
min(
Xi /
Xi ,
Yi /
Yi) ; (4.29)
i=1
i=1
i=1
-
коэффициент биоценологического сходства Б.А. Вайнштейна [1976] для оценки комбинированного сходства биоценозов по обилию и видовому составу:
Kкомб =
MS×
KJ’ ,
где MS – коэффициент общности удельного обилия, KJ’ – коэффициент сходства видового состава [Алёхин с соавт., 1925М], полностью совпадающий с коэффициентом Жаккара (4.25).
Меры расстояния
Наиболее общей формулой для подсчета расстояния в m-мерном признаковом пространстве между объектами X1 и X2 является мера Минковского [Ким с соавт.,1989]:
m
DS(
X1,
X2) = [ |
x1i -
x2i|
p ]
1/r , (4.30)
i=1
где
r и
p – параметры, определяемые исследователем, с помощью которых можно прогрессивно увеличить или уменьшить вес, относящийся к переменной
i, по которой соответствующие объекты наиболее отличаются. Параметр
p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр
r определяет прогрессивное взвешивание больших расстояний между объектами.
Мера расстояния по Евклиду получается, если метрике Минковского положить
r =
p = 2, и является, по-видимому, наиболее общим типом расстояния, знакомым всем по школьной теореме Пифагора, – геометрическим расстоянием в многомерном пространстве, которое вычисляется следующим образом:
m
DE(
X1,
X2) = [ (
x1i -
x2i)
2 ]
1/2 . (4.31)
i=1
Заметим, что евклидово расстояние может быть вычислено как по исходным, так и по стандартизованным данным (например, нормированным на интервале от 0 до 1).
При r = p = 1 метрика Минковского дает "расстояние городских кварталов" (манхэттенское расстояние), которое является просто суммой разностей по координатам:
m
DM(X1,X2) = | x1i - x2i | . (4.32)
i=1
В большинстве случаев эта мера расстояния приводит к таким же результатам, что и обычное расстояние Евклида. Однако отметим, что для нее влияние отдельных больших разностей (выбросов) уменьшается, так как они не возводятся в квадрат.
При r = p ® ¥ имеем метрику доминирования (она же, супремум-норма или расстояние Чебышева), которая вычисляется по формуле:
DT(
X1,
X2) =
max |
x1i –
x2i |. (4.33)
Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной лимитирующей координате (каким-либо одним измерением).
На практике, особенно в медико-биологических исследованиях, часто возникает проблема исследования связи в таблицах данных, измеренных в различных шкалах. Для этой цели был предложен [Gower, Ross, 1969; Ким с соавт.,1989] коэффициент Гауэра, допускающий одновременное использование трех шкал: количественной, порядковой и номинальной:
mn mp mx
S (
X1,
X2) =
Ki +
Pi +
Di. (4.34)
i=1
i=1
i=1
При этом:
-
для номинальных признаков i = 1,2,…,mn алгоритм подсчета вклада признаков Ki совпадает с подсчетом коэффициента Жаккара;
-
вклад Рi порядковых признаков i = 1,2,…,mр совпадает с хемминговым расстоянием, если последнее мысленно обобщить на ранжированные переменные;
-
для количественных признаков i = 1,2,…,mх Di = 1 - |x1i – x2i| / Si , где Si – размах i-го признака, вычисленный по всем объектам.
Одним из важных шагов по упорядочению используемых оценок явилось формулировка понятий «
эквивалентности» и «
коэквивалентности» мер сходства. Согласно теореме Б.И. Семкина и В.И. Двойченкова [1973], две меры
r1 и
r2 эквивалентны, если они связаны монотонно возрастающей зависимостью j, т.е.
r1 = j (
r2). Примерами таких функций j являются:
-
линейное преобразование r1 = a + b×r2 , позволяющее любой коэффициент сходства умножить, разделить или сложить с некоторым постоянным числом;
-
потенциальные функции, удобные для нормировки:
,
где
a и
b – константы,
e – любое рациональное число.
Понятие эквивалентности мер имеет важное следствие: если две меры эквивалентны, то они приводят к одной и той же последовательности объектов, упорядоченных по их сходству: близкие объекты остаются близкими и т.д. Например, можно показать, что свойством эквивалентности обладает континуум мер сходства, представленных формулой:

, (4.35)
где -1 <
u < ¥, а остальные обозначения приведены на рис. 4.6. Нетрудно заметить, что при
u = 0 мы имеет хорошо известный коэффициент Съёренсена (4.26); мера при
u = 1 численно совпадает с коэффициентом Жаккара (4.25), а при
u = 3 – с коэффициентом Сокала–Снита и т.д., поэтому споры о том, какой коэффициент лучше, можно считать беспредметными. То же можно сказать и об использовании более "сложных" формул, которые часто создают только иллюзию объективности и точности классификации.
Если бы принцип оценки эквивалентности получил достаточное распространение в количественной гидробиологии лишь только как "санитарно-профилактическое средство", препятствующее изобретению новых эмпирически мало подтвержденных индексов, неустанно появляющихся в различных областях, от этого была бы большая польза: биологическая литература освободилась бы от множества неоправданных манипуляций с числами и ненадежных рекомендаций.
Введенное понятие «эквивалентности» оказывается полезным еще и потому, что приводит к пониманию смысла использования неэквивалентных мер, как наиболее независимых и ценных членов "распознающего коллектива" [Розенберг с соавт., 1994], оценивающего различные свойства анализируемого материала. Если, например, выводы, полученные на основе использования корреляционных мер сходства, совпадут с выводами кластерного анализа на основе евклидовой дистанции, то с уверенностью можно утверждать, что они действительно основаны на исходных данных, а не на методе их извлечения.
<предыдущая страница | следующая страница>