Научная Петербургская Академия

Классификация объектов нечисловой природы на основе непараметрических оценок плотности - (реферат)

Классификация объектов нечисловой природы на основе непараметрических оценок плотности - (реферат)

Дата добавления: март 2006г.

КЛАССИФИКАЦИЯ ОБЪЕКТОВ НЕЧИСЛОВОЙ ПРИРОДЫ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКИХ ОЦЕНОК ПЛОТНОСТИ.

В СССР в середине 70-х годов активно ведутся работы по статистическому анализу нечисловых данных  [1]. В настоящее время во Всесоюзном центре статистических методов и информатики мы при разработке методических документов и программных продуктов по прикладной статистике делим ее на четыре части соответственно виду обрабатываемых статистических данных: на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и случайных процессов, статистику объектов нечисловой природы (другими словами, статистику нечисловых данных).

Вероятностный и статистический анализ нечисловых данных сопровождали теорию вероятностей и математическую статистику с самого начала их развития. Типичными примерами являются урновые схемы и изучение рождаемости. Испытание Бернулли вероятностная модель простейшего объекта нечисловой природы. Наиболее массовым применением статистических методов является, видимо, выборочный контроль качества продукции по альтернативному признаку (т. е. по признаку "годен” - “не годен"), относящийся, очевидно, к статистике объектов нечисловой природы [2]. Развитие прикладных исследований привело к необходимости рассмотрения в качестве статистических данных различных объектов нечисловой природы. Этот термин применяем к объектам, которые нецелесообразно рассматривать как описанные числами. Другими словами, речь идет об элементах пространства, не являющихся линейными (векторными). Примеры: бинарные отношения (ранжировки, разбиения, толерантности и т. д. ); множества; нечеткие множества; результаты измерений в шкалах, отличной от абсолютной; как обобщение перечисленных объектов - элементы пространств общей природы. Для результатов наблюдений, являющихся объектами нечисловой природы, рассматривают [1] классические задачи статистики: описание данных (включая классификацию) оценивание (параметров, характеристик, плотности распределения, регрессионной зависимости и т. д. ). Математический аппарат статистики объектов нечисловой природы основан не на свойстве линейности пространства, а на применении симметрик и метрик в нем, поэтому существенно отличается от классического.

В прикладных работах наиболее распространенный пример объектов нечисловой природы - разнотипные данные. В этом случае реальный объект описывается вектором, часть координат которого - значения количественных признаков, а часть - качественных (номинальных и порядковых).

Основная цель настоящего раздела - обосновать новый подход [3] к классификации в пространствах произвольной природы, основанный на построении не параметрических оценок плотности распределений вероятности в таких пространствах [4].

" Пусть - измеримое пространство, . и . суть -конечные меры на . , причем абсолютно непрерывна относительно , т. е. из равенства... =0 следует равенство =0, где ... В этом случае на существует неотрицательная измеримая функция такая, что

для любого Функция называется производной Родона-Никодима меры по мере , а в случае, когда - вероятностная мера, также плотностью вероятности по отношению к . " [5] Будем считать, что в пространстве объектов нечисловой природы фиксирована некоторая мера, а мера соответствует распределению Р случайного элемента со знаниями в измеримом пространстве , т. е.

Если - пространство из конечного числа точек, то в качестве меры можно использовать считающую меру (приписывающую единичный вес каждой точке), т. е. , или

В случае считающей меры значение плотности в точке совпадает с вероятностью попасть в точку , т. е. Многие методы классификации используют расстояния или меры близости между объектами или признаками. Такие методы пригодны и для классификации объектов нечисловой природы, лишь бы в соответствующем пространстве было определено расстояние или мера близости. Таким образом, широко известные иерархические агломеративные алгоритмы ближайшего соседа, дальнего соседа, средней связи и др. , результатом работы которых являются дендрограммы, на самом деле относятся к статистике объектов нечисловой природы.

Не пытаясь рассмотреть все многообразие методов классификации в статистике объектов нечисловой природы (см. , например, [6, 7]), сосредоточимся на тех из них, которые используют плотности распределения и их оценки. Зная плотности распределения классов, можно решать основные задачи классификации - как задачи выделения кластеров, так и задачи диагностики. В задачах кластер-анализа можно находить моды плотности и принимать их за центры кластеров или за начальные точки итерационных методов типа динамических сгущений. В задачах диагностики (дискриминации, распознавания образов с учителя) можно принимать решения о классификации объектов на основе отношения плотностей, соответствующих классам. При неизвестных плотностях представляется естественным использовать их состоятельные оценки. Корректность такой постановки, как правило, нетрудно обосновать, например, в стиле [8]. Таким образом, для переноса на пространства произвольной природы основных методов классификации рассматриваемого типа достаточно уметь оценивать плотность распределения вероятности в таких пространствах.

Методы оценивания плотности вероятности в пространствах общего вида предложен и первоначально изучены в [4]. В частности, в задачах классификации объектов нечисловой природы предлагаем использовать непараметрические ядерные оценки плотности типа Парзена-Розенблатта (этот вид оценок и его название введены нами в [4]):

    ,

где К: - ядерная функция - выборка по которой оценивается плотностью, - расстояние между элементом выборки и точкой , в которой оценивается плотность последовательность показателей размытости такова, что при 0 и n, а - нормирующий множитель, обеспечивающий выполнение условия

Оценки типа Парзена-Розенблатта - частный случай линейных оценок [4]. В теоретическом плане они выделяются тем, что удается получать результаты такого же типа, что в классическом одномерном случае (), но, разумеется, с помощью совсем иного математического аппарата. Одна из основных идей состоит в том, чтобы согласовать между собой расстояние и меры . А именно, рассмотрим шары радиуса

    и их меры

Предположим, что как функция при фиксированном непрерывна и строго возрастает. Введем функцию

Это - монотонное преобразование расстояния, а потому - метрика или симметрика (т. е. неравенство треугольника может быть не выполнено), которую, как и, можно рассматривать как меру близости между и . Введем

    .
    Поскольку определена однозначно, то
    ^
    где . , а потому

Переход от к напоминает классическое преобразование, использованное Н. В. Смирновым, , переводящее случайную величину с непрерывной функцией распределения в случайную величину , равномерно распределенную на [ 0, 1]. Оба рассматриваемых преобразования существенно упрощают дальнейшие рассмотрения.

Преобразование зависит от точки , что не влияет на дальнейшие рассуждения, поскольку ограничиваемся изучением сходимости в точке.

Функцию , для которой мера шара радиуса равна , называют [4] естественным показателем различия или естественной метрикой. В случае пространства и евклидовой метрики имеем

    где -объем шара единичного радиуса в .
    Поскольку можно записать, что
    где

то переход от к соответствует переходу от к . Выгода от такого перехода заключается в том, что утверждения приобретают более простую формулировку.

    ТЕОРЕМА 1. Пусть - естественная метрика,

Плотность непрерывна в и ограничена на , причем . Тогда , оценка является состоятельной, т. е. по вероятности при ,

Теорема 1 доказана в [4]. Однако остается открытым вопрос о скорости сходимости ядерных оценок, т. е. о поведении величины

    и об оптимальном выборе показателей размытости .
    Введем круговое распределение и круговую плотность .

ТЕОРЕМА 2. Пусть ядерная функция непрерывна и при . Пусть круговая плотность допускает разложение

причем остаточный член равномерно ограничен [0, 1, ..... , ]. Пусть

    Тогда
    Величина достигает минимума, равного
    при

что совпадает с классическими результатами для (см. [9, с316]). Заметим, что для уменьшения смещения оценки приходится применять знакопеременные ядра.

В случае дискретных пространств естественных метрик не существует. Однако можно получить аналоги теорем 1 и 2 переходя к пределу не только по объему выборки, но и по параметру дискретности . Пусть - последовательность конечных пространств, - расстояния в для любого .

    Положим
    ,
    ,
    ,

Тогда функции кусочно постоянны и имеют скачки в некоторых точках , причем . ТЕОРЕМА 3. Если при (другими словами, при ), то существует последовательность параметров дискретности такая, что при , , справедливы заключения теорем 1 и 2. ПРИМЕР 1. Пространство всех подмножеств конечного множества из элементов допускает [10, Пар 4. 3] аксиоматическое введение метрики , где - символ симметрической разности множеств. Рассмотрим непараметрическую оценку плотности типа Парзена - Розенблатта, где - функция нормального стандартного распределения. Можно показать, что эта оценка удовлетворяет условиям теоремы 3.

ПРИМЕР 2. Рассмотрим пространство функций , определенных на конечном множестве со значениями в конечном множестве . Это пространство можно интерпретировать как пространство нечетких множеств [11]. Очевидно, . Будем использовать расстояние . Непараметрическая оценка плотности имеет вид: . Если , , то при выполнены условия теоремы 3, а потому справедливы теоремы 1 и 2... ПРИМЕР 3. Рассматривая пространства ранжировок объект непреов, в качестве расстояния между ранжировками и . Тогда . не стремиться к 0 при . , условия теоремы 3 не выполнены. Пространства разнотипных признаков - это декартово произведение непрерывных и дискретных пространств. Для него возможны различные постановки. Пусть, например, число градаций качественных признаков остается постоянным. Тогда непараметрическая оценка плотности сводится к произведению частоты попадания в точку в пространстве качественных признаков на классическую оценку Парзена-Розенблатта в пространстве количественных переменных. В общем случае расстояние можно, например, рассматривать как сумму евклидова расстояния между количественными факторами, расстояния между номинальными признаками (, если и , если ) и расстояния между порядковыми переменными (если и - номера градаций. , то . Наличие количественных факторов приводит к непрерывности и строгому возрастанию, а потому для непараметрических оценок плотности в пространствах разнотипных признаков справедливы теоремы 1 - 3.

    Литература

1. Орлов А. И. Устойчивость в социально-экономических моделях. -М. Наука, 1979. -296 с.

2. Орлов А. И. Экспертные оценки / Вопросы кибернетики. Вып. 58. -М. : Научный Совет СССР по комплексной проблеме "Кибернетика", 1979. С. 17-33.

3. Орлов А. И. / Тезисы докладов Четвертой международной Вильнюсской конференции по теории вероятностей и математической статистике: Том 2. -Вильнюс, Вильнюсский госуниверситет, 1985. С. 278-280.

4. Орлов А. И. / Анализ нечисловой информации в социологических исследованиях. -М. Наука, 1985. С. 58-92.

5. Орлов А. И. / Статистика. Вероятность. Экономика. -М. Наука, 1985. С. 99-107. 6. Орлов А. И. / Заводская лаборатория. 1987. Т. 58. N3. С. 90-91. 7. Орлов А. И. /Надежность и контроль качества. 1987. N6. С. 54-59. 8. Рекомендации. Прикладная статистика. Методы обработки данных. Основные требования и характеристики. - М. :ВНИИС, 1987. -64 с.

9. Кривцов В. С. , Фомин В. Н. , Орлов А. И. / Стандарты и качество. 1988. N3. С. 32-36.

11. Колмогоров А. Н. Статистический приемочный контроль при допустимом числе дефектных изделий, равном нулю. - Л. : ДНТП, 1951. - 22 с.

12. Гнеденко Б. В. Математика и контроль качества продукции. - М. : Знание, 1978. - 64 с.

13. Беляев Ю. К. Вероятностные методы выборочного контроля. -М. : Наука, 1975. 408 с.

14. Лумельский Я. П. Статистические оценки результатов контроля качества. - М. : Из-во стандартов, 1979. - 200 с.

15. Орлов А. И. Современные проблемы кибернетики: Прикладная статистика. - М. : Знание, 1981. с 3-14.

16. Статистические методы анализа экспертных оценок / Ученые записки по статистике, т. 29, -М. : Наука, 1977-384 с. 17.

17. Экспертные оценки в системных исследованиях / Сборник трудов. - Вып. 4. М. : ВНИИСИ, 1970 - 120 с.

18. Экспертные оценки / Вопросы кибернетики. - Вып. 58. - М. : Научный Совет АН СССР по комплексной проблеме / "Кибернетика". 1979. - 200 с.



(C) 2009