ОБ ОДНОМ СПОСОБЕ РАСПОЗНАВАНИЯ ГРАФИЧЕСКИХ ОБЪЕКТОВ

(1)

«Қоғамды ақпараттандыру» III Халықаралық ғылыми-практикалық конференция

327

УДК 004.93

ДИХАНБАЕВА Г.Б., ТОККУЛИЕВА А.К., БАЙБУРИН А.М.

Евразийский национальный университет им.Л.Н.Гумилева Астана, Казахстан ОБ ОДНОМ СПОСОБЕ РАСПОЗНАВАНИЯ ГРАФИЧЕСКИХ ОБЪЕКТОВ

Методы распознавания образов представляют собой наиболее математизированный раздел теории искусственного интеллекта, в котором решаются задачи, связанные с классификацией объектов произвольной природы. Распознавание образов одна из тех задач, которые постоянное решаются «естественным» интеллектом. Поэтому усилия ученых уже на протяжении полувека направлены на разработку методов и алгоритмов «автоматического»

решения этой задачи. Распознавание образов в той или иной конкретной ситуации связано с учетом неопределенностей различной природы. В простейшем случае, когда образы однозначно определяются конечным набором признаков, границы классов точно описываются, а сами классы не пересекаются, степень неопределенности можно считать минимальной, и задачу классификации можно решать, не учитывая неопределенность данных. Одной из основных задач теории распознавания образов является задача оптимального выбора системы признаков, наиболее информативно описывающей образы.

Другая важная задача – описание классов, построение решающих функций, с помощью которых тот или иной образ можно отнести одному из классов. В этой статье рассматривается классификация образов с помощью определения функции расстояния между образом и классом.

Для простоты мы будем рассматривать только черно-белые изображения. Пусть у нас рисунок состоит всего из двух пикселей. Тогда множество всех объектов, которое можно будет изобразить (универсальное множество), состоит из четырех объектов: (0,0), (0,1), (1,0), (1,1), где 1 — черный пиксель, 0 — белый.

Все объекты универсального множества можно разместить в вершинах единичного квадрата, таким образом, множеству фигур, изображенных на двухпиксельном поле, может быть сопоставлено множество точек в двумерном пространстве. Ребру этого квадрата будет соответствовать переход от одного изображения к другому. Для перехода от (1,1) к (0,0) нужно будет пройти два ребра, для перехода от (0,1) к (0,0) — одно. Отметим, что число ребер в нашем переходе — это количество несовпадающих пикселей двух изображений.

Вывод интересный: расстояние от одного рисунка до другого равно числу несовпадающих пикселей в них. Это расстояние называется расстоянием по Хэммингу.

Теперь представим себе, что у нас рисунок состоит из трех пикселей. Коды изображений тогда будут состоять из трех значений, универсальное множество — из восьми элементов, которые мы разместим в вершинах единичного куба. Но принципиально ничего не изменится, и расстояние по Хэммингу вычисляется так же. В приложенной тестовой

(2)

328

программе используется рисунок 50х70 = 3500 пикселей. Легко сообразить, что в этом случае код любого изображения состоит из 3500 значений, универсальное множество — из 23500 = 4,027 * 101053 элементов, которые мы будем размещать в вершинах единичного 3500-мерного куба. Представить себе такой 3500-мерный куб нелегко, но смысл от этого не меняется абсолютно. Основная идея заключается в том, что в этом многомерном кубе изображения, соответствующие какому-то определенному образу, лежат недалеко друг от друга. Эта идея получила название "Гипотеза о компактности образов".

Теперь можно сформулировать задачу: нужно универсальное множество разбить на

"куски", компактные множества, каждому из которых соответствует образ.

Программе в процессе обучения сообщаются изображения (точки многомерного куба) и указания, к какому образу каждое изображение относится. При распознавании программа просто смотрит, в какую из известных компактных областей попало входное изображение.

Скорее всего, все указанные машине изображения лягут более-менее компактно, поэтому универсальное множество будет можно разделить. Собственно разделять универсальное множество мы не будем, а будем пользоваться некоторой характеристикой, которая показывает удаленность одного рисунка (точки в вершине многомерного куба) до группы таких же изображений. В качестве меры удаленности рисунка от группы рисунков используется потенциал.

Известно, что электрический заряд создает вокруг себя поле, одной из характеристик которого является потенциал. В любой точке он может быть вычислен по формуле

R2 q a P 

где a — некоторый постоянный коэффициент, q — величина заряда, R — расстояние от данной точки до заряда. Если электрическое поле образовано двумя или более зарядами, то потенциал в данной точке равен сумме потенциалов каждого заряда. Аналогия очевидна — каждый рисунок, на котором программа обучалась, создает в пространстве универсального множества потенциал. После обучения программе дают распознать какой-либо рисунок (точку в вершине многомерного куба), программа вычисляет потенциал, создаваемый в этой точке всеми объектами образа "а", образа "б"… на которых программу учили и распознаваемый рисунок относится к образу, который создал наибольший потенциал.

Итак, при запуске программы в массив Data: array of array [0..9] of TBitmap;

записываются цифры от 0 до 9, написанные следующими шрифтами: Arial, Century Gothic, Courier New Cyr, Goudy Old Style и Times New Roman — всего пять комплектов

Procedure LoadData;

var i,j:integer;

path:string;

begin

SetLength(Data,5);

for i := 0 to 4 do begin

path := ExtractFilePath(Application.ExeName)+'\fonts\';

case i of

(3)

329

0: path := path + 'Arial\';

1: path := path + 'Century Gothic\';

2: path := path + 'Courier New Cyr\';

3: path := path + 'Goudy Old Style\';

4: path := path + 'Times New Roman\';

end;

for j := 0 to 9 do begin

Data[i,j] := TBitmap.Create;

Data[i,j].LoadFromFile(path + IntToStr(j) + '.bmp');

end;

После загрузки эталонных изображений пользователь рисует на поле размером 50х70 пикселей цифру, которую программа будет распознавать. При нажатии кнопки "распознать"

высчитываются расстояния от распознаваемого рисунка до каждого из эталонных (расстояние по Хэммингу).

function Compare( b1,b2:TBitmap):integer;

var i,j,count:integer;

begin count := 0;

for i := 0 to 49 do for j := 0 to 69 do

if b1.Canvas.Pixels[i,j] <> b2.Canvas.Pixels[i,j] then inc(count);

Result := count;

end;

Зная это расстояние R, легко вычислить потенциал, создаваемый каждым эталонным рисунком в точке, соответствующей нарисованному пользователем изображению. Формула расчета потенциала изменена, чтобы избежать деления на 0 в случае R=0 и для лучшего восприятия домножено на 1 000 000:

1 2 1000000 )

(

R R  



Потенциалы, создаваемые нулями всех начертаний, суммируются в p[0], единицами — в р[1] и так далее.

for i := 0 to 4 do for j := 0 to 9 do begin

r := Compare(Image1.Picture.Bitmap,Data[i,j]);

p[j] := p[j] + 1000000/(1+r*r);

end;

После всего этого остается найти, какому образу соответствует наибольший потенциал.

(4)

330

Литература

1. Айзерман А.А., Браверман Э.М., Розоноэр Э.И. Метод потенциальных функций в теории обучения машин. – М.: Наука, 1970.

2. Горелик А.Л., Скрипкин В.А. Методы распознавания. – М.: Высш. шк., 1977.

3. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976.

4. Загоруйко Н.Г. Методы распознавания и их применение. – М.: Сов. радио, 1972.

5. Лепский А.Е., Броневич А.Г. Математические методы распознавания образов. – Таганрог, 2009