Главная |
страница 1
ISBN 978-5-7262-1376-7. НЕЙРОИНФОРМАТИКА – 2011. Часть 2 Equation Chapter 1 Section 1Е.Е. ВИТЯЕВ1,2, Л.И. ПЕРЛОВСКИЙ3, Б.Я. КОВАЛЕРЧУК4, С.О. СПЕРАНСКИЙ2 1Институт математики им. С.Л. Соболева СО РАН, Новосибирск vityaev@math.nsc.ru 2Новосибирский государственный университет netid@ya.ru 3Harvard University, Air Force Research Laboratory, USA leonid@seas.harvard.edu 4Central Washington University, Ellensburg, USA borisk@cwu.edu ВЕРОЯТНОСТНАЯ ДИНАМИЧЕСКАЯ ЛОГИКА МЫШЛЕНИЯ И ПОЗНАНИЯ Ранее был разработан оригинальный подход к моделированию мышления, основанный на теории нейронных моделирующих полей и динамической логике. Этот подход основан на анализе неадекватности формальной логики и проблеме комбинаторной сложности. В данной работе мы интерпретируем теорию нейронных моделирующих полей и динамическую логику в логико-вероятностных терминах и показываем, как в этом случае формулируются и решаются проблемы моделирования мышления в искусственном интеллекте (ИИ). Ключевые слова: логика, мышление, познание, обучение, модель нейрона, вероятностное прогнозирование, предсказание Введение Л.И. Перловским разработан оригинальный подход к моделированию мышления, основанный на теории нейронных моделирующих полей и динамической логике [5,14,15]. Этот подход, с одной стороны, основан на детальном анализе проблем моделирования мышления в Искусственном Интеллекте – неадекватности формальной логики и проблеме комбинаторной сложности, а, с другой стороны, на данных психологии, философии и когнитивной науки об основных механизмах мышления. Проделанный анализ проблем моделирования мышления имеет, на самом деле, более широкое значение и преодоление этих проблем может привести к другим формализациям процесса мышления. С этой целью в работе [11] получено обобщение теории нейронных моделирующих полей и динамической логики в виде динамической логики мышления и когнитивной динамической логики. Эти логики сформулированы в наиболее общих терминах: отношения общности, неопределенности, простоты; проблема максимизации сходства с эмпирическим содержанием; метод обучения. В данной работе мы интерпретируем эти понятия в терминах логики и вероятности: неопределенность мы интерпретируем как вероятность, а процесс обучения как семантический вероятностный вывод [2, 7, 20, 21]. Полученная в результате Вероятностная Динамическая Логика Мышления и Познания принадлежит уже к области вероятностных моделей мышления и познания [17, 19]. Мы показываем, что данная логика также, но по-своему, решает проблемы моделирования мышления – неадекватности формальной логики и проблему комбинаторной сложности. Таким образом, через обобщение, полученное в работе [11], мы расширяем интерпретацию теории нейронных моделирующих полей и динамической логики на вероятностные модели мышления и познания. Вероятностная динамическая логика уже была ранее применена для моделирования работы мозга и когнитивных процессов [2, 3, 4]. Проблемы моделирования мышления с вероятностной точки зрения Повторим и дополним изложение проблем моделирования мышления в Искусственном Интеллекте, изложенную в [11]. Основатели искусственного интеллекта в 1950-х и 1960-х годах верили, что, основываясь на правилах логики, они вскоре создадут компьютеры, чей интеллект намного превзойдет человеческий [11]. Но вскоре стало ясно, что логика не работает. На самом деле мозг – не логическое, а предсказывающее устройство, действующее в соответствии с принципом опережающего отражения действительности П.К. Анохина [1]. Но, как выясняется, подходящего определения предсказания для индуктивно выведенных знаний до настоящего времени не существует. Общепринятое определение предсказания принадлежит Карлу Попперу и состоит в том, что для предсказания некоторого факта необходимо логически вывести его из имеющихся фактов и теории (дедуктивно-номологический вывод). Но это определение не работает для индуктивно выведенных знаний, имеющих некоторую оценку вероятности, подтвержденности и т.д. При логическом выводе предсказаний необходимо, в то же время, получить оценку вероятности, подтвержденности и т.д. полученного предсказания. В случае вероятностей этим занимается вероятностная логика. Но оказывается, что оценки предсказаний резко падают в процессе их вычисления вслед за логическим выводом и оценка предсказания может оказаться нулевой. Предсказания с нулевыми оценками не являются предсказаниями. Эта проблема в настоящее время осознана как проблема синтеза логики и вероятности. Прошло уже 4 симпозиума под общим названием Projic (Probability+Logic), в 2002–2009 гг.. Во введении к симпозиуму 2002 говорится: "Artificial intelligence is one key discipline in which probability theory competes with other logics for application. It is becoming vitally important to evaluate and integrate systems that are based on very different approaches to reasoning, and there is strong demand for theoretical understanding of the relationships between these approaches". Однако решение проблемы до сих пор не найдено, т.к. от логического вывода никто не отказывается, а в этом случае, с нашей точки зрения, адекватного определения предсказания получить нельзя. Нами введено новое понятие предсказания, изложенное в работах [2, 20, 21], полученное путем отказа от логического вывода и значений истинности "истина" и "ложь". Вместо логического вывода нами определён семантический вероятностный вывод, используемый далее для определения оператора обучения. Другой проблемой моделирования мышления в Искусственном Интеллекте является проблема Комбинаторной Сложности (КС) [11]. В процессе восприятия мышление ассоциирует подмножества сигналов, соответствующих объектам, с представлениями об этих объектах. Математическое описание этого, казалось бы, простого шага – процесса ассоциации-распознавания-понимания оказалось далеко не простым делом, и это связано с понятием комбинаторной сложности (КС) [16]. Последовавшие исследования обнаружили связь КС с логикой в различных алгоритмах [16]. Логика рассматривает каждое даже небольшое изменение в данных или моделях, как новое высказывание (гипотезу). Это приводит к КС. В работе [9] доказывается, что даже нахождение простейшей совокупности высказываний, которой описываются решающие деревья, NP-трудна. Приписывание значений истинности "истина" и "ложь" не позволяет сравнивать высказывания. В данной работе мы используем два отношения упорядочения на высказываниях: отношение общности и сравнение по условной вероятности, которые используются далее в семантическом вероятностном выводе. Это принципиально сокращает перебор и, наряду с применением статистических оценок, делает его практически приемлемым и решает проблему КС. Напомним и дополним основные определения, связанные с моделированием мышления [11]. Мы принимаем, что основные механизмы мышления включают инстинкты, концепции, эмоции и поведение. Из механизмов мышления концепции-модели наиболее доступны сознанию. Рэй Джакендофф [10] считает, что наиболее адекватный термин для механизма концепций – это модель, или внутренняя модель мышления. Концепции – это модели в буквальном смысле. Они моделируют в нашем мышлении объекты и ситуации в мире. Мышление включает иерархию многих уровней концепций-моделей, от простейших элементов восприятия (линии, движущиеся точки) до концепций-моделей объектов, отношений между объектами, до сложных ситуаций. Фундаментальная роль эмоций в мышлении состоит в том, что они связаны с инстинктом к знанию – максимизацией меры близости между концепциями-моделями и миром [11]. Этот эмоциональный механизм оказался принципиально важен для того, чтобы «разорвать замкнутый круг» комбинаторной сложности. В процессе обучения и понимания входных сигналов, модели адаптируются так, чтобы лучше представлять входные сигналы, и чтобы схожесть между ними увеличивалась. Это увеличение схожести удовлетворяет инстинкт к знанию и ощущается как эстетическая эмоция. Экспериментальные подтверждения связи эмоций с инстинктом к знанию можно найти в Информационной теории эмоций П.В.Симонова [6]: "Суммируя результаты собственных опытов и данные литературы, мы пришли ... к выводу о том, что эмоция есть отражение мозгом человека и животных какой-либо актуальной потребности (её качества и величины) и вероятности (возможности) её удовлетворения, которую мозг оценивает на основе генетического и ранее приобретенного индивидуального опыта...". "Удовольствие всегда есть результат уже происходящего (контактного) взаимодействия (удовлетворения потребности – Е.Е.), в то время как радость (эмоция – Е.Е.) есть ожидание удовольствия в связи с растущей вероятностью удовлетворения потребности". Следующий эксперимент показывает, что инстинкт к знанию вызывает положительные эмоции [6]: «В наших опытах на экране, установленном перед испытуемым, проецировались наборы из пяти цифр – единиц и нулей. Испытуемого предупреждали, что некоторые из кадров, содержащие общий признак (например, два нуля подряд 00), будут сопровождаться гудком. Задача испытуемого состояла в обнаружении этого общего признака. До возникновения первой (как правило, ошибочной, например 01) гипотезы относительно подкрепляемого признака ни новые кадры, ни гудок не вызывали КГР (кожногальванический рефлекс, индикатор эмоций – Е.Е.). Возникновение гипотезы сопровождается КГР. После формирования гипотезы возможны две ситуации, которые мы рассматриваем в качестве экспериментальных моделей отрицательной и положительной эмоциональных реакций. Гипотеза не верна, и кадр, содержащий подкрепляемый признак (00 и, следовательно, не подтверждающий гипотезу 01 – Е.Е.), не вызывает КГР. Когда же гудок показывает испытуемому, что он ошибся, регистрируется КГР как результат рассогласования гипотезы с наличным раздражителем. Испытуемый несколько раз меняет гипотезу, и в какой-то момент она начинает соответствовать действительности. Теперь уже само появление подкрепляемого кадра вызывает КГР, а его подкрепление гудком приводит к ещё более сильным кожногальваническим сдвигам. Как понять этот эффект? Ведь в данном случае произошло полное совпадение гипотезы. с наличным стимулом. Отсутствие рассогласования должно было бы повлечь за собой отсутствие КГР. На самом деле в последнем случае мы также встречаемся с рассогласованием, но рассогласованием иного рода, чем при проверке ложной гипотезы. Формирующийся в процессе повторных сочетаний прогноз содержит не только афферентную модель цели, но и вероятность достижения этой цели. В момент подкрепления кадра гудком прогнозируемая вероятность решения задачи (правильность гипотезы) резко возросла, и это рассогласование прогноза с поступившей информацией привело к сильной КГР». Таким образом, подтверждение гипотезы, увеличивающее её вероятность и, следовательно, близость концепции-модели нашему миру (проявление инстинкта к знанию), вызывают положительную эмоцию. Весь процесс обучения, когда человек добивается всё более точных и правильных действий в реальном мире, поддерживается эмоциями – положительные эмоции подкрепляют правильные действия (и соответствующие правильные предсказания, увеличивая их вероятность), а отрицательные эмоции корректируют рассогласования модели и мира (и соответствующие неправильные предсказания, уменьшая их вероятность). Близость концепций-моделей нашему миру, контролируемая эмоциями, в нашем случае оценивается вероятностью предсказаний. Семантический вероятностный вывод, лежащий в основе оператора обучения, осуществляет направленный поиск всё более вероятных правил путём добавления в условие правил таких дополнительных свойств мира, которые позволяют увеличивать условную вероятность прогноза и, следовательно, обеспечивают большую адекватность и близость миру. Такой направленный поиск снимает проблему КС. Данные, модели, отношение общности, близость модели к данным Определим основные понятия вероятностной динамической логики простейшим образом. Развернутые определения в языке логики первого порядка определены в [20, 21, 22]. Под данными будем понимать стандартную матрицу объект-признак, в которой на множестве объектов задано множество признаков , где – переменная по объектам. Определим для каждого значения признака атомарное высказывание , где – некоторое значение признака . Множество всех атомарных высказываний обозначим через At. Литералами будем называть множество атомарных высказываний, либо их отрицаний. Будем обозначать литералы как булевы переменные a, b, c, … , а множество всех литералов обозначим через L. Будем предполагать, что данные представлены эмпирической системой [11] (являющейся алгебраической системой) в которой заданы значения истинности всех атомарных высказываний на множестве объектов A. Под моделью будем понимать Булеву функцию от булевых переменных их L. Известно, что любая Булева функция может быть представлена множеством правил {R} вида поэтому под моделью будем понимать множество правил {R}. Для моделей, определенных как совокупность правил, возникает проблема комбинаторной сложности. Чтобы избежать этой проблемы, определим упорядочения на множествах правил и моделей, а также меру близости между моделью и данными. Определим множество предложений F как множество высказываний, получающихся из литер L замыканием относительно логических операций , и . Определение 1. Правило называется строго более общим , чем правило , тогда и только тогда, когда , и более общим ≿, если . Следствие 1. ⊢, где ⊢ – доказуемость в исчислении высказываний. Таким образом, более общее высказывание логически сильнее. Кроме того, более общее правило проще, так как содержит меньшее число литер в посылке правила, поэтому отношение общности также является отношением простоты. Определение 2. Модель будем называть более общей , чем модель , тогда и только тогда, когда для любого правила существует более общее правило , ≿ и хотя бы для одного правила отношение общности строгое . Следствие 2. ⊢. Из следствия 2 следует, что более общая модель логически сильнее и одновременно проще. Определение 3. Вероятностью на множестве предложений F назовем отображение , удовлетворяющее следующим условиям [8]:
Определим условную вероятность правила как . Мы предполагаем, что вероятность отражает вероятности событий, представленных в данных Data. Определение 4. Вероятностным законом будем называть такое правило которое нельзя обобщить (логически усилить), не уменьшая его условную вероятность, т.е. для любого если , то . Вероятностные законы – это наиболее общие, простые и логически сильные правила, среди более общих правил с той же условной вероятностью. Обозначим множество всех вероятностных законов через PL (Probabilistic Laws). Любое правило можно обобщить (упростить и логически усилить) до вероятностного закона с сохранением условной вероятности. Лемма 1. Для любого правила , либо оно является вероятностным законом, либо существует вероятностный закон такой, что и . Определение 5. Под вероятностной закономерной моделью будем понимать модель . Лемма 2. Для любой модели существует более общая вероятностная закономерная модель . Определим отношение упорядочения на множестве вероятностных законов PL. Определение 6. Под отношением вероятностного вывода ⊑, для вероятностных законов будем понимать одновременное выполнение двух неравенств ≿ и . Если оба неравенства строгие, то отношение вероятностного вывода будем называть строгим ⊏. Определение 7. Семантическим вероятностным выводом [2, 20, 21] будем называть максимальную (которую нельзя продолжить) последовательность вероятностных законов находящихся в отношении вероятностного вывода ⊏⊏…⊏. Последний вероятностный закон в этом выводе будем называть максимально специфическим. Расширим определение семантического вероятностного вывода и определим отношение близости на вероятностных закономерных моделях. Определение 8. Вероятностная закономерная модель , ближе к данным, чем вероятностная закономерная модель , обозначим , тогда и только тогда, когда и для любого вероятностного закона существует вероятностный закон , ⊑ и для хотя бы одного вероятностного закона существует вероятностный закон , со строгим отношением вероятностного вывода ⊏. Это определение означает, что при переходе от вероятностной закономерной модели к модели происходит такое наращивание посылок правил, которое (строго) увеличивает условную вероятность этих правил при минимальной их общности и простоте. Увеличение условных вероятностей правил модели означает увеличение предсказательной способности модели и её близость нашим данным. Как говорилось во введении, инстинкт к знанию состоит в «максимизации меры близости между концепциями-моделями и миром». В нашем определении мера близости определяется через совокупность условных вероятностей правил модели, т.е. через совокупную точность предсказаний модели. Инстинкт к знанию – это процесс, который проявляется динамически – путём последовательного приближения к данным. Определение 10. Обучающим оператором назовем такое преобразование одной модели в модель , при котором близость модели к данным становится выше и все максимально специфические законы модели переходят в модель . Нами разработана программная система Discovery, которая реализует данный обучающий оператор. Эта программа успешно применялась для решения целого ряда практических задач [12,13,18]. Практическая применимость данного подхода и, в частности, обучающего оператора продемонстрирована нами на примере аппроксимации экспертной модели принятия решений в диагностике рака груди. Краткое описание этого применения в терминах вероятностной динамической логики приведено в [22]. Полное описание этого применения приведено в работах [13]. Список литературы
Oxford Univ. Press, New York, NY, 2002.
УДК 004.032.26(06) Нейронные сети Смотрите также:
Ранее был разработан оригинальный подход к моделированию мышления, основанный на теории нейронных моделирующих полей и динамической логике
139.59kb.
Уроки 1-4 А. Рогачёв. Последняя редакция: 22. 06. 2000 (В. Иванов). Свежую редакцию учебника можно найти на
331.6kb.
Такое название получил метод коллективной творческой деятельности и учебного исследования, основанный на целенаправленном использовании интуитивно-образного, метафорического мышления участников
90.66kb.
Вскоре после Крестных страданий Господа Иисуса Христа и по Вознесении Его на Небо в Кесарии Палестинской поселился сотник по имени Корнилий, ранее живший в Италии Фракийской
221.48kb.
История группы
173.5kb.
Конвенция о биологическом разнообразии
640.25kb.
Использование нейронных сетей в диагностике заболеваний по стабилографическим показателям
150.45kb.
Обследование
273.53kb.
Ярославль- город с давней и богатой историей. Основанный в одиннадцатом веке Ярославом Мудрым, он был вторым по размеру городом Руси, одним из центров торговли того периода
22.59kb.
Элементы теории вероятностей это новое содержание в курсе математики средней школы
230.83kb.
II. Рабочая программа дисциплины
187.16kb.
Молоты сваебойные общие технические условия Pile driving hammers. Specifications Дата введения 1998—01—01 Предисловие 1 разработан ао «вниистройдормаш»
95.1kb.
|