В более поздних трудах Павлов отмечал, что если он переставал давать пищу после звука колокольчика, у собаки, в конце концов, прекращалось слюноотделение на этот звук. Этот процесс называется угасанием и демонстрирует, что значим как для приобретения так и для сохранения респондентного научения. Павлов также обнаружил, что если собаке дают длительный отдых в период угасания, то слюноотделение будет повторяться при звуке колокольчика. Это явление соответственно называется самопроизвольное восстановление.
Исследования, начатые И.П. Павловым, были предложены, углублены, расширены не только его непосредственными учениками и последователями, но также другими физиологами и психологами. Среди них можно назвать Н.А. Бернштейна, автора оригинальной теории психофизиологической регуляции движений, П.К. Анохина, предложившего модель функциональной системы, на современном уровне описывающую и объясняющую динамику поведенческого акта, и Е.Н. Соколова, который открыл и исследовал ориентировочный рефлекс, имеющий большое значение для понимания психофизиологических механизмов восприятия, внимания и мотивации, предложил модель концептуальной рефлекторной дуги.
Несмотря на то, что Павлов проводил эксперименты на животных, другие исследователи начали изучать основные процессы классического обусловлевания на людях. Эксперимент, который провели Уотсон и Рейнер, иллюстрирует ключевую роль классического обусловливания в формировании таких эмоциональных реакций как страх и тревога.
Респондентное поведение – это скиннеровская версия павловского, или классического обусловлевания. Он также называл его обусловливанием типа С, чтобы подчеркнуть важность стимула, который появляется до реакции и выявляет её. Однако Скинер полагал, что в целом поведение животных и человека нельзя объяснять в терминах классического обусловливания. Напротив, он делал акцент на поведении, не связанном с какими-либо известными стимулами. Тип поведения, который предполагает, что организм активно воздействует на окружение с целью изменить события каким-то образом, Скинер определил, как оперантное поведение. Он также назвал его обусловливание типа Р, чтобы подчеркнуть воздействие реакции на будущее поведение.
Оперантное поведение (вызванное оперантным научением) определяется событиями, которые следуют за реакцией. То есть за поведением идет следствие, и природа этого следствия изменяет тенденцию организма повторять данное поведение в будущем. Например, катание на роликах, игра на фортепиано, написание своего собственного имени – это образцы оперантной реакции, или операнты, контролируемые результатами, следующими за соответствующим поведением. Это произвольные приобретенные реакции, для которых не существует стимула, поддающегося распознаванию. Скинер понимал, что бессмысленно рассуждать о происхождении оперантного поведения, так как нам неизвестны стимул или внутренняя причина, ответственная за его появление. Оно происходит спонтанно.
Если последствия благоприятны для организма, тогда вероятность повторения операнта в будущем усиливается. Когда это происходит, говорят, что последствия подкрепляются, и оперантные реакции, полученные в результате подкрепления (в смысле высокой вероятности его появления) обусловились. Сила позитивного подкрепляющего стимула, таким образом, определяется в соответствии с его воздействием на последующую частоту реакций, которые непосредственно предшествовали ему.
И напротив, если последствия реакции не благоприятны и не подкреплены, тогда вероятность получить оперант уменьшается.
Скинер полагал, что, следовательно, оперантное поведение контролируется негативными последствиями. По определению, негативные, или аверсивные последствия ослабляют поведение, порождающее их, и усиливают поведение, устраняющее их.
Для того, чтобы изучать оперантное поведение в лаборатории, Скинер придумал на первый взгляд простую процедуру, названную свободным оперантным методом. Полуголодную крысу поместили в пустую «свободно-оперантную камеру» (известную как «ящик Скинера», где был только рычаг и миска для еды. Сначала крыса демонстрировала множество оперантов: ходила, принюхивалась, почесывалась, чистила себя и мочилась. Такие реакции не вызывались никакими узнаваемыми стимулами; они были спонтанны. В конце концов, в ходе своей ознакомительной деятельности крыса нажимала на рычаг, тем самым получая шарик пищи, автоматически доставляемый в миску под рычагом. Так как реакция нажатия рычага первоначально имела низкую вероятность возникновения, ее следует считать чисто случайной по отношению к питанию; то есть мы не можем предсказать, когда крыса будет нажимать на рычаг, и не можем заставить ее делать это. Однако лишая ее пищи, скажем, на 24 часа, мы можем убедиться, что реакция нажима на рычаг приобретет, в конце концов, высокую вероятность в такой особой ситуации. Это делается при помощи метода, называющегося научение через кормушку, посредством которого экспериментатор дает шарик пищи каждый раз, когда крыса нажимает на рычаг. Потом можно увидеть, что крыса проводит все больше времени рядом с рычагом и миской для пищи, а через соответствующий промежуток времени она начнет нажимать на рычаг все быстрее и быстрее. Таким образом, нажатие рычага постепенно становится наиболее частой реакцией крысы на условие пищевой дипревации. В ситуации оперантного научения поведение крысы является инструментальным, то есть оно действует на окружающую среду, порождая подкрепление (пищу). Если далее идут неподкрепляемые опыты, то есть если пища не появляется постоянно вслед за реакцией нажатия рычага, крыса, в конце концов, перестанет нажимать его, и произойдет экспериментальное угасание.
Суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение, не подкрепленное или наказуемое, имеет тенденцию не повторяться или подавляться. Следовательно, концепция подкрепления играет ключевую роль в теории Скиннера.
Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления. Режим подкрепления – правило, устанавливающее вероятность, с которой подкрепление будет происходить. Самым простым правилом является предъявление подкрепления каждый раз, когда субъект дает желаемую реакцию. Это называется режимом непрерывного подкрепления и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию. В большинстве ситуаций повседневной жизни, однако, это либо не осуществимо, либо не экономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. В большинстве случаев социальное поведение человека подкрепляется только иногда.
Скинер тщательно изучал, как режим прерывистого, или частичного, подкрепления влияет на оперантное поведение. Хотя возможны многие различные режимы подкрепления, их все можно классифицировать в соответствии с двумя основными параметрами:
1. Подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыдущего подкрепления (так называемый режим временного подкрепления)