Зрительное восприятие ансамблей: обзор исследований

Наталья А. Тюрина

Эта статья опубликована под лицензией Creative Commons и не автором статьи. Поэтому если вы найдете какие-либо неточности, вы можете исправить их, обновив статью.

Обновить статью

Зрительное восприятие ансамблей: обзор исследований Creative Commons

Алексей Ю. Яковлев,

Наталья А. Тюрина

Российский журнал когнитивной науки, Год журнала: 2020, Номер том 7(3), С. 4 - 24, https://doi.org/10.47010/20.3.1

Опубликована Янв. 1, 2020

Последнее обновление статьи Авг. 23, 2022

Эта статья опубликована под лицензией

Статистика

Аннотация

Под восприятием ансамблей обычно понимают способность наблюдателя за короткое время с высокой степенью точности оценивать обобщенные статистические свойства множества объектов (среднее, дисперсия, количество). В обзоре описывается феноменология восприятия ансамблей и методы его исследования. Описываются конкурирующие концепции механизмов отбора и обработки информации для расчета статистик ансамбля, одна из которых предполагает грубую обработку всех объектов сразу, а другая — детальную обработку лишь нескольких отобранных объектов с последующим обобщением оцененных свойств на остальные объекты. Рассматривается развитие взглядов на сущность внутренних репрезентаций, через которые становятся доступны статистики ансамбля: от идеи репрезентации единственной величины (например, для среднего значения признака) до относительно новой идеи «богатой» репрезентации, приблизительно воспроизводящей все распределение признаков предъявленных объектов. Рассматривается роль репрезентации ансамблей в организации восприятия и решении ряда перцептивных задач. Наконец, в обзоре рассматриваются потенциальные нейрофизиологические корреляты восприятия ансамблей и перспективные теоретические модели его нейронных механизмов.

Ключевые слова

Зрительная кора, статистические репрезентации, восприятие зрительных ансамблей, популяционное кодирование, распределенное внимание

Что такое восприятие ансамблей

Воспринимаемый нами мир состоит из множества разнообразных объектов, и нам кажется, что мы с легкостью видим все объекты, на которые в данный момент смотрим. Однако многочисленные исследования указывают на то, что из-за ограничений объема внимания и рабочей памяти наша перцептивная система способна глубоко обработать за раз лишь небольшое количество объектов (Luck, Vogel, 2013; Scimeca, Franconeri, 2015). Так, было показано, что человек может одновременно следить не более чем за 4-8 движущимися объектами (Alvarez, Franconeri, 2007) и удерживать в зрительной рабочей памяти около 4. Если обобщить многократно описанные ограничения зрительного восприятия, то можно прийти к заключению, что на самом деле мы осознанно воспринимаем лишь скудную часть зрительной информации, а субъективное чувство полноты восприятия — не более чем иллюзия (Noe, 2002).

Однако методики экспериментов, в которых изучались вышеописанные ограничения, в ряде аспектов сильно отличаются от условий реального восприятия. В особенности стоит отметить тот факт, что в экспериментах, демонстрирующих фундаментальные ограничения восприятия, каждый стимульный объект рассматривается как отдельная единица, не зависящая от других таких же единиц (как, например, разноцветные квадраты на нейтральном фоне при измерении объема зрительной рабочей памяти). Однако в реальном мире многочисленные объекты в гораздо большей степени связаны друг с другом и могут образовывать крупные группы. Так, листья образуют крону дерева, а каждый движущийся по дороге автомобиль включен в общий поток движения. Если наблюдатель пытается охватить все это множество объектов, то его, скорее всего, не будет интересовать цвет и размер каждого отдельного листочка или скорость каждого отдельного автомобиля. Более важной будет обобщенная информация о скорости движения всех автомобилей или цвете листьев, чтобы понимать дорожную обстановку или заметить приближение осени.

Каким же образом можно представить себе репрезентацию обобщенных свойств множества схожих объектов без репрезентации каждого объекта по отдельности? Одним из естественных способов такой репрезентации могут быть сводные статистики (summary statistics). В наших примерах можно было бы оценить, что средняя скорость потока машин на дороге — около 60 км/ч, а листья «в среднем» желто-зеленые, что характерно для середины сентября. И если «сжать» информацию о признаках сотен похожих объектов до подобных усредненных значений, то объем информации обо всех этих объектах становится существенно меньше, чем если кодировать каждый объект по отдельности. Вероятно, для информации в таком сжатом виде фундаментальные ограничения зрительной системы перестают быть непреодолимыми (Cohen et al., 2016). Некоторые исследователи полагают, что значительную часть зрительной информации с периферии зрительного поля мы воспринимаем именно в виде сводных статистик, а не в виде отдельных объектов (Cohen et al., 2016; Rosenholtz et al., 2012). Таким образом, репрезентация множества объектов в форме сводных статистик может быть потенциальным способом преодоления ограничений переработки информации в зрительной системе (Cohen et al., 2016).

В современной литературе способность к оценке сводных статистик множеств объектов получила название восприятия ансамблей (ensemble perception — Alvarez, 2011; Whitney, Yamanashi Leib, 2018). Первые работы, посвященные оценке усредненных признаков большого набора элементов, появились во второй половине XX века (см. обзор Bauer, 2015), однако основной импульс данная область исследования получила после публикации работы Д. Ариели, посвященной восприятию среднего размера (Агіеіу, 2001). В экспериментах Ариели испытуемым на 500 мс предъявлялись наборы из 4-16 кругов разного диаметра. Сразу после предъявления набора показывали тестовый круг. От испытуемых требовалось ответить, видели ли они круг точно такого же размера в предъявленном наборе или нет. В другом случае предъявлялись два тестовых круга разного размера, и испытуемых просили указать, какой из двух кругов соответствует среднему размеру набора. В результате Ариели описал классический паттерн восприятия ансамблей: испытуемые довольно точно определяли средний размер кругов, в то время как точность отчета о размерах отдельных кругов приближалась к уровню случайных угадываний. Более того, точность оценки среднего не менялась при увеличении количества кругов в наборе. Таким образом, восприятие ансамблей предполагает мгновенное определение статистических свойств группы объектов с одинаково высокой точностью вне зависимости от количества объектов в группе.

Функциональное значение сводных статистик

На основе того, что люди точно отчитываются о среднем размере, но не могут отчитаться об отдельных объектах ансамбля, было высказано предположение, что репрезентации отдельных объектов стираются после усреднения (Агіеіу, 2001). Более поздняя трактовка предполагает, что репрезентации индивидуальных объектов сохраняются, однако они сильно зашумлены (Alvarez, 2011). Высокий уровень шума возникает вследствие распределения внимания между множеством объектов: чем больше объектов охватывает внимание, тем меньше внимания уделяется каждому отдельному объекту, и, соответственно, тем менее точно репрезентируется каждый объект. Именно неточность репрезентаций индивидуальных объектов затрудняет воспроизведение признаков этих объектов.

Если репрезентации отдельных объектов так сильно зашумлены, то каким образом наблюдателю удается довольно точно определять среднее значение признака? Дж. Алварес (Alvarez, 2011) объясняет это простой статистической закономерностью, впервые описанной Ф. Гальтоном (Galton, 1907) и получившей название «мудрость толпы» (wisdom of crowds). Галь- тон описывал ярмарочный конкурс, на котором участники должны были угадать вес быка на глаз. Каждая индивидуальная оценка веса была неточной: кто-то недооценивал вес, кто-то переоценивал, но если усреднить индивидуальные оценки, то отклонения в большую и меньшую сторону компенсируют друг друга, и полученное усредненное значение будет очень близко к реальному весу быка. В более новых моделях восприятия ансамблей этот механизм также получил название «сокращение шума» (noise cancellation — Baek, Chong, 2020a). Данное преимущество усреднения становится особенно очевидным, если рассматривать группу объектов, находящихся на периферии поля зрения. Бесспорно, объекты, на которых фиксируется взгляд, воспринимаются с наибольшей точностью. Однако чем дальше от точки фиксации находится объект, тем менее точно мы воспринимаем его признаки в силу падения разрешающей способности зрительной системы. Однако, если усреднить множество подобных
неточных репрезентаций объектов, то, как и в случае с весом быка, все отклонения, вызванные случайным шумом, будут нивелировать друг друга. Таким образом, точность, с которой репрезентируется среднее арифметическое значение признака у множества объектов с периферии поля зрения, будет сравнима в точности с репрезентацией отдельного объекта, на который направлен наш взор (Chong, Treisman, 2003; Wolfe et al., 2015).

Дальнейшие исследования показали, что зрительная система может извлекать из множества предъявленных объектов такие статистики, как среднее значение, дисперсия и приблизительное количество, за 50-200 мс, что соизмеримо со скоростью восприятия отдельных объектов. Большинство исследований было сконцентрировано именно на способности усреднять характеристики множества объектов, и тенденция рассматривать восприятие ансамблей как синоним усреднения сохраняется во многих работах до сих пор. Из низкоуровневых признаков могут усредняться: размер (Агіеіу, 2001; Chong, Treisman, 2003), ориентация (Alvarez, Oliva, 2009; Dakin, Watt, 1997; Parkes et al., 2001), скорость (Watamaniuk, Duchon, 1992), яркость (Bauer, 2009), цветовой тон (Gardelle, Summerfield, 2011; Maule, Franklin, 2015) и расположение в пространстве (Alvarez, Oliva, 2008). Способность усреднять высокоуровневые признаки в основном изучалось на примере лиц, где с помощью компьютерного морфинга^[I]варьировались некоторые лицевые признаки (см. пример на рисунке 1). Так, была показана способность усреднять выражаемую эмоцию, гендер и поворот головы (Florey et al., 2016; Haberman, Whitney, 2007; Sweeny, Whitney, 2014). В последние годы в литературе появились свидетельства в пользу усреднения на основе зрительной информации более абстрактных признаков, таких как одушевленность (Leib et al., 2016) и даже экономическая ценность (Yamanashi Leib et al., 2020). Примеры наборов стимулов, которые используются для изучения возможностей усреднения различных признаков, представлены на рисунке 2.

Идея о вычислении различных статистик также исследуется в рамках восприятия зрительных сцен, однако существует важное различие между восприятием сцен (scene perception) и восприятием ансамблей (ensemble perception). Восприятие сцен предполагает, что зрительная система извлекает определенные статистики, такие как наклон линий, еще до распознавания отдельных объектов (Oliva, Torralba, 2006). Восприятие ансамблей же строится на репрезентациях уже выделенных объектов и их признаков.

Таким образом, несмотря на то, что в основе репрезентации ансамбля (например, в форме среднего) лежат зашумленные репрезентации отдельных объектов, она не уступает репрезентациям, на основе которых строится, а в чем-то значительно превосходит их. Так, точность репрезентации ансамблей выше, чем точность репрезентации отдельного объекта из ансамбля, а скорость вычисления некоторых статистик может быть соизмерима со скоростью восприятия отдельных объектов (Chong, Treisman, 2003; Haberman, Whitney, 2009). Все это позволяет сделать предположение о значимости восприятия ансамблей для преодоления потенциальных ограничений восприятия.

Ограничения репрезентации ансамблей

Хотя сводные статистики помогают преодолевать потенциальные ограничения зрительной системы, уменьшая необходимость кодировать каждый объект по отдельности, сами они также подпадают под ограничения. Эти ограничения связаны с тем, что создавать репрезентации для слишком большого числа статистик так же затруднительно, как и создавать репрезентации для большого числа объектов. В реальном восприятии возможна ситуация, при которой в зрительном поле одновременно оказываются несколько разнотипных ансамблей объектов: например, по дороге едет поток автомобилей, одновременно по тро- туару идет толпа пешеходов, а в небе пролетает стая птиц. Попытка в одно и то же время независимо определить среднюю скорость движения каждого типа объектов потребует распределения ресурсов зрительной системы между обработкой трех ансамблей. Экспериментальные свидетельства указывают на то, что обработка статистической информации о нескольких ансамблях, скорее всего, довольно жестко ограничена. Как правило, оценка подобных ограничений осуществляется методом подсказки, при котором испытуемых информируют, о каком подмножестве объектов (ансамбле) из большого массива их попросят отчитаться, либо заранее, либо после предъявления стимула (Emmanouil, Treisman, 2008; Halberda et al., 2006; Im, Chong, 2014; Utochkin, Vostrikov, 2017). В первом случае предполагается, что испытуемый заранее может сфокусировать внимание на обработке только одного ансамбля, во втором — что испытуемый должен будет стараться распределить внимание между всеми предъявленными ансамблями. Условие сфокусированного внимания выступает контрольным условием, которое обеспечивает оценку того, насколько точно испытуемый оценивает ансамблевые статистики, когда он может отдать все свои ресурсы одному ансамблю. Иногда в качестве контрольного используется условие, в котором на экране просто предъявлен один ансамбль и никакая подсказка не дается (Chong, Treisman, 2005). Условие распределенного внимания в сочетании с варьированием количества ансамблей (например, отдельных пространственных групп или групп разного цвета) позволяет оценить максимальное количество ансамблей, между которыми могут быть распределены ресурсы обработки информации без потери точности относительно контрольного условия. Аналогичная логика лежит, в частности, в основе оценки объема рабочей памяти на отдельные объекты (Luck, Vogel, 1997).

**Рисунок 1** Пример морфинга выражения лиц. Из статьи: *Harris D.A., Ciaramitaro VM.* Interdependent mechanisms for processing gender and emotion: The special status of angry male faces // Frontiers in Psychology. 2016. Vol. 7. Article 1046. (Figure 2.) https://doi.org/10.3389/fpsyg.2016.01046. Используется в соответствии с лицензией Creative Commons (СС BY).

Проведенные с использованием разнообразных модификаций метода подсказки исследования стабильно показывают очень низкую оценку объема параллельной обработки информации о нескольких ансамблях или даже демонстрируют невозможность параллельной обработки. Так, в некоторых исследованиях авторы показывают, что испытуемые могут параллельно вычислять среднее (Chong, Treisman, 2005) или грубо оценивать количество в двух подмножествах объектов (при этом в исследовании Дж. Халберды и коллег было показано, что одновременно с информацией о подмножествах испытуемому всегда доступна информация обо всех объектах сразу вне зависимости от того, на сколько подмножеств эти объекты делятся). В других исследованиях авторы приходят к выводу, что, возможно, одномоментно может быть обработан только один ансамбль, а попытка обработать хотя бы два уже приводит к потере точности (Attarha, Moore, 2015; Attarha et al., 2014; Brand et al., 2012; Emmanouil, Treisman, 2008; Utochkin, Vostrikov, 2017). Примечательно, что оценка в 1-2 ансамбля оказывается даже более жестким ограничением, чем стандартная оценка для параллельной обработки отдельных объектов — 3-4 единицы (Cowan, 2001; Luck, Vogel, 1997; Pylyshyn, Storm, 1988; Scholl, 2001). Возможно, важную роль в этом играет более «слабая» перцептивная организация ансамблей, которые часто представляют собой нечеткие группы, перемешанные в пространстве (Im, Chong, 2014), — например, яблоки среди листьев на дереве, — в то время как каждый объект имеет определенные границы и пространственную локализацию.

Таким образом, одновременная обработка нескольких ансамблей подвержена даже более жестким ограничениям, чем одновременная обработка отдельных объектов. Эти ограничения выглядят логичными, если интерпретировать ансамбль как просто более крупную единицу информации в восприятии и рабочей памяти. И действительно, оценивание статистик ансамблей демонстрирует характер ограничений, сходный с восприятием объектов. Например, обработка одного ансамбля требует примерно столько же ресурсов внимания, сколько и обработка отдельного объекта (Huang, 2015). Более того, распределение внимания между разными статистиками одного ансамбля оказывается более эффективно, чем распределение внимания между статистиками разных ансамблей (Emmanouil, Treisman, 2008; Utochkin, Vostrikov, 2017), что очень напоминает преимущество при распределении внимания между несколькими признаками одного объекта (Duncan, 1984). Таким образом, можно предположить, что, снимая ограничения на количество объектов, которые могут быть одновременно репрезентированы в форме сводной статистики, механизм восприятия ансамблей переводит эти ограничения на более высокий уровень репрезентаций множеств.

Как учитывается информация об отдельных объектах при усреднении

Хотя сводная статистика ансамбля представляется удобной и компактной репрезентацией, аппроксимирующей информацию обо всех видимых объектах сразу, действительно ли она вычисляется на основе всех объектов? Этот вопрос вызвал напряженную дискуссию. Напомним, что первые исследования сводных статистик ансамблей проводились на примере усреднения размера кругов (например, Агіеіу, 2001; Chong, Treisman, 2003). На тот момент не было известно биологически правдоподобного механизма, который был бы способен обрабатывать и с высокой точностью усреднять большое количество объектов с такими сложными признаками, как размер, за 50-200 мс. В связи с этим различные авторы предложили два варианта механизма построения репрезентаций ансамблей. Согласно первому варианту, все элементы ансамбля участвуют в усреднении, и тогда необходимо постулировать новый механизм, который будет производить подобную параллельную обработку всех объектов и их усреднение. Второй вариант предполагает, что из ансамбля с помощью уже известных механизмов с ограниченной пропускной способностью (сфокусированное внимание и рабочая память) отбирается лишь небольшая группа объектов, на основе которых и производится усреднение.

Механизм усреднения с параллельной исчерпывающей обработкой (parallel exhaustive averaging) всех элементов был предложен С.Ч. Чонгом и Э. Трисман (Baek, Chong, 2020а, 2020b; Chong, Treisman, 2003; Treisman, 2006). Согласно их теории, в усреднении участвует распределенное внимание, которое охватывает все элементы ансамбля. Далее специальный механизм, который не имеет ограничений на обработку информации, усредняет репрезентации отдельных объектов. При условии, что внимание распределяется между всеми объектами, с увеличением количества объектов в зрительном поле каждый отдельный элемент получает меньше ресурсов внимания (Alvarez, 2011; Baek, Chong, 2020а). Таким образом, при увеличении количества объектов, с одной стороны, их репрезентации становятся менее точными, что ухудшает точность усреднения, а с другой стороны, усиливается эффект «мудрости толпы», что улучшает точность усреднения (Baek, Chong, 2020а). В результате взаимной компенсации этих двух факторов точность репрезентации среднего остается постоянной вне зависимости от количества усредняемых объектов (Alvarez, 2011).

Согласно теории выборочной оценки (sampling), которая основывается на психофизическом моделировании, для вычисления среднего значения признака в ансамбле с наблюдаемым в экспериментах уровнем погрешности вполне достаточно «выхватить» несколько элементов ансамбля и на их основе рассчитать среднее значение. При этом количество объектов, необходимое для такой выборочной оценки, укладывается в оценки ограничений сфокусированного внимания и рабочей памяти. Следовательно, никакого особого механизма усреднения с высокой пропускной способностью не требуется. Эту позицию в наиболее радикальном виде заявили К. Мышек и Д. Саймонс (Myczek, Simons, 2008), хотя идея о выборочной оценке на основе нескольких элементов была ранее высказана в некоторых работах, посвященных восприятию текстур (Dakin, 2001; Parkes et al., 2001). Мышек и Саймонс симулировали поведение испытуемых в экспериментах с оценкой среднего размера при разных объемах усредняемой подвыборки объектов и пришли к выводу, что для достижения наблюдаемого уровня погрешности эта подвыборка едва ли превышает два элемента. На основе этого Мышек и Саймонс заключили, что люди могут фокусировать внимание на 1-2 объектах и далее усреднять их в рабочей памяти. Стоит отметить, однако, что Мышек и Саймонс не включили в свою модель никаких иных источников ошибки, кроме связанных с неполнотой выборки. Отсутствие других источников ошибки (например, ошибки оценки индивидуальных признаков и ошибки, добавляемой при вычислении среднего) психофизически неправдоподобно и, скорее всего, занижает оценку необходимой выборки.

В дальнейшем модели выборочного оценивания дорабатывалась и усложнялась. В целом различные модели предполагают разное минимальное количество усредняемых объектов, которое могло бы быть достаточным для объяснения наблюдаемого в экспериментах уровня точности усреднения. В одном случае это может быть фиксированное количество, которое составляет 2-4 объекта (например, Maule, Franklin, 2016; Myczek, Simons, 2008). В других моделях предполагается, что количество усредняемых объектов зависит от общего количества объектов в ансамбле. Так, по разным оценкам, предполагается, что зрительная система усредняет все объекты ансамбля (Baek, Chong, 2020а), примерно половину всего ансамбля (Allik et al., 2013) или квадратный корень из размера предъявленного набора объектов (Dakin, 2001; Corea et al., 2014; Solomon, 2010; Whitney, Yamanashi Leib, 2018). Также существуют разные предположения относительно того, по какому принципу отбираются объекты. Большинство моделей предполагают, что объекты отбираются случайным образом (Allik et al., 2013; Im, Halberda, 2013; Marchant et al., 2013; Maule, Franklin, 2016), однако есть доказательства в пользу отбора объектов, которые в большей степени привлекают внимание, то есть самые перцептивно заметные (salient) объекты (Kanaya et al., 2018). Помимо этого, было выдвинуто предложение о неслучайном отборе объектов на основе различных стратегий (Myczek, Simons, 2008), однако эта идея подверглась критике на эмпирических (Chong et al., 2008) и логических (Utochkin, Tiurina, 2014) основаниях.

Хотя существует много экспериментальных аргументов в пользу параллельной исчерпывающей обработки, существование выборочной обработки сложно полностью исключить. Так, сфокусированное внимание и рабочая память на отдельные объекты, по-видимому, не являются критически важными для эффективного усреднения. Например, восприятие ансамблей остается успешным при блокировке осознанного восприятия части объектов на периферии в результате скучивания (crowding), то есть маскировки другими близко прилегающими объектами (Solomon, 2010). Другим примером является возможность усреднения объектов в игнорируемом полуполе зрения при синдроме одностороннего пространственного игнорирования (Hochstein et al., 2015). В некоторых исследованиях демонстрируется увеличение точности и скорости оценки среднего с увеличением количества объектов в ансамбле (Baek, Chong, 2020а; Lee et al., 2016; Parkes et al., 2001; Robitaille, Harris, 2011). Это также хорошо согласуется с рассмотренной выше идеей выигрыша усреднения за счет эффекта «мудрости толпы» (Alvarez, 2011; Galton, 1907), и это, в свою очередь, созвучно теории параллельного исчерпывающего усреднения. Впрочем, некоторые модели выборочного усреднения, в которых выборка растет вместе с размером ансамбля, также позволяют спрогнозировать такой результат (Dakin, 2001; Gorea et al., 2014; Solomon, 2010; Whitney, Yamanashi Leib, 2018). Наконец, недавняя попытка напрямую сравнить модели параллельной исчерпывающей и выборочной оценки в отношении точности предсказаний результатов реальных испытуемых, показывает преимущество первых (Baek, Chong, 2020а). Тем не менее данные аргументы не исключают того, что выборочная оценка может использоваться в ряде случаев наравне с параллельной исчерпывающей обработкой.

Какие статистики репрезентируются в ансамбле

Большинство рассмотренных нами до сих пор исследований сводных статистик ансамблей были посвящены усреднению признаков множества объектов (Alvarez, 2011), однако в целом ряде работ было показано, что зрительная система способна извлекать и другие статистики. Так, люди способны извлекать информацию о диапазоне или дисперсии значений как низкоуровневых признаков (Dakin, Watt, 1997; Khvostov, Utochkin, 2019; Morgan et al., 2008; Norman et al., 2015; Solomon et al., 2011; Suarez-Pinilla et al., 2018; Yang et al., 2018), так и высокоуровневых (Haberman et al., 2015). Как отмечалось выше, зрительная система способна мгновенно оценивать примерное количество объектов в ансамбле (Burr, Ross, 2008; Chong, Evans, 2011; Halberda et al., 2006), что
может быть также важно при восприятии множества объектов.

В связи с тем, что все названные статистики входят в обобщенное понятие «сводных статистик ансамбля», возникает вопрос: существует ли единый механизм («статистический модуль»), который осуществляет их вычисление? Или, напротив, каждая такая статистика рассчитывается отдельно? Этот вопрос изучался с помощью нескольких методических подходов. В рамках первого методического подхода исследователи оценивали корреляцию между точностью оценок разных статистик ансамблей по испытуемым. Этот подход иногда используется в фундаментальных когнитивных исследованиях для ответа на вопрос о возможной общности механизма, обеспечивающего выполнение различных задач (Huang et al., 2012; Underwood, 1975; Wilmer, 2008). В результате было показано, что уровни точности оценок среднего и различных мер разброса (Khvostov, Utochkin, 2019; Yang et al., 2018), а также оценок среднего и количества (Lee et al., 2016) либо не коррелируют между собой, либо коррелируют на более низком уровне, чем можно было бы предсказать, предполагая, что один параметр вычисляется на основе другого (так, например, формула среднего арифметического в математической статистике включает количество). Таким образом, можно предположить, что оценка ансамблевых статистик разного рода обслуживается множественными механизмами (однако см. Hansmann-Roth et al., 2020, где авторы демонстрируют высокую корреляцию между оценками среднего и дисперсии). Кроме того, даже вычисление среднего для разных признаков, похоже, не базируется на едином механизме (Haberman et al., 2015).

Второй методический подход, использующийся для ответа на вопрос о соотношении механизмов оценивания разных статистик, основан на методе подсказки или методе двойных задач (оба используются в исследованиях распределенного внимания) и отвечает на вопрос, могут ли несколько разнотипных статистик быть извлечены одновременно из одного и того же ансамбля. В этих исследованиях было показано, что испытуемые могут оценивать среднее и количество, а также среднее и диапазон значений признака с одинаковой точностью вне зависимости от того, нужно ли отчитываться об одной статистике или распределять внимание между двумя (Khvostov, Utochkin, 2019; Utochkin, Vostrikov, 2017). Таким образом, оценивание различных статистик ансамблей может происходить параллельно (без дополнительных затрат внимания) и независимо (осуществляться разными механизмами).

Хотя описанные исследования свидетельствуют скорее о независимом характере прямого оценивания нескольких статистик, существуют доказательства того, что эти статистики могут взаимодействовать на имплицитном уровне. Так, в литературе по зрительному усреднению хорошо известен эффект диапазона: чем более широкий диапазон значений признака используется в наборе, тем с большей погрешностью оценивается среднее (Dakin, 2001; Fouriezos et al., 2008; Im, Halberda, 2013; Maule, Franklin, 2015; Rosenholtz, 2001; Utochkin, Tiurina, 2014). Эффект последействия адаптации® к среднему также модулируется вариативностью (Corbett et al., 2012; Jeong, Chong, 2020), а эффект последействия адаптации к вариативности одного признака может переноситься на вариативность другого признака (Maule, Franklin, 2020). Наконец, в задаче подравнивания среднего размера было показано, что точнее всего подравнивание происходит тогда, когда экран со стимулами соответствует экрану с тестовым набором по количеству объектов в ансамбле и форме распределения признаков объектов. Другими словами, когда испытуемый подравнивает средний размер ансамбля не с помощью одного кружка, а с помощью нового ансамбля, чей средний размер нужно подравнять под средний размер только что предъявленного ансамбля (Kim, Chong, 2020). Таким образом, многочисленные имплицитные эффекты дают основание думать, что на определенном уровне построения репрезентации ансамблей различные статистики кодируются вместе, а дополнительные источники независимой вариативности добавляются на этапе, требующем эксплицитного отчета.

Исследования последних лет показывают, что репрезентация ансамблей может не ограничиваться относительно простыми сводными статистиками — средним, количеством, дисперсией. Возможно, при кодировании ансамблей зрительная система в некотором приближении может воспроизводить все распределение предъявленных признаков. А. Четвериков с коллегами (Chetverikov et al., 2016, 2017а, 2017b, 2020; Hansmann-Roth et al., 2019) продемонстрировали это на задаче зрительного поиска уникального признака (odd-one-out search). В их экспериментах были организованы короткие последовательности из 5-6 проб, на протяжении которых дистракторы генерировались из стабильного распределения (распределения с одним и тем же центром, разбросом и формой). В заключительной пробе последовательности распределение дистрактора сдвигалось (меняло центр), а целевой стимул принимал одно из значений из бывшего распределения дистракторов. Это приводило к возникновению отрицательного прайминга (замедлению реакции на прежде игнорируемый стимул). Примечательно, что величина замедления была приблизительно пропорциональна частотности данного признака в бывшем распределении дистрактора, то есть форма функции времени реакции в критической пробе эксперимента до некоторой степени повторяла форму функции плотности вероятности признаков у дистракторов. По мнению Четверикова и коллег, это означает, что все распределение ансамбля дистракторов репрезентируется и далее имплицитно выучивается (Chetverikov et al., 2017b). В другом исследовании было показано, что по итогам длительной серии проб большой объем информации о распределении призна-

² Последействие адаптации — иллюзорное восприятие физических свойств некоего стимула, предъявленного после длительного непрерывного воздействия другого стимула. При этом искажение восприятия, как правило, направлено в противоположную сторону от адаптирующего стимула. Примером является «иллюзия водопада», при которой долгое наблюдение за движением в определенном направлении вызывает кажущееся движение неподвижного стимула в противоположном направлении.
ков в ансамбле может запоминаться и эксплицитно (Oriel, Hozempa, 2016).

Таким образом, за последние годы произошел заметный сдвиг в представлениях о том, что репрезентируется в ансамбле. Если первоначально речь преимущественно шла о том, что информация о множестве объектов «сжимается» до одной характеризующей все объекты величины вроде среднего, то сейчас речь идет о гораздо более полной и богатой репрезентации, из которой можно извлечь много разноплановой информации об объектах ансамбля, при этом не осознавая деталей каждого объекта. Это рассматривается как важный шаг к пониманию того, как может формироваться переживание полноты и детализированности восприятия за пределами жестких ограничений внимания и рабочей памяти (Cohen et al., 2016).

Роль репрезентации ансамблей в различных задачах

Хотя оценка характеристик ансамбля может быть самостоятельной перцептивной задачей (см. примеры с оценкой средней скорости автомобилей или определением времени года по средней желтизне листьев), репрезентация ансамблей может играть важную роль и в других задачах. Из самого определения ансамбля следует его функциональное преимущество, заключающееся в том, что наблюдателю не нужно оперировать множеством отдельных репрезентаций объектов. Это становится важным в условиях, когда приходится за короткое время просматривать много объектов и принимать решение исходя из общего контекста, который они создают.

Одним из очевидных примеров важной роли ансамблей в перцептивных задачах является зрительный поиск. Здесь статистическая структура стимула (распределения признаков целевого стимула и дис- тракторов) нередко рассматривается как восходящий фактор перцептивной заметности (saliency) цели и, соответственно, легкости ее обнаружения. Перцептивно заметным нередко считают такой объект, который можно охарактеризовать как «статистический выброс» (outlier), то есть стимул, отстоящий слишком далеко от массы дистракторов (Hochstein et al., 2018; Rosenholtz, 1999). Примечательно при этом, что объект, категоризуемый как выброс, одновременно исключается из расчета статистики по основной массе объектов (Haberman, Whitney, 2010). Соответственно, с этой точки зрения, перцептивная заметность должна рассматриваться не только как результат сходства или контраста с ближайшим окружением (что предлагают некоторые влиятельные модели — например, (Itti, Koch, 2001)), а скорее как функция глобальной статистики по всему зрительному полю или его крупной части (Palmer et al., 2000; Rosenholtz, 1999). Кроме этого, характеристики ансамблей могут рассматриваться и как важные нисходящие детерминанты поиска и управления вниманием. Например, ансамбли дистракторов могут выступать в качестве контекстных признаков, обучение которым облегчает поиск в дальнейшем (см. обсуждение работ Четверикова и коллег в предыдущем разделе: Chetverikov et al., 2017b; Corbett, Melcher, 2014).

Распределения признаков в ансамблях, вероятно, также играют важную роль в категоризации объектов. Это может быть особенно важно при распознавании большого количества разнотипных объектов, особенно если они перемешаны в пространстве. В качестве примера можно привести способность мгновенно разглядеть множество яблок среди листьев на дереве и даже оценить среднюю степень их красноты, несмотря на то что зеленые листья должны были бы серьезным образом сдвигать эту оценку. Возможность категоризовать сразу большое множество объектов (множество яблок и множество листьев), не перебирая эти объекты по одному, может быть основана на различении формы распределений признаков в ансамбле (Im et al., 2020; Utochkin, 2015; Utochkin et al., 2018). Так, разнотипные объекты могут сформировать полимодальное распределение по цвету, размеру, ориентации и т.п., где каждый пик будет репрезентировать отдельную категорию — например, листья и яблоки. Объекты же одной категории, например яблоки разной степени спелости, даже при значительном внутреннем разнообразии, более вероятно сформируют унимодальное или равномерное распределение. Более того, по мнению некоторых авторов, категории реальных объектов, хранимые в памяти, могут быть также организованы как ансамбли с соответствующей статистической структурой (Khayat, Hochstein, 2019). Например, понятие прототипа из теорий категоризации аналогично ансамблевому среднему, границы категории аналогичны диапазону, а типичность каждого конкретного представителя категории может быть определена как расстояние от этого представителя до прототипа (среднего).

Поскольку, как говорилось выше, объем рабочей памяти на отдельные объекты довольно жестко ограничен, ансамбли могут также выступать в качестве инструмента преодоления этих ограничений до некоторой степени. Так, если наблюдатель не в состоянии точно запомнить все подлежащие запоминанию элементы, но в то же время эти элементы образуют «хороший» ансамбль, то даже неполнота информации об отдельных элементах может быть до некоторой степени скомпенсирована благодаря информации об ансамбле. В предельном случае, если человек ничего не помнит об объекте, о котором ему нужно отчитаться, он может полностью «заменить» его отчетом об ансамбле (Khayat, Hochstein, 2018, 2019), и этот отчет стратегически будет все еще лучше, чем случайное угадывание. Подобная стратегия запоминания и воспроизведения, опирающаяся частично на ограниченную память об отдельных объектах, а частично на память об ансамбле, получила название «иерархического кодирования» (hierarchical encoding — Brady, Alvarez, 2011). В экспериментах влияние ансамблей на припоминание отдельных объектов проявляется, например, как систематический сдвиг ответов к среднему признаку по группе (Brady, Alvarez, 2011) или как то, что величина погрешности при отчете об объекте в значительной степени повторяет величину погрешности при отчете о среднем признаке в ансамбле, к которому этот объект относится (Utochkin, Brady, 2020).

Нейрофизиологические корреляты восприятия ансамблей

Хотя исследования восприятия ансамблей стремительно развиваются, представления о нейрофизиологических механизмах построения ансамблевых репрезентаций и вычисления сводных статистик пока далеки от полноты. В данном разделе мы планируем рассмотреть существующие на данный момент эмпирические данные (в первую очередь из области нейрокартирования и клиники локальных поражений мозга) о функциональной локализации восприятия ансамблей. Кроме того, мы собираемся осветить современные попытки построения биологически правдоподобной теории, объясняющей возможные механизмы репрезентации ансамблей в мозге.

Идея репрезентации ансамблей в форме разнообразных статистик множественных объектов вызывает довольно естественную попытку представить себе какой-то «калькулятор». Возможно, этот «калькулятор» мог бы быть функционально локализован в областях мозга, связываемых с математическим познанием (Arsalidou et al., 2018). Однако, скорее всего, рассуждения о репрезентации ансамблей как о стандартных математических операциях не совсем корректно. Репрезентация ансамблей — это в первую очередь перцептивное явление. Сильным аргументом в пользу этой идеи является, например, тот факт, что оцениваемые характеристики ансамблей подвержены последействию сенсорной адаптации в форме контрастных иллюзий, о чем мы также упоминали в предыдущем разделе. Например, если в одной и той же части зрительного поля на продолжительное время предъявить адаптирующий ансамбль с бОлыпим средним размером объектов, а следом предъявить ансамбль с меньшим средним размером объектов, то средний размер объектов последнего будет восприниматься меньше, чем в действительности (Corbett et al., 2012; Corbett, Melcher, 2014; Tiurina et al., 2019). Подобные контрастные иллюзии действуют и для восприятия количества объектов (Burr, Ross, 2008) и для восприятия вариативности (Jeong, Chong, 2020; Maule, Franklin, 2020; Norman et al., 2015). Наличие таких иллюзий традиционно рассматривается как важный аргумент в пользу подлинно сенсорной, а не когнитивной природы репрезентаций ансамблей (Suzuki, 2005). Это задает направление поиска функциональной локализации восприятия ансамблей в первую очередь внутри зрительной системы, так как контрастные иллюзии традиционно рассматриваются как результат селективной адаптации модально специфичных нейронов, проводящих путей и центральных областей анализаторов (Webster, 2015). Как будет видно из дальнейшего обзора, существующие на сегодняшний день исследования действительно сосредоточены на поиске нейрофизиологической основы восприятия ансамблей в областях мозга, связанных со зрением и контролем процессов обработки зрительной информации.

Важный цикл работ по фМ?1 -картированию репрезентаций ансамблей был выполнен Дж. Кантом и Я. Сю (Cant, Xu, 2012, 2015, 2016, 2020). В их работе была использована методика фМРТ-адаптации, основанная на анализе изменения мозговой активности в условиях длительного воздействия стимула (адаптации) и его последующей замены на другой стимул (реадаптации). Если некая популяция нейронов вовлечена в обработку стимула, то в процессе адаптации будет обнаруживаться снижение BOLD-сигнала в соответствующей области коры, а при замене на новый стимул сигнал вновь усилится (Grill-Spector, Malach, 2001). Для корректного определения того, в обработку каких характеристик стимула вовлечена та или иная нейронная популяция, стимульные условия должны обеспечивать возможность двойной диссоциации. Это значит, что в эксперименте должны тестироваться 1) условие, в котором адаптирующий и реадаптирующий стимулы не различаются ничем, кроме тестируемой характеристики, а также 2) условие, в котором адаптирующий и реадаптирующий стимулы не различаются по тестируемой характеристике, но различаются по другим характеристикам.

Основные результаты исследований Канта и Сю указывают на важную роль, которую в обработке информации об ансамблях играют структуры вентрального зрительного пути. Особо среди них выделяются две функциональные области — парагиппокампальная область мест (parahippocampal place area, РРА) и латеральный затылочный комплекс (lateral occipital complex, LOC). В предшествующих исследованиях показано, что РРА играет важную роль в восприятии текстур (Cant, Goodale, 2007, 2011) и зрительных сцен, в особенности — в обработке трехмерной структуры пространства и кодировании геометрии окружающей среды, причем без привязки к конкретным объектам, наполняющим эти сцены (Epstein, Kanwisher, 1998). LOC вовлечен в распознавание целостных объектов и реагирует на форму объектов вне зависимости от низкоуровневых зрительных характеристик: цвета, текстуры или направление движения (Grill-Spector et al., 2001). Таким образом, по мнению Канта и Сю, обработка информации об ансамблях представляет собой комплексное явление, включающее в себя репрезентации целостных объектов, признаков текстуры и целой зрительной сцены. В этом — важное отличие репрезентации ансамбля, состоящего из дискретных объектов (камней на пляже, листьев на дереве, ягод в корзине), и от текстуры поверхности (например, ряби на воде), и от единичных объектов (например, одного листа или одной ягоды, показанной на пустом фоне). Так, при адаптации к текстуре поверхности обнаруживаются различия в активации РРА, но не LOC, а при адаптации к единичным объектам — наоборот. При адаптации к ансамблям объектов изменения в активации обнаруживаются как в РРА, так и в LOC. При этом активация РРА не чувствительна к изменениям плотности ансамбля — расстояния между элементами в ансамбле, но при этом она чувствительна к изменениям количественного соотношения разнотипных элементов (например, ягод и листьев) внутри ансамбля. Таким образом, обработка зрительного ансамбля скорее связана с высокоуровневой зрительной информацией, такой как количество элементов определенного вида, чем с низкоуровневой, такой как пространственная частота (Cant, Xu, 2015).

В одном из своих новых исследований Кант и Сю (Cant, Xu, 2020) также показали, что структуры, чувствительные к информации об ансамблях, одновременно обладают чувствительностью к появлению «выбросов» — редких объектов, сильно отличающихся от всех остальных и, как правило, автоматически привлекающих к себе внимание (Hochstein et al., 2018; Nothdurft, 1993; Rosenholtz, 1999; Theeuwes, 1992). Так, испытуемым предъявлялись либо однородные ансамбли (например, только ягоды), либо неоднородные наборы (например, большинство ягод и несколько листьев-«выбросов»). Показано, что адаптация в РРА сохранялась, если выбросы во втором последовательно предъявленном ансамбле соответствовали основным элементам в первом ансамбле, хотя большинство элементов во втором ансамбле отличались от элементов первого ансамбля (например: первый ансамбль из ягод, а второй из листьев, но есть несколько ягод). Однако адаптация в РРА ослабевала, если элементы- выбросы были из другого набора (например, первый ансамбль из ягод, второй тоже из ягод, но с добавлением нескольких листьев). Сходные эффекты были обнаружены в LOC и областях фронтопариетальной сети, связанных с когнитивным контролем. Авторы предполагают, что эти области обнаруживают выбросы и включают информацию об этих выбросах в систему принятия решений.

Серия нейропсихологических и клинико-психологических работ, опубликованных в течение последнего десятилетия, позволила сформулировать еще несколько важных идей относительно функциональных механизмов восприятия ансамблей. Сразу несколько таких работ выполнены на материале одностороннего игнорирования (hemineglect), синдрома, возникающего в результате поражения заднетеменной коры правого полушария и проявляющегося в виде затруднений осознанного восприятия объектов в левом полуполе зрения, особенно в присутствии каких-либо объектов в правом полуполе. Функционально задние отделы теменной коры обычно связывают с перемещением пространственного внимания. Следовательно, синдром одностороннего игнорирования рассматривается как результат патологического невнимания к левому полуполю зрения. Было установлено, что, несмотря на проблемы с осознанным восприятием объектов, пациентам с синдромом одностороннего игнорирования до некоторой степени доступна информация об ансамблях, предъявленных в левое полуполе. Так, если таким пациентам предъявляются билатерально два набора кругов с различающимися средними размерами и при этом нужно оценить общее среднее всех предъявленных кругов, то их оценки демонстрируют, что испытуемые принимают в расчет круги из обоих полуполей, хотя вклад правого полуполя ожидаемо выше (Hochstein et al., 2015; Pavlovskaya et al., 2015).

Сильное имплицитное влияние ансамбля при одностороннем игнорировании обнаруживается и в сложной для таких пациентов задаче зрительного поиска. В частности, при предъявлении набора объектов для поиска в левое полуполе пациенты чаще допускают ложные тревоги (отвечают, что целевой объект есть, когда его на самом деле нет) в том случае, когда средний размер дистракторов равен размеру цели (Yamanashi Leib et al., 2012). Иными словами, присутствие ансамбля, чьи средние характеристики похожи на заданную цель, заставляют пациентов чаще считать, что они видели цель.

Таким образом, несмотря на сложности с направлением внимания в левое полуполе, полученные данные согласуются с результатами большого количества поведенческих исследований на норме: пациентам с односторонним игнорированием до некоторой степени доступны репрезентации ансамблей во всем зрительном поле. Этот вывод может показаться довольно парадоксальным, так как показывает относительную сохранность репрезентации ансамблей при ограниченной возможности обратить внимание и осознать присутствие объектов, из которых ансамбль состоит. Однако это не так удивительно, если принять во внимание, что ведущая функция заднетеменной коры в первую очередь касается перемещения сфокусированного внимания между участками зрительного поля или объектами. Таким образом, относительная сохранность восприятия ансамблей при одностороннем игнорировании указывает на то, что вычисление ансамблевых характеристик не зависит критическим образом от фокусировки внимания на отдельных объектах. Более вероятно, что оно достигается за счет механизмов широко распределенного внимания (distributed attention) (Baek, Chong, 2020a; Treisman, 2006). Это, в свою очередь, является еще одним аргументом в пользу параллельного исчерпывающего механизма репрезентации ансамблей (см. раздел «Как учитывается информация об отдельных объектах при усреднении»).

Интересны результаты исследования на другой популяции — людях с прозопагнозией, характеризующейся сниженной способностью к опознанию отдельных лиц при сохранном опознании других объектов. В этом исследовании (Leib et al., 2012) было продемонстрировано, что наличие прозопагнозии также не является строгим ограничением для эффективной статистической репрезентации признаков в наборах, состоящих из изображений лиц. Участники исследования с установленной прозопагнозией показали уровень точности оценки ансамбля морфированных лиц по среднему выражению лица (например, в ансамбле морфов между фотографиями лиц, выражающих счастье и гнев) и даже средней идентичности (в ансамбле морфов между фотографиями лиц индивида 1 и индивида 2) не ниже, чем уровень точности контрольной группы без выраженной прозопагнозии. Таким образом, авторы приводят новое важное свидетельство в пользу того, что ансамбль может являться эффективным способом репрезентации большого количества объектов, позволяющим обойти некоторые ограничения процесса опознания на уровне отдельных объектов.

Не менее важным, чем вопрос о функциональной локализации восприятия ансамблей, является вопрос собственно о нейронном механизме, который может лежать в основе репрезентации множественных объектов как ансамбля. Каким образом рассчитываются сводные статистики? Как зрительная система получает доступ к более подробной информации о целом распределении, если доступ к каждому отдельному объекту
ограничен? Хотя предлагаемые на сегодняшний день модели до известной степени спекулятивны и прямых эмпирических доказательств в их пользу не так много, тем не менее они основаны на достаточно хорошо установленных базовых механизмах работы зрительной системы, а потому их можно рассматривать как перспективные биологически правдоподобные модели.

Первым важным механизмом, который, согласно многим представлениям, может обеспечивать репрезентацию ансамблей, является пространственная суммация (pooling) локальных сигналов внутри восходящей иерархии зрительной системы. Поскольку при продвижении «вверх» по зрительной иерархии (например, от VI-V2 к ѴЗ-Ѵ4-Ѵ5 и далее) размер рецептивных полей (участков зрительного поля, к которым чувствителен каждый нейрон) имеет свойство увеличиваться (Hochstein, Ahissar, 2002), то каждый вышележащий отдел зрительной коры может суммировать все больше локальных сигналов. С одной стороны, такая пространственная суммация обеспечивает нарастающую чувствительность ко все более крупным и сложным элементам зрительного окружения (например, если VI реагирует скорее на линии определенного наклона, то V4 уже может реагировать на фрагменты формы — углы, закругленные линии, а различные нейроны нижнетеменной коры — на специфические объекты и даже целые сцены). С другой стороны, пространственная суммация может обеспечивать сведение в одном рецептивном поле сигналов о нескольких рассеянных в этом рецептивном поле отдельных элементах, результатом чего и можно считать репрезентацию ансамбля. Например, если в зрительном поле предъявлено несколько отдельных линий с различными ориентациями, то каждая из них будет репрезентирована в маленьком рецептивном поле коры VI, и эти рецептивные поля, скорее всего, не будут пересекаться. Однако уже размер рецептивных полей Ѵ4 позволит суммировать несколько локальных сигналов из VI, если предъявленные линии лежат друг от друга на расстоянии нескольких градусов зрительного угла (Desimone, Schein, 1987). Подобная суммация — в частности, на примере восприятия средней ориентации — напрямую рассматривается как важный механизм репрезентации ансамблей в некоторых моделях (Haberman, Whitney, 2012; Utochkin, 2019). Сходный механизм предлагается для процессов интеграции текстуры (например, Parkes et al., 2001).

Из идеи пространственной суммации естественным образом следует, что собственно нейронная репрезентация ансамбля «появляется» на верхних уровнях зрительной иерархии, где рецептивные поля уже достаточно крупные. Это теоретическое предсказание согласуется, в частности, с уже описанными нами выше данными нейрокартирования, показывающими чувствительность именно иерархически высоких областей зрительной коры, таких как РРА, к структуре ансамбля (Cant, Xu, 2012,2015). Вместе с тем классическая модель суммации, в которой сигналы распространяются снизу вверх от нейронов с маленькими рецептивными полями к нейронам с большими рецептивными полями, то есть модель прямой (feedforward) иерархии, не может объяснить, каким образом информация об ансамбле остается относительно точной и легко доступной, в то время как информация об отдельных членах ансамбля в значительной мере не осознается. На самом деле нетрудно видеть, что это общий аспект восприятия, на который обратили внимание гештальтпсихологи в начале XX века, отмечавшие, что для нашего восприятия свойственно сначала видеть лес, а затем деревья в этом лесу.

Элегантный ответ на этот вопрос — с точки зрения возможных нейронных механизмов — предлагает теория обратной иерархии (Reverse Hierarchy Theory, Ahissar, Hochstein, 2004; Hochstein et al., 2015; Hochstein, Ahissar, 2002). Данная теория дополняет классический принцип интеграции информации снизу вверх механизмом обратного распространения сигналов от высших уровней иерархии к низшим, благодаря чему модулируется локальная активность последних. Важнейшей для теории обратной иерархии является идея о том, что обработка сигнала на нижних уровнях иерархии проходит преимущественно имплицитно, то есть информация с этих стадий не доступна осознанию, а осознаются в первую очередь результаты обработки на верхних уровнях. Поэтому то, что в первую очередь появляется в сознании, — это вовсе не отдельные элементы, из которых составлена сцена, а сразу наиболее крупные структуры этой сцены, к которым можно отнести и ансамбли. Из-за того, что мелкие детали изначально не осознаются, а осознается скорее результат суммации в крупных рецептивных полях, первое перцептивное впечатление (gist), как правило, нечеткое, и информация о деталях в нем минимизирована. Для большей детализации (например, чтобы понять, из каких же конкретно объектов состоит наш ансамбль) требуется движение обратно по иерархии, которое позволяет, например, избирательно усилить репрезентации в отдельных локальных рецептивных полях, что можно было бы интерпретировать как фокусировку внимания (Hochstein et al., 2015; Hochstein, Ahissar, 2002). Таким образом, согласно теории обратной иерархии, ансамбль действительно может быть эффективно репрезентирован при отсутствии эксплицитной информации о каждом его элементе (Hochstein et al., 2015).

Вместе с тем отсылки к суммации недостаточно для объяснения того, каким образом при восприятии ансамбля наблюдателю наряду со средним доступно еще большое количество информации о других статистиках и даже о целом распределении (см. раздел «Какие статистики репрезентируются в ансамбле»). Ведь если весь ансамбль суммируется на одном нейроне с большим рецептивным полем, то его суммарное возбуждение позволит произвести только одну оценку (например, вычислить только среднее). Таким образом, мы подходим ко второму важному механизму репрезентации ансамблей (а также и отдельных стимульных элементов) — популяционному кодированию (Pouget et al., 2000). Согласно принципу популяционного кодирования, на один и тот же стимул определенным образом реагирует целая группа, или популяция, нейронов с относительно пересекающимися рецептивными полями. Однако сила реакции (частота спайков) каждого нейрона не одинакова, а зависит от индивидуального профиля чувствительности каждого нейрона к определенным значения стимула — так называемой
настроечной функции (tuning curve) этого нейрона. Таким образом, весь паттерн активации в нейронной популяции можно представить себе как распределение интенсивностей ответов единичных нейронов, выстроенных друг за другом в монотонном порядке изменения их «предпочтений» — определенных значений сенсорного признака. Дальнейшее декодирование стимула может идти либо по принципу нахождения нейрона с пиковой активацией (Yantis, Abrams, 2014), либо путем вычисления «среднего» активного нейрона из популяции, взвешенного по уровню активности каждого нейрона (Georgopoulos et al., 1986), либо с использованием всего распределения активностей, в котором, помимо пикового значения, учитываются, например, относительные частоты спайков других нейронов и широта вовлеченной популяции, характеризующие общий уровень неопределенности в отношении декодируемого признака (van Bergen et al., 2015; Ma et al., 2006). Если нейронные популяции с малыми рецептивными полями (например, VI) «вычисляют» значения признаков отдельных элементов и ничего не «знают» о вычислениях в других рецептивных полях, то на иерархически более высоких уровнях нейроны с большими рецептивными полями «сводят» эти локальные сигналы в суммарный популяционный код — распределение возбуждения, форма и параметры которого будут напрямую зависеть от того, как распределена активация в каждом локальном рецептивном поле, то есть в конечном счете от распределения признаков в физическом стимуле. Так, например, если физическое распределение включает в себя много относительно похожих значений признака, то максимум активации будет накапливаться преимущественно в середине диапазона суммирующих нейронов, давая жизнь сильной репрезентации среднего; если же распределение включает в себя слишком контрастные значения признака, суммирующие нейроны будут накапливать больше активации на краях диапазона и меньше в середине, что повысит вероятность разделения ансамбля на две категории и не даст закодировать единое среднее (Treue et al., 2000; Utochkin, 2015).

Таким образом, популяционное кодирование в больших рецептивных полях может обеспечить прямую и эффективную репрезентацию ансамбля в форме целого распределения (Chetverikov et al., 2017b; Kim, Chong, 2020), которое дает доступ к разнообразным сводным статистикам. С точки зрения теории обратной иерархии, такая эффективная репрезентация может быть начальной точкой для осознанного восприятия. Использование популяционного кодирования как объяснительной модели оценки сводной статистики позволяет обосновать возможность точной оценки как среднего в отсутствии полного доступа ко всем элементам множества (например, какие-то элементы были увидены и позже забыты или вообще никогда не были представлены в сознании), так и диапазона значений, представленных в наборе стимулов (Brezis et al., 2016; Brezis et al., 2017; Hochstein, 2016; Khayat, Hochstein, 2018; Pavlovskaya et al., 2017). Грубая количественная оценка элементов, вероятно, также достигается с помощью селективного кодирования популяциями нейронов, чувствительных к определенным количественным диапазонам (Piazza et al., 2004). Форма популяционного кода позволяет определять, какие элементы включаются в ансамбль, какие элементы исключаются из него как выбросы (Haberman, Whitney, 2010) и при этом привлекают внимание (Haberman, Whitney, 2012; Hochstein et al., 2018), а также сегментировать/катего- ризировать элементы разных перемешанных в пространстве ансамблей (Khayat, Hochstein, 2018; Treue et al., 2000; Utochkin, 2015,2019).

Обобщая вышесказанное, популяционное кодирование в больших рецептивных полях (то есть за счет суммации локальных сигналов) на современном этапе теории восприятия ансамблей представляет собой перспективную модель его нейронного механизма. Она позволяет объяснить большое количество поведенческих феноменов, относящихся к данной области, основываясь на биологически правдоподобных принципах работы зрительной системы, а также ряда других систем мозга. Вместе с тем на настоящий момент эта модель является в большей степени теоретической, а свидетельствующие в ее пользу (или опровергающие ее) эмпирические работы на реальных популяциях нейронов очень редки (например, Piazza et al., 2004, на материале восприятия количества; Treue et al., 2000, на материале восприятия движения). Это означает, что в будущем понадобится более интенсивная работа, нацеленная на изучение нейрофизиологических механизмов восприятия ансамблей.

Заключение

Как видно из нашего обзора, исследования зрительного восприятия ансамблей — бурно развивающаяся область современной когнитивной науки. Легко заметить, что сама идея репрезентации большого количества объектов в форме ансамблей — это в значительной мере новый виток давней дискуссии о том, как мы воспринимаем целое и его элементы, и о том, что из них первично. Вместе с тем появление работ в области восприятия ансамблей ознаменовалось новыми важными эмпирическими открытиями и теоретическими идеями. Идея того, что зрительная система может обобщать большое количество зашумленных, несовершенных репрезентаций отдельных объектов в виде целого ряда сводных статистик и даже, возможно, воспроизводить все распределение признака, сама по себе представляет собой гипотезу о возможном механизме восприятия ансамблей, а не только описывает определенные поведенческие паттерны, наблюдаемые в экспериментах. Неслучайно идея статистических репрезентаций в зрительном восприятии была принята некоторыми учеными с большим воодушевлением в качестве перспективного направления исследований для понимания едва ли не самых крупных проблем восприятия, таких как природа фундаментальных ограничений в восприятии объектов (Rosenholtz, 2020) или «великая иллюзия» восприятия и сознания (Cohen et al., 2016). Действительно, вовлечение репрезентации ансамблей в широкий круг самых разных сенсорно-перцептивных процессов (от ориентаций простых линий и направления движения точечных паттернов до лицевой экспрессии и категоризации реальных объектов и сцен),
а также влияние ансамблей на различные перцептивные задачи позволяет думать об этой способности как об одном из фундаментальных механизмов организации перцептивного опыта. Вместе с тем очевидно, что, несмотря на значительные успехи в накоплении эмпирического материала, область пока сравнительно далека от доказательной теории фундаментального механизма репрезентации ансамбля, то есть от объяснения того, как именно осуществляются «расчеты» ансамблевых статистик. В последние годы наметился прогресс в этой области — например, попытка представить репрезентацию ансамблей в виде комбинации базовых сенсорных механизмов, таких как пространственная суммация и популяционное кодирование. Однако эта работа должна быть продолжена в направлении формулировки более точных предсказаний и тщательной эмпирической проверки этих предсказаний.

Литература

Ahissar М., Hochstein S. The reverse hierarchy theory of visual perceptual learning 11 Trends in Cognitive Sciences. 2004. Vol. 8. No. 10. P. 457-464. https://doi.Org/10.1016/j. tics.2004.08.011

Allik J, Toom M., Raidvee A., Averin K, Kreegipuu K. An almost general theory of mean size perception // Vision Research. 2013. Vol. 83. P. 25-39. https://doi.Org/10.1016/i. visres.2013.02.018

Alvarez G. A. Representing multiple objects as an ensemble enhances visual cognition // Trends in Cognitive Sciences. 2011. Vol. 15. No.3. P. 122-131. https://doi.Org/10.1016/j. tics.2011.01.003

Alvarez G. A., Franconeri S.L. How many objects can you track?: Evidence for a resource-limited attentive tracking mechanism // Journal of Vision. 2007. Vol. 7. No. 13. P. 14:1-10. https:// doi.org/10.1167/7.13.14

Alvarez G. A., Oliva A. The representation of simple ensemble visual features outside the focus of attention 11 Psychological Science. 2008. Vol. 19. No.4. P.392-398. https://doi. org/10.1111/j. 1467-9280.2008.02098.X

Alvarez G. A., Oliva A. Spatial ensemble statistics are efficient codes that can be represented with reduced attention // Proceedings of the National Academy of Sciences of the United States of America. 2009. Vol. 106. No. 18. P. 7345-7350. https:/7doi. org/10.1073/pnas.0808981106

Ariely D. Seeing sets: Representation by statistical properties 11 Psychological Science. 2001. Vol. 12. No. 2. P. 157-162. https://doi.org/10.1111/1467-9280.00327

Arsalidou M., Pawliw-Levac M., Sadeghi M., Pascual- Leone J. Brain areas associated with numbers and calculations in children: Meta-analyses of fMRI studies // Developmental Cognitive Neuroscience. 2018. Vol. 30. P. 239-250. https://doi. org/10.1016/j.dcn.2017.08.002

Attarha M., Moore С. M. The capacity limitations of orientation summary statistics 11 Attention, Perception, & Psychophysics. 2015. Vol. 77. No. 4. P. 1116-1131. https://doi.org/10.3758/ S13414-015-0870-0

Attarha M., Moore С. M., Vecera S. P. Summary statistics of size: Fixed processing capacity for multiple ensembles but unlimited processing capacity for single ensembles // Journal of Experimental Psychology: Human Perception and Performance. 2014. Vol. 40. No. 4. P. 1440-1449. https://doi.org/10.1037/a0036206

Baek J, Chong S. C. Distributed attention model of perceptual averaging// Attention, Perception, & Psychophysics. 2020a. Vol. 82. No. 1. P.63-79. https://doi.org/10.3758/sl3414-019-01827-z

Baek J, Chong S. C. Ensemble perception and focused attention: Two different modes of visual processing to cope with limited capacity // Psychonomic Bulletin & Review. 2020b. Vol. 27. P. 602-606. https://doi.org/10.3758/sl3423-020-01718-7

Bauer B. Does Stevens’s power law for brightness extend to perceptual brightness averaging? // The Psychological Record. 2009. Vol. 59. No. 2. P. 171-185. https://doi.org/10.1007/BF03395657

Bauer B. A selective summary of visual averaging research and issues up to 2000 11 Journal of Vision. 2015. Vol. 15. No. 4. P. 14:1-15. https://doi.Org/10.1167/15.4.14

van Bergen R.S., Ji Ma W., PratteM.S., Jehee J. F. M. Sensory uncertainty decoded from visual cortex predicts behavior 11 Nature Neuroscience. 2015. Vol. 18. No. 12. P. 1728-1730. https:// doi.org/10.1038/nn.4150

Brady ТЕ, Alvarez G. A. Hierarchical encoding in visual working memory: Ensemble statistics bias memory for individual items 11 Psychological Science. 2011. Vol. 22. No. 3. P. 384-392. https://doi.org/10,11ZZZ.0.25.6.Z2Z61Q32Z25.6.

Brand Oriet C., Sykes Tottenham L. Size and emotion averaging: Costs of dividing attention after all // Canadian Journal of Experimental Psychology/Revue canadienne de Psychologie experimentale. 2012. Vol. 66. No. 1. P. 63-69. https://doi. org/10.1037/a0026950

Brezis N.. Bronfman Z. Z., Jacoby N.. Lavidor M., Usher M. Transcranial direct current stimulation over the parietal cortex improves approximate numerical averaging // Journal of Cognitive Neuroscience. 2016. Vol. 28. No. 11. P. 1700-1713. https://doi. org/10.1162/jocn a 00991

Brezis N.. Bronfman Z. Z., Usher M. A perceptual-like population-coding mechanism of approximate numerical averaging // Neural Computation. 2017. Vol. 30. No. 2. P. 428-446. https://doi. org/10.1162/neco a 01037

Burr D., Ross J. A visual sense of number 11 Current Biology. 2008. Vol. 18. No. 6. P. 425-428. https://doi.Org/10.1016/j. cub.2008.02.052

Cant J. S., Goodale M.A. Attention to form or surface properties modulates different regions of human occipitotemporal cortex// Cerebral Cortex. 2007. Vol. 17. No.3. P. 713-731. https://doi. .Qtg/lüJJlSäZcerairZbhkC^

Cant J. S., Goodale M.A. Scratching beneath the surface: New insights into the functional properties of the lateral occipital area and parahippocampal place area // Journal of Neuroscience. 2011. Vol. 31. No. 22. P. 8248-8258. https://doi.org/10.1523/ TNEUROSCI.6113-10.2011

Cant J. S., Xu Y. Object ensemble processing in human anterior-medial ventral visual cortex // Journal of Neuroscience. 2012. Vol.32. No.22. P.7685-7700. https://doi.org/10.1523/ INEUROSCI.3325-11.2012

Cant J. S., Xu Y. The impact of density and ratio on objectensemble representation in human anterior-medial ventral visual cortex // Cerebral Cortex. 2015. Vol. 25. No. 11. P. 4226-4239. https://doi.org/10.1093/cercor/bhul45

Cant J. S., Xu Y. The contribution of object shape and surface properties to object ensemble representation in anterior-medial ventral visual cortex // Journal of Cognitive Neuroscience. 2016. Vol. 29. No. 2. P. 398-412. https://doi.org/10.1162/iocn a 01050

Cant J. S., Xu Y. One bad apple spoils the whole bushel: The neural basis of outlier processing // NeuroImage. 2020. Vol. 211. P. 116629:1-14. https://doi.Org/10.1016/j. neuroimage.2020.116629

Chetverikov A., Campana G., Kristjänsson Ä. Building ensemble representations: How the shape of preceding distractor distributions affects visual search // Cognition. 2016. Vol. 153. P. 196-210. https://doi.Org/10.1016/j.cognition.2016.04.018

Chetverikov A., Campana G., Kristjänsson Ä. Representing color ensembles 11 Psychological Science. 2017a. Vol. 28. No. 10. P. 1510-1517. https://doi.org/10.1177/0956797617713787

Chetverikov A., Campana G., Kristjänsson Ä. Set size manipulations reveal the boundary conditions of perceptual ensemble learning // Vision Research. 2017b. Vol. 140. P. 144-156. https:// doi.org/10.1016/j.visres.2017.08.003

Chetverikov A., Campana G., Kristjänsson Ä. Probabilistic rejection templates in visual working memory // Cognition. 2020. Vol. 196. P. 104075:1-7. https://doi.Org/10.1016/j. cognition.2019.104075

Chong S. C, Evans К. K. Distributed versus focused attention (count vs estimate) // WIREs Cognitive Science. 2011. Vol. 2. No. 6. P. 634-638. https://doi.org/10.1002/wcs.136

Chong S. С., Joo S. Emmmanouil Т.-А., Treisman A. Statistical processing: Not so implausible after all // Perception & Psychophysics. 2008. Vol. 70. No. 7. P. 1327-1334. https://doi. org/10.3758,'PP.70.7.1327

Chong S. C., Treisman A. Representation of statistical properties // Vision Research. 2003. Vol. 43. No. 4. P. 393-404. https:// doi.org/10.1016/80042-6989(02)00596-5

Chong S. C., Treisman A. Statistical processing: Computing the average size in perceptual groups 11 Vision Research. 2005. Vol. 45. No. 7. P.891-900. https://doi.Org/10.1016/j. visres.2004.10.004

Cohen M. A., Dennett D. C., Kanwisher N. What is the bandwidth of perceptual experience? 11 Trends in Cognitive Sciences. 2016. Vol. 20. No. 5. P. 324-335. https://doi.Org/10.1016/i. tics.2016.03.006

Corbett /. E., Melcher D. Stable statistical representations facilitate visual search 11 Journal of Experimental Psychology: Human Perception and Performance. 2014. Vol. 40. No. 5. P. 1915-1925. https://doi.org/10.1037/a0037375

Corbett /. E., Wurnitsch N, Schwartz A., Whitney D. An aftereffect of adaptation to mean size 11 Visual Cognition. 2012. Vol. 20. No. 2. P.211-231. https://doi.org/10.1080/13506285.2Q12 ■657261

Cowan N. The magical number 4 in short-term memory: A reconsideration of mental storage capacity // Behavioral and Brain Sciences. 2001. Vol. 24. No. 1. P. 87-114. https://doi. org/10.1017/S0140525X01003922

Dakin S. C. Information limit on the spatial integration of local orientation signals // Journal of the Optical Society of America A. 2001. Vol. 18. No. 5. P. 1016-1026. https://doi.org/10.1364/ iosaa.18.001016

Dakin S. C., Watt R. J. The computation of orientation statistics from visual texture 11 Vision Research. 1997. Vol. 37. No. 22. P.3181-3192. https://doi.org/10.1016/S0042-6989s97100133-8

Desimone R., Schein S. J. Visual properties of neurons in area V4 of the macaque: Sensitivity to stimulus form // Journal of Neurophysiology. 1987. Vol. 57. No.3. P. 835-868. https://doi. Qrg/Um52/jnJW.5ZJ^

Duncan J. Selective attention and the organization of visual information // Journal of Experimental Psychology: General. 1984. Vol. 113. No. 4. P.501-517. https://doi. org/10.1037/0096-3445.113.4.501

Emmanouil T.A., Treisman A. Dividing attention across feature dimensions in statistical processing of perceptual groups 11 Perception & Psychophysics. 2008. Vol. 70. No. 6. P. 946-954. https://doi.Org/10.3758/PP.70.6.946

Epstein R., Kanwisher N. A cortical representation of the local visual environment // Nature. 1998. Vol. 392. No. 6676. P. 598-601. https://doi.org/10.1038/33402

Florey J., Clifford C. W. G., Dakin S., Mareschal I. Spatial limitations in averaging social cues // Scientific Reports. 2016. Vol. 6. No. 1. P.32210:l-12. https://doi.org/10.1038/srep32210

Fouriezos G., Rubenfeld S., Capstick G. Visual statistical decisions 11 Perception & Psychophysics. 2008. Vol. 70. No.3. P. 456-464. https://doi.Org/10.3758/PP.70.3.456

Galton F. Vox Populi 11 Nature. 1907. Vol. 75. No. 1949. P. 450-451. https://doi.org/10.1038/Q75450a0

de Gardelle V., Summerfield C. Robust averaging during perceptual judgment // Proceedings of the National Academy of Sciences. 2011. Vol. 108. No. 32. P. 13341-13346. https://doi. org/10.1073/pnas.1104517108

Georgopoulos A. P., Schwartz A. B., KettnerR.E. Neuronal population coding of movement direction // Science. 1986. Vol. 233. No. 4771. P. 1416-1419. https://doi.org/10.1126/ science.3749885

GoreaA., Belkoura S., Solomon J. A. Summary statistics for size over space and time // Journal of Vision. 2014. Vol. 14. No. 9. P. 22:1-14. https://doi.Org/10.l 167/14,9.22

Grill-Spector K, Kourtzi Z., Kanwisher N. The lateral occipital complex and its role in object recognition 11 Vision Research. 2001. Vol. 41. No. 10. P. 1409-1422. https://doi.org/10.1016/ 80042-6989/01)00073-6

Grill-Spector K, Malach R. fMR-adaptation: A tool for studying the functional properties of human cortical neurons // Acta Psychologies 2001. Vol. 107. No. 1. P.293-321. https://doi. org/10.1016/80001-6918(01)00019-1

Haberman J., Brady T. E, Alvarez G. A. Individual differences in ensemble perception reveal multiple, independent levels of ensemble representation // Journal of Experimental Psychology: General. 2015. Vol. 144. No. 2. P. 432-446. https://doi. org/10.1037/xge0000053

Haberman J., Lee P, Whitney D. Mixed emotions: Sensitivity to facial variance in a crowd of faces // Journal of Vision. 2015. Vol. 15. No. 4. P. 16:1-11. https://doi.Org/10.1167/15.4.16

Haberman J., Whitney D. Ensemble perception: Summarizing the scene and broadening the limits of visual processing // From perception to consciousness: Searching with Anne Treisman / J. Wolfe, L. Robertson (Eds.). N.Y.: Oxford University Press, 2012. P. 339-349.

Haberman J., Whitney D. Rapid extraction of mean emotion and gender from sets of faces 11 Current Biology. 2007. Vol. 17. No. 17. P.R751-R753. https://doi.Org/10.1016/j.cub.2007.06.039

Haberman J., Whitney D. Seeing the mean: Ensemble coding for sets of faces // Journal of Experimental Psychology: Human Perception and Performance. 2009. Vol.35. No.3. P.718-734. https://doi.org/10.1037/a0013899

Haberman J., Whitney D. The visual system discounts emotional deviants when extracting average expression 11 Attention, Perception, & Psychophysics. 2010. Vol. 72. No. 7. P. 1825-1838.

Halberda J., Sires S. E, Feigenson L. Multiple spatially overlapping sets can be enumerated in parallel // Psychological Science. 2006. Vol. 17. No. 7. P. 572-576. https://doi. org/10.111 l/j.l467-9280.2006.01746.x

Hansmann-Roth S., Chetverikov A., Kristjänsson Ä. Representing color and orientation ensembles: Can observers learn multiple feature distributions? // Journal of Vision. 2019. Vol. 19. No.9. P.2:l-17. https://doi.Org/10.1167/19.9.2

Hansmann-Roth S., Kristjänsson A., Whitney D., Chetverikov A. Limits of perception and richness of behaviour: Dissociating implicit and explicit ensemble representations 11 PsyArXiv. https://doi.org/10.31234/osf.io/3y4pz

Harris D. A., Ciaramitaro V.M. Interdependent mechanisms for processing gender and emotion: The special status of angry male faces // Frontiers in Psychology. 2016. Vol. 7. P. 1046:1-12. https://doi.org/10.3389/fpsyg.2016.01046

Hochstein S. The power of populations: How the brain represents features and summary statistics // Journal of Vision. 2016. Vol. 16. No. 12. P. 1117-1117. https://doi.org/10.1167/16.12.1117

Hochstein S., Ahissar M. View from the top: Hierarchies and reverse hierarchies in the visual system // Neuron. 2002. Vol. 36. No. 5. P. 791-804. https://doi.org/10.1016/S0896-6273(02)01091-7

Hochstein S., Pavlovskaya M., Bonneh Y. S., Soroker N. Global statistics are not neglected // Journal of Vision. 2015. Vol. 15. No.4. P.7:1-17. https://doi.Org/10.l 167/15.4,7

Hochstein S., Pavlovskaya M., Bonneh Y. S., Soroker N. Comparing set summary statistics and outlier pop out in vision 11 Journal of Vision. 2018. Vol. 18. No. 13. P. 12:1-13. https://doi. org/10.1167/18.13.12

Huang L. Statistical properties demand as much attention as object features // PLoS One. 2015. Vol. 10. No.8. P.e0131191:l-9. https://doi.org/10.1371/journal.pone.0131191

Huang L., Mo L., Li Y. Measuring the interrelations among multiple paradigms of visual attention: An individual differences approach 11 Journal of Experimental Psychology: Human Perception and Performance. 2012. Vol. 38. No. 2. P. 414-428. https://doi. org/10.1037/a0026314

Im H. Y, Chong S. C. Mean size as a unit of visual working memory 11 Perception. 2014. Vol. 43. No. 7. P. 663-676. https://doi. org/10.1068/p7719

Im H. Y, Halberda J. The effects of sampling and internal noise on the representation of ensemble average size 11 Attention, Perception, & Psychophysics. 2013. Vol. 75. No. 2. P. 278-286. https://doi.org/10.3758/sl3414-012-0399-4

Im H. Y, Tiurina N. A., Utochkin I. S. An explicit investigation of the roles that feature distributions play in rapid visual categorization // Attention, Perception, & Psychophysics. 2020. htiBS^Zdo^

Itti L., Koch С. Computational modelling of visual attention // Nature Reviews Neuroscience. 2001. Vol. 2. No.3. P. 194-203. https://doi.org/10.1038/35058500

Jeong J., Chong S. C. Adaptation to mean and variance: Interrelationships between mean and variance representations in orientation perception // Vision Research. 2020. Vol. 167. P. 46-53. https://doi.Org/10.1016/i.visres.2020.01.002

KanayaS., Hayashi MJ., Whitney D. Exaggerated groups: amplification in ensemble coding of temporal and spatial features // Proceedings of the Royal Society B: Biological Sciences. 2018. Vol. 285. No. 1879. P. 20172770:1-9. https://doi.org/10.1098/ rspb.2017.2770

Khayat N.. Hochstein S. Perceiving set mean and range: Automaticity and precision // Journal of Vision. 2018. Vol. 18. No.9. P.23:l-14. https://doi.Org/10.1167/18.9.23

Khayat N.. Hochstein S. Relating categorization to set summary statistics perception 11 Attention, Perception, & Psychophysics. 2019. Vol. 81. No. 8. P. 2850-2872. https://doi.org/10.3758/ S13414-019-01792-7

Khvostov V. A., Utochkinl.S. Independent and parallel visual processing of ensemble statistics: Evidence from dual tasks 11 Journal of Vision. 2019. Vol. 19. No. 9. P.3:l-18. https:// doi.org/10.1167/19.9.3

Kim M., Chong S. C. The visual system does not compute a single mean but summarizes a distribution 11 Journal of Experimental Psychology: Human Perception and Performance. 2020. Vol.46. No.9. P. 1013-1028. https://doi.org/10.1037/xhp00008Q4

Lee H, Baek J., Chong S. C. Perceived magnitude of visual displays: Area, numerosity, and mean size // Journal of Vision. 2016. Vol. 16. No.3. P. 12:1-11. https://doi.Org/10.1167/16.3.12

Leib A. Y, Kosovicheva A., Whitney D. Fast ensemble representations for abstract visual impressions 11 Nature Communications. 2016. Vol. 7. P. 13186:1-10. https://doi.org/10.1038/ncomms!3186

Leib A. Y, Puri A. M., Fischer J., Bentin S., Whitney D., Robertson L. Crowd perception in prosopagnosia // Neuropsycholo- gia. 2012. Vol. 50. No. 7. P. 1698-1707. https://doi.Org/10.1016/i. neuropsychologia.2012.03.026

Luck S. J., Vogel E. К The capacity of visual working memory for features and conjunctions 11 Nature. 1997. Vol. 390. No. 6657. P. 279-281. https://doi.org/10.1038/36846

LuckSJ., Vogel E. К Visual working memory capacity: From psychophysics and neurobiology to individual differences // Trends in Cognitive Sciences. 2013. Vol. 17. No. 8. P.391-400. https://doi.Org/10.1016/j.tics.2013.06.006

Ma W.J., Beck J. M., Latham P.E., PougetA. Bayesian inference with probabilistic population codes 11 Nature Neuroscience. 2006. Vol. 9. No. 11. P. 1432-1438. https://doi.org/10.1038/nnl790

Marchant A. P., Simons D J., de Fockert J.W. Ensemble representations: Effects of set size and item heterogeneity on average size perception 11 Acta Psychologies 2013. Vol. 142. No. 2. P. 245-250. https://doi.Org/10.1016/j.actpsy.2012.ll.002

Maule J., Franklin A. Effects of ensemble complexity and perceptual similarity on rapid averaging of hue 11 Journal of Vision. 2015. Vol. 15. No. 4. P. 6:1-18. https://doi.Org/10.1167/15.4.6

Maule J., Franklin A. Accurate rapid averaging of multihue ensembles is due to a limited capacity subsampling mechanism 11 Journal of the Optical Society of America A. 2016. Vol. 33. No.3. P. 22-29.

Maule J., Franklin A. Adaptation to variance generalizes across visual domains 11 Journal of Experimental Psychology: General. 2020. Vol. 149. No. 4. P. 662-675. https://doi.org/10.1037/ xge0000678

Morgan M., Chubb C., Solomon /. A. A ‘dipped function for texture discrimination based on orientation variance 11 Journal of Vision. 2008. Vol. 8. No. 11. P. 9:1-8. https://doi.Org/10.1167/8.ll.9

MyczekK, Simons DJ. Better than average: Alternatives to statistical summary representations for rapid judgments of average size // Perception & Psychophysics. 2008. Vol. 70. No. 5. P. 772-788. https://doi.Org/10.3758/PP.70.5.772

Noe A. Is the visual world a grand illusion? // Journal of Consciousness Studies. 2002. Vol. 9. No. 5-6. P. 1-12.

Norman L.J., Heywood C.A., Kentridge R. W. Direct encoding of orientation variance in the visual system // Journal of Vision. 2015. Vol. 15. No.4. P.3:l-14. https://doi.Org/10.1167/15.4.3

Nothdurft H-C. The role of features in preattentive vision: Comparison of orientation, motion and color cues // Vision Research. 1993. Vol. 33. No. 14. P. 1937-1958. https://doi. org/10.1016/0042-6989(93)90020-W

Oliva A., TorralbaA. Building the gist of a scene: The role of global image features in recognition 11 Progress in Brain Research. 2006. Vol. 155. P. 23-36. https://doi.org/10.1016/ LM^6123LMLML2

Oriet C., Hozempa К Incidental statistical summary representation over time 11 Journal of Vision. 2016. Vol. 16. No.3. P. 3:1 -14. https://doi.org/10.1167/16.3.3

Palmer J., Verghese P, Pavel M. The psychophysics of visual search // Vision Research. 2000. Vol. 40. No. 10. P. 1227-1268. https://doi.org/10.1016/80042-6989s99W0244-8

Parkes L., Lund J, AngelucciA., Solomon JA., Morgan M. Compulsory averaging of crowded orientation signals in human vision // Nature Neuroscience. 2001. Vol. 4. No. 7. P.739-744. https://doi.org/10.1038/89532

Pavlovskaya M., Soroker N, Bonneh Y. S., Hochstein S. Computing an average when part of the population is not perceived // Journal of Cognitive Neuroscience. 2015. Vol. 27. No. 7. P. 1397-1411. https://doi.org/10.1162/jocn a 00791

Pavlovskaya M., Soroker N, Bonneh Y. S., Hochstein S. Statistical averaging and deviant detection in heterogeneous arrays. Poster session presented at the European Conference on Visual Perception 2017, Berlin, Germany // European Conference on Visual Perception 2017. Abstract Book. 2017. Vol. 40. P. 160-161. URL: https://journals.sagepub.com/pb-assets/cmscontent/PEC/ ECVP2017 abstracts l.O.pdf.

Piazza M., Izard V, Pinel P, Le Bihan D., Dehaene S. Tuning curves for approximate numerosity in the human intraparietal sulcus // Neuron. 2004. Vol.44. No.3. P.547-555. https://doi.org/10.1016/j.neuron.2004.10.014

Poltoratski S., Xu Y. The association of color memory and the enumeration of multiple spatially overlapping sets // Journal of Vision. 2013. Vol. 13. No.8. P.6:l-ll. https://doi.org/10.1167/13.8.6

Pouget A., Dayan P, Zemel R. Information processing with population codes 11 Nature Reviews Neuroscience. 2000. Vol. 1. No. 2. P. 125-132. https://doi.org/10.1038/35039062

Pylyshyn Z. W., Storm R. W. Tracking multiple independent targets: Evidence for a parallel tracking mechanism // Spatial Vision. 1988. Vol.3. No.3. P. 179-197. https://doi.org/10.1163/156856888X00122

Robitaille N, Harris I. M. When more is less: Extraction of summary statistics benefits from larger sets // Journal of Vision. 2011. Vol. 11. No. 12. P. 18:1-8. https://doi.org/10.1167/ll.12.18

RosenholtzR. A simple saliency model predicts a number of motion popout phenomena // Vision Research. 1999. Vol. 39. No. 19. P. 3157-3163. https://doi.org/10.1016/80042-6989199)00077-2

RosenholtzR. Search asymmetries? What search asymmetries? 11 Perception & Psychophysics. 2001. Vol. 63. No.3. P. 476-489. https://doi.org/10.3758/BF03194414

RosenholtzR. Demystifying visual awareness: Peripheral encoding plus limited decision complexity resolve the paradox of rich visual experience and curious perceptual failures // Attention, Perception, & Psychophysics. 2020. Vol. 82. No. 3. P. 901-925. https://doi.org/10.3758/sl3414-019-01968-l

RosenholtzR., Huang J., Raj A., Balas B. J, Ilie L. A summary statistic representation in peripheral vision explains visual search // Journal of Vision. 2012. Vol. 12. No. 4. P. 14:1-17. https:// doi.org/10.1167/12,4,14

Scholl B. J. Objects and attention: The state of the art // Cognition. 2001. Vol. 80. No. 1. P. 1-46. https://doi.org/10.1016/80010-0277(00)00152-9

Scimeca J.M., Franconeri S.L. Selecting and tracking multiple objects 11 Wiley Interdisciplinary Reviews: Cognitive Science. 2015. Vol. 6. No. 2. P. 109-118. https://doi.org/10.1002/wcs. 1328

Solomon J. A. Visual discrimination of orientation statistics in crowded and uncrowded arrays 11 Journal of Vision. 2010. Vol. 10. No. 14. P. 19:1-16. https://doi.org/10.1167/10.14.19

Solomon J. A., Morgan M., Chubb C. Efficiencies for the statistics of size discrimination 11 Journal of Vision. 2011. Vol. 11. No. 12. P. 13:1-11. https://doi.org/10.1167/ll.12.13

Suärez-Pinilla M., Seth A. K, Roseboom W. Serial dependence in the perception of visual variance 11 Journal of Vision. 2018. Vol. 18. No. 7. P. 4:1-24. https://doi.org/10.1167/18.7.4

Suzuki S. High-level pattern coding revealed by brief shape aftereffects: Advances in Visual Cognition // Fitting the mind to the world: Adaptation and after-effects in high-level vision / C. W. G. Clifford, G. Rhodes (Eds.). N.Y.: Oxford University Press, 2005. URL: https://www.scholars.northwestern.edu/en/publica-tions/high-level-pattem-coding-revealed-by-brief-shape-afteref- fects-ad.

Sweeny T D., Whitney D. Perceiving crowd attention: Ensemble perception of a crowd’s gaze // Psychological Science. 2014. Vol.25. No. 10. P. 1903-1913. https://doi.aigZ10JJZZZQ25fiZ2Zfil454451Q

Theeuwes /. Perceptual selectivity for color and form // Perception & Psychophysics. 1992. Vol. 51. No. 6. P. 599-606. https:// doi.org/10.3758/BF03211656

Tiurina N, Markov Y, Corbett J., Utochkin I. The adaptation aftereffect of mean size precedes size-distance rescaling. 41st European Conference on Visual Perception ECVP 2018 // Perception. 2019. Vol.48. No.Sl. P. 128. https://doi. org/10.1177/0301006618824879

Treisman A. How the deployment of attention determines what we see // Visual Cognition. 2006. Vol. 14. No. 4-8. P. 411 -443. https://doi.org/10.1080/1350628050019525Q

Treue S., Hol K, Räuber H.-J. Seeing multiple directions of motion—physiology and psychophysics 11 Nature Neuroscience. 2000. Vol. 3. No. 3. P. 270-276. https://doi.org/10.1038/72985

Underwood B. /. Individual differences as a crucible in theory construction // American Psychologist. 1975. Vol. 30. No. 2. P. 128-134. https://doi.org/10.1037/h0076759

Utochkin I. S. Ensemble summary statistics as a basis for rapid visual categorization // Journal of Vision. 2015. Vol. 15. No. 4. P. 8:1 -14. https://doi.Org/10.1167/15.4.8

Utochkin I. S. The properties of large receptive fields can explain ensemble-related phenomena 11 Perception. 2019. Vol. 48. No.Sl. P. 15.

Utochkin I. S., Brady T. F. Individual representations in visual working memory inherit ensemble properties 11 Journal of Experimental Psychology: Human Perception and Performance. 2020. Vol. 46. No. 5. P. 458-473. https://doi.org/10.1037/xhpQ000727

Utochkin I. S., Khvostov V. A., StakinaY.M. Continuous to discrete: Ensemble-based segmentation in the perception of multiple feature conjunctions // Cognition. 2018. Vol. 179. P. 178-191. https://doi.Org/10.1016/i.cognition.2018.06.016

Utochkin I. S., Tiurina N. A. Parallel averaging of size is possible but range-limited: A reply to Marchant, Simons, and De Fockert // Acta Psychologies 2014. Vol. 146. P. 7-18. https://doi.org/10.1016/j.actpsy.2013.11.012

Utochkin I. S., Vostrikov К. O. The numerosity and mean size of multiple objects are perceived independently and in parallel 11 PLoS ONE. 2017. Vol. 12. No. 9. P. 1-20. https://doi.org/10.1371/ journal.pone.0185452

Watamaniuk S. N. J., Duchon A. The human visual system averages speed information 11 Vision Research. 1992. Vol. 32. No. 5. P. 931-941. https://doi.org/10.1016/0042-6989f92190036-I

Webster M. A. Visual adaptation 11 Annual Review of Vision Science. 2015. Vol. 1. No. 1. P. 547-567. https://doi.org/10.1146/annurev-vision-082114-035509

Whitney D., Yamanashi Leib A. Ensemble perception // Annual Review of Psychology. 2018. Vol. 69. No. 1. P. 105-129. https://doi.org/10.1146/annurev-psych-010416-Q44232

Wilmer J. B. Howto use individual differences to isolate functional organization, biology, and utility of visual functions; with illustrative proposals for stereopsis // Spatial Vision. 2008. Vol. 21. No. 6. P. 561-579, https://doi.org/10.1163/156856808786451408

Wolfe B. A., Kosovicheva A.A., Leib A. Y, WoodK., Whitney D. Foveal input is not required for perception of crowd facial expression // Journal of Vision. 2015. Vol. 15. No. 4. P. 11:1-13. httMMmLrgQLddE12^^

Yamanashi Leib A., Chang K, XiaY, Peng A., Whitney D. Fleeting impressions of economic value via summary statistical representations 11 Journal of Experimental Psychology. General. 2020. https://doi.org/10.1037/xge0000745

Yamanashi Leib A., Landau A. N, Baek Y, Chong S. C., Robertson L. Extracting the mean size across the visual field in patients with mild, chronic unilateral neglect // Frontiers in Human Neuroscience. 2012. Vol.6. P.267:l-ll. https://doi.org/10.3389/ fnhum.2012.00267

Yang Y, Tokita M., Ishiguchi A. Is there a common summary statistical process for representing the mean and variance? A study using illustrations of familiar items // i-Perception. 2018. Vol. 9. No. 1. P. 1-19. https://doi.org/10.1177/2041669517747297

Yantis S., Abrams R. A. Sensation and perception. N.Y.: Worth Publishers, 2014.