По просьбе редакции статью «Мысли про ЕГЭ» комментирует В.В. Овчинников, руководитель отдела шкалирования и статистики Федерального центра тестирования
Я хочу пояснить, исходя из каких соображений сегодня обрабатываются результаты ЕГЭ, и дать небольшие комментарии по отдельным техническим моментам, затронутым в статье «Мысли про ЕГЭ». Никаких оценок ни ЕГЭ в целом, ни отдельным его процедурам в этой статье дано не будет.
Для начала вкратце опишу процесс вычисления тестовых баллов. После проведения ЕГЭ и обработки результатов тестирования на региональном уровне в Федеральный центр тестирования передаются ответы участников ЕГЭ на задания частей «А» и «В» и экспертные оценки ответов участников на задания части «С». По критериям, предоставленным Федеральным институтом педагогических измерений, в Федеральном центре тестирования происходит автоматическая проверка результатов ЕГЭ, частей «А» и «В». В результате этой проверки каждый из ответов превращается в определенный балл (первичный балл за задание), который показывает, со сколькими частями задания участник ЕГЭ справился. В большинстве своем задания состоят из одной части, поэтому по результатам проверки участник ЕГЭ получает либо 0» — не выполнил совсем, либо «1» — полностью справился с заданием. Но некоторые задания состоят из двух и более частей. Соответственно максимально возможные первичные баллы за эти задания будут два и более.
Хочу подчеркнуть, что эти баллы не имеют никакого отношения к трудности или к «весу» задания. Это всего лишь порядковые величины, показывающие, сколько «ступеней» при решении данного задания преодолел данный участник ЕГЭ. И поскольку это порядковые величины, полученный один балл из двух возможных за задание не означает, что участник ЕГЭ справился с 50% данного задания. Это всего лишь означает, что участник ЕГЭ выполнил одну из двух частей данного задания.
После автоматической проверки частей «А» и «В» для достаточно большого процента данных (ориентировочно 80–90%) полученные результаты обрабатываются в рамках модели с частично верными ответами — Partial Credit Model. Эта модель представляет собой обобщение однопараметрической модели Раша на случай политомических заданий, то есть заданий, состоящих более чем из одной частей. В рамках этой модели каждое задание характеризуется набором параметров, задающих трудность перехода от одной части задания к следующей, а каждый из участников ЕГЭ характеризуется параметром, отвечающим за его уровень подготовленности по предмету. И трудности заданий, и уровни подготовленности участников располагаются на общей метрической шкале логитов. Так появляется возможность не просто упорядочить участников тестирования по уровню подготовленности, но и выяснить, насколько именно один из участников подготовлен лучше другого. Кроме того, в рамках данной модели можно достичь инвариантности результатов участников ЕГЭ относительно КИМов и инвариантности параметров заданий КИМов относительно контингента участников.
После обработки в рамках данной модели каждый участник ЕГЭ получает определенную оценку уровня подготовленности. Эти оценки уже несут в себе всю информацию об участнике, но в силу того, что они располагаются на непрерывной и неограниченной шкале, возникают проблемы, связанные с их использованием. В самом деле, нельзя же в свидетельстве о ЕГЭ написать, что результат участника по математике равен –0,367 логитов. Поэтому для удобства дальнейшего использования эти оценки с помощью линейного преобразования переводятся на стобалльную шкалу. До 2008 года использовалось линейное преобразование, зависящее от параметров текущего контингента участников (если быть точным, от среднего и дисперсии оценок уровней подготовленности по всей выборке). В 2008 году, в связи с принятием закона о сроке действия свидетельства ЕГЭ в течение двух лет, параметры линейного преобразования были изменены и сегодня не зависят от параметров выборки участников.
Теперь хотелось бы поподробнее остановиться на некоторых моментах, затронутых в статье «Мысли про ЕГЭ». Ее автор предлагает в качестве меры трудности задания выпускного экзамена использовать количество знаний, умений и навыков, проверяемых заданием. И соответственно предполагается, что оценка за выпускной экзамен будет пропорциональна сумме трудностей успешно выполненных заданий. Однако здесь есть опасность. Кто и как будет решать, насколько глубоко данное задание проверяет данную область знаний, умений или навыков? Или же необходимо предположить, что все без исключения задания проверяют соответствующие области знаний, умений и навыков абсолютно одинаково? Но проверять одни и те же элементы знаний, умений и навыков можно с помощью довольно сильно отличающихся по трудности заданий. Ведь если подойти к процессу формально, то
и
– это квадратные уравнения и, по идее, при решении данных уравнений необходимо воспользоваться одними и теми же знаниями, умениями и навыками. Однако решение второго уравнения, скорее всего, вызовет больше сложностей, чем первого. И следовательно, при одновременном использовании этих двух заданий невозможно получить объективные оценки. Можно возразить, что при решении второго уравнения необходим навык работы с дробями, корнями и т. п. Но ведь общая формула для корней квадратного уравнения также включает в себя и дроби и корни. То есть при решении первого уравнения неявно предполагается, что решающий обладает необходимыми навыками.
Приведенный пример, конечно, искусственный, но он показывает, что предлагаемый способ оценки усвоения материала не панацея. Да, он прост, нагляден, и его легко можно объяснить практически любому человеку. Но за этой простотой скрывается довольно большое количество неявных предположений, которые, к сожалению, невозможно реализовать на практике. В частности, для получения объективной картины необходимо предположить, что про каждое используемое задание известно, с какими именно знаниями, умениями и навыками оно связано и какой прирост к оценке по каждому из знаний, умений и навыков (или к совокупной оценке) дает решение этого задания. Откуда можно взять все эти сведения? Экспертные оценки в данном случае ненадежны. Ведь необходимо не только оценить каждое задание, которое будет использовано в экзамене текущего года, но и учесть все задания, использовавшиеся в предыдущие годы.
Данный подход годился бы, если бы была возможность использовать ровно один вариант КИМов, состоящий ровно из одного задания, на протяжении всех лет. Тогда не было бы проблем ни с интерпретацией, ни с абсолютностью результатов.
Использование же модели Partial Credit дает возможность получать объективные параметры каждого задания, не зависящие ни от экспертной оценки, ни от выборки участников ЕГЭ.
А. Подлазов также предлагает в качестве оценок за вступительные экзамены, использовать количество верно выполненных заданий вне зависимости от их реальных трудностей. В принципе, такой подход использовали практически во всех вузах при оценке результатов вступительных экзаменов до введения ЕГЭ. Можно было сделать одну сложную задачу, но, если при этом поступающий не справлялся с определенным количеством более простых заданий, он не набирал необходимый проходной балл.
Плюсы данного подхода — прозрачность вычисления окончательного результата и легкость его интерпретации. Но каким образом, например, можно сравнить результаты двух учащихся, решавших не один и тот же вариант вступительных экзаменов, а разные варианты? Для возможности подобного сравнения необходимо доказать абсолютную параллельность этих вариантов как с точки зрения содержания, так и со статистической точки зрения. Иными словами, на одной и той же выборке учащихся эти варианты должны показывать одно и то же распределение результатов. А если учесть, что свидетельство о ЕГЭ должно действовать два года и при разработке вариантов КИМов для очередного года нужно будет обеспечивать не только их параллельность между собой, но и их параллельность вариантам предыдущего года, данный подход становится нереализуемым с практической точки зрения.
В статье «Мысли про ЕГЭ» автор утверждает, что экзаменуемые, получившие одинаковый первичный балл, могут получить в итоге разные оценки знаний. Это не так. В рамках разбираемой в статье однопараметрической модели Раша и в рамках используемой при обработке результатов ЕГЭ модели Partial Credit первичный балл является достаточной статистикой. Иными словами, имея один и тот же первичный балл, экзаменуемые получают одну и ту же оценку уровня подготовленности. В дальнейшем, при линейном преобразовании этих оценок в тестовые баллы, также будут получены одинаковые результаты. И еще: не понятно, о какой дополнительной процедуре осреднения, введенной именно в 2008 году, идет речь. Описанная автором статьи процедура усреднения используется с самого начала проведения ЕГЭ.
А. Подлазов ссылается на недостаточное освещение в литературе вопросов, связанных с обработкой результатов ЕГЭ. Здесь трудно с ним не согласиться. Да, действительно, широкодоступной популярной литературы, в которой понятным языком объяснялось бы, как именно вычисляются тестовые баллы, нет. Скорее всего, это связано с тем, что процедура вычисления оценок не столь очевидна (сложили количество верно выполненных заданий и получили результат) и для ее понимания читателю необходимо, по меньшей мере, иметь представление о некоторых разделах математической статистики и численных методов.
Однако хотелось бы отметить, что Федеральный центр тестирования выпустил несколько книг, в которых пусть и не популярно, но подробно разбираются вопросы шкалирования результатов тестирования. Например — Ю.М. Нейман, В.А. Хлебников, «Введение в теорию моделирования и параметризации педагогических тестов» и «Педагогическое тестирование как измерение» тех же авторов. Центр также издал несколько брошюр, в которых в популярной форме разъясняются вопросы, связанные с выставлением тестового балла в ЕГЭ, объяснено, зачем вообще нужны тестовые баллы и почему в качестве окончательных тестовых баллов не используются первичные. Сейчас готовится к выпуску еще одна книга, посвященная шкалированию результатов тестирования. Никакой тайны из процедуры вычисления тестовых баллов не делается, и любой человек, обратившийся, например, в Федеральный центр тестирования, сможет приобрести эти книги.