Websoft

среда, июля 22, 2009

Еще раз о качестве тестов

Недавно в обсуждении к одному из постов в этом блоге (Бизнес хочет больше тестов) возникал вопрос о важности тестов в LMS и что без них LMS вообще не нужна (с чем я наверное соглашусь). Никто не сомневается, что тесты важны, но задумываемся ли мы об их качестве.

Один добрый клиент, разрешил мне построить отчет с распределением баллов по различным тестам в его боевой системе. То, что получилось можно посмотреть на картинках ниже (по оси X - баллы, по оси Y - количество тестируемых, набравших столько баллов). Что вы скажете о качестве этих тестов? Некоторые вопросы (например, местами отсутствие нормального распределения) возникают даже при элементарном анализе. А что если посмотреть внутрь и посчитать пару корреляций?

Кто-нибудь анализирует результаты своих тестов на предмет надежности и валидности?












10 комментариев:

vvplock комментирует...

Алексей! Гистограммы, что и говорить, уморительные :-) Правда, судить по ним о качестве теста сложно. Для оценки надежности нужны табличные данные + сведения о структурных и содержательных параметрах инструмента. О валидности здесь говорить не приходится, для этого нужно работать с самим инструментом и его экспертными оценками.
И потом, о какой нормальности распределения можно говорить, если ничего неизвестно о параметрах исходных выборок. Если тест для 5-го класса школы дать группе 11-классников, результаты тож будут далеки от нормальных (вл всех смыслах). При том, что сам по себе инструмент может быть вполне так ничего себе. Но только для 5-го класса.

vvplock комментирует...

Кста! Если верить информации СМИ, цитирующих Министра образования и науки РФ (http://www.kp.ru/daily/24321/513845/), по результатам проведения ЕГЭ "в этом году высшую оценку (100 баллов) получили 2200 выпускников, а напрочь провалили ЕГЭ почти 30 тысяч". Не знаю, получил ли кто-нибудь 0 баллов, в цитируемом материале это не уточняется. А вот про 100-балльные результаты сказано открытым текстом. 2200 - цифра вроде ничего такая. Если бы только не одно "но". Она говорит о чудовищно низкой разрешающей способности КИМов (контрольно-измерительных материалов) в верхнем сегменте оценочной шкалы. Его трудность оказалась недостаточной. Качественный нормативный тест (а его позиционируется как таковой, точнее, почти как таковой) не может быть выполнен на 100 баллов при 100-балльной оценочной шкале НИКЕМ. Приведенные результаты - нонсенс! Буквально они озачают то, что 2200 выпускников или, по крайней мере, часть из них "уперлись" в потолок КИМов. Хорошо хоть, что головы не расшибли :-) А ведь это все не столь безобидно, ка может показаться. Представим ситуацию, что новых бюджетных мест в вузах в этом году 2199 (т.е. реально их больше, но - допустим). А круглых, 100-балльных отличников 2200. И что делать с оставшимся потенциальным Ломоносовым, Эйнштейном или кем-то там есчо? А ведь еще неясно сколько человек получили 99, 98 баллов...

Александр Ларин комментирует...

Единственное, что можно осторожно предположить, - отсутствие системного подхода в тестировании.

В целом, согласен с vvplock в том, что без знания дополнительных данных, касательно тестов, выносить суждения сложно.

Добавлю, что на форму графика также влияет цели тестирования, а также условия его проведения.

Например, изучение корреляции между распределением баллов и региональной или организационной принадлежностью сотрудников, позволяет дать вполне научное объяснение наличию странных локальных пиков в правой части графика. :)

Сергей Снегирёв комментирует...

> Буквально они озачают то, что 2200 выпускников или, по крайней мере, часть из них "уперлись" в потолок КИМов.

Тут другая проблема, корень которой -- далеко не в образованиию

vvplock комментирует...

Кста! Критериальные тесты очень редко дают на выходе картинку, напоминающую нормальное распределение. Строго говоря, было бы даже странно, если бы они ее довали. Их результаты, как правило, характеризуются выраженной положительной асимметрией.

Алексей Корольков комментирует...

Коллеги,
я согласен, что по картинкам оценить качество тестов нельзя. Но по крайней мере стоит думать о том, что полезно анализировать результаты тестов, прежде чем делать на их основе серьезные выводы.

PS
Т.к. я немного представляю себе о каких тестах идет речь, результаты на картинках 1, 5 и 7 и без дополнительного анализа кажутся мне подозрительными - на месте хозяев системы я бы задумался о своем контенте.

lern21 комментирует...

Ну, во первых, 2200 соток,говорит не о качестве тестов, а о возросшем благосостоянии родителей,особенно на юге.

Разработка же хороших тестов очень сложная и дорогая задача. Может оказаться, что много дороже чем контента.Полезна же бывает сама подготовка к тестам.
А результат? Как повезет.

- Господин директор нам из-за кризиса надо уволить 20 человек.
- Кто у нас плохо работает?
-Да все стараются.
- Принесите мне личные дела.
Принесли. Не глядя выбрал 20.
-Этих уволить.
-Почему?
-Не люблю неудачников.

Так и с тестами.

vvplock комментирует...

Важно знать - эти гистограмы составлены по результатам использования одного и того же инструмента или разных. Если одного, то столь явно выраженная вариативность результатов может быть обусловлена структурной / качественной спецификой выборок (возрастной, гендерный состав, уровень квалификации или что-то в этом роде) либо различиями в условиях использования измерителя. Что бы не было конкретной причиной, при таком раскладе использование измерителя некорректно.
Если же использовались разные инструменты, то здесь возможны крайности. В одном случае, все может быть просто велколепно, если распреление частот для каждого случая измерения отражает специфику выборки и соответствует целевой функции измерителя. В другом, все может быть плохо, если ничто ничему не соответствует.

vvplock комментирует...

Еще раз посмотрел рисунки - по оси X понятно, что тесты разные. Вот только поразился шкалам - оч интересно, для чего такого может понадобиться 6000-бальная шкала?

vvplock комментирует...

Фу-ты, ну-ты! :-) Спутал оси. Но все равно занятно, что это за 27, 77-балльные и иже с ними шкалы?