Еще раз о качестве тестов
Недавно в обсуждении к одному из постов в этом блоге (Бизнес хочет больше тестов) возникал вопрос о важности тестов в LMS и что без них LMS вообще не нужна (с чем я наверное соглашусь). Никто не сомневается, что тесты важны, но задумываемся ли мы об их качестве.
Один добрый клиент, разрешил мне построить отчет с распределением баллов по различным тестам в его боевой системе. То, что получилось можно посмотреть на картинках ниже (по оси X - баллы, по оси Y - количество тестируемых, набравших столько баллов). Что вы скажете о качестве этих тестов? Некоторые вопросы (например, местами отсутствие нормального распределения) возникают даже при элементарном анализе. А что если посмотреть внутрь и посчитать пару корреляций?
Кто-нибудь анализирует результаты своих тестов на предмет надежности и валидности?






Один добрый клиент, разрешил мне построить отчет с распределением баллов по различным тестам в его боевой системе. То, что получилось можно посмотреть на картинках ниже (по оси X - баллы, по оси Y - количество тестируемых, набравших столько баллов). Что вы скажете о качестве этих тестов? Некоторые вопросы (например, местами отсутствие нормального распределения) возникают даже при элементарном анализе. А что если посмотреть внутрь и посчитать пару корреляций?
Кто-нибудь анализирует результаты своих тестов на предмет надежности и валидности?







Комментарии
И потом, о какой нормальности распределения можно говорить, если ничего неизвестно о параметрах исходных выборок. Если тест для 5-го класса школы дать группе 11-классников, результаты тож будут далеки от нормальных (вл всех смыслах). При том, что сам по себе инструмент может быть вполне так ничего себе. Но только для 5-го класса.
В целом, согласен с vvplock в том, что без знания дополнительных данных, касательно тестов, выносить суждения сложно.
Добавлю, что на форму графика также влияет цели тестирования, а также условия его проведения.
Например, изучение корреляции между распределением баллов и региональной или организационной принадлежностью сотрудников, позволяет дать вполне научное объяснение наличию странных локальных пиков в правой части графика. :)
Тут другая проблема, корень которой -- далеко не в образованиию
я согласен, что по картинкам оценить качество тестов нельзя. Но по крайней мере стоит думать о том, что полезно анализировать результаты тестов, прежде чем делать на их основе серьезные выводы.
PS
Т.к. я немного представляю себе о каких тестах идет речь, результаты на картинках 1, 5 и 7 и без дополнительного анализа кажутся мне подозрительными - на месте хозяев системы я бы задумался о своем контенте.
Разработка же хороших тестов очень сложная и дорогая задача. Может оказаться, что много дороже чем контента.Полезна же бывает сама подготовка к тестам.
А результат? Как повезет.
- Господин директор нам из-за кризиса надо уволить 20 человек.
- Кто у нас плохо работает?
-Да все стараются.
- Принесите мне личные дела.
Принесли. Не глядя выбрал 20.
-Этих уволить.
-Почему?
-Не люблю неудачников.
Так и с тестами.
Если же использовались разные инструменты, то здесь возможны крайности. В одном случае, все может быть просто велколепно, если распреление частот для каждого случая измерения отражает специфику выборки и соответствует целевой функции измерителя. В другом, все может быть плохо, если ничто ничему не соответствует.