Websoft

четверг, октября 30, 2014

К кейсу оценки эффективности обучения. "Очищение" эффекта.

Может быть заключительный пост (а может и нет) в продолжение постов Кейс по оценке эффективности очного и дистанционного обучения и О размере выборки (замечание к кейсу оценки эффективности очного и дистанционного обучения).
До чего мы дошли в результате обсуждения: очники показали значимо более высокие результаты, и это вызвало некоторые реакции у некоторых моих коллег. Коллеги несправделиво полагали, что я этот результат принял на веру, не учитывая влияния других факторов типа разного изначального уровня подготовки очников и заочников.
Это не так.
Про я помню. И более того, хочу как раз показать пример того, как можно "очищать" эффект.
Под "очисткой" эффекта я понимаю вычленение влияния действия нужного нам фактора от косвенного влияния других. Сам термин "очистка" эффекта взят мной из ROI, Модели Киркпатрика, где стоит задача вычленить влияние именно тренинга, а не сопутствующих факторов типа сезонности, маркетинговой активности и т.п..
Но приведу я пример из другой области. И по традиции неполный, поскольку настоящий художник предоставляет поставить точку зрителю.

Кейс про очищение эффекта

На сайте HRM  мы проводим исследование факторов текучести удержания персонала, где вам стоит поучаствовать. Так вот предварительным результатом исследования я получил бечмарк - уровень текучести HR специалистов по отраслям Бенчмаркинг: текучесть HR специалистов по отраслям.
Я выяснил интересный факт, что банковские HR-ы склонны значимо реже покидать компанию, чем HR-ы производственных и IT компаний. 
В этом месте мы можем принять версию: в банках HR-ам работать более комфортно. И успокоиться. Но я не зря привел в том посте внизу диаграмму удовлетворенности спецов по отраслям: IT отрасль лидирует с отрывом. 
Т.е. получается забавная картина: в IT отрасли жить хорошо, но спецы оттуда бегут быстрее, чем из банков. Тогда можно либо усомнить корреляцию между текучестью и отраслью, либо сказать, что между удовлетворенностью и текучестью корреляция не такая уж выдающаяся.
Можно предположить, что связь между отраслью и текучестью опосредуется не собственно отраслью, а какими то третьими факторами. 
Итого у меня родилось две гипотезы:
  1. IT отрасль просто моложе как отрасль, поэтому там показатели стажа будут более низкими. Хотел сначала читателям дать эту гипотезу на подумать: как можно проверить, но потом нарыл данных и решил не мучить вас. Проверить гипотезу просто: посмотреть значимость различий в годах приема на работу специалистов различных отраслей. Либо, как вариант, HR в банках просто раньше родился как таковой.
  2. Все тот же возраст. Мы можем проверить гипотезу, что в IT просто идут работать более молодые люди. Это уже знакомая до боли гипотеза))) 

Более "молодая" отрасль 

Показываю боксплот распределения дат устройства на работу по отраслям 
Ложные корреляции: очищение эффекта (на примере текучести персонала)

по оси Х   у нас отрасли, по оси Y - год трудоустройства. Медианные значения практически на одном уровне, а первый квартиль IT отрасли даже ниже, чем у банкиров и производственников. Т.е. IT HR даже чуть раньше приходили в компании, чем другие отрасли.
Но Краскел Уолисс нам показывает следующее
data:  date by otr
Kruskal-Wallis chi-squared = 3.5911, df = 2, p-value = 0.166
Т.е. различия не значимые, и мы не можем подтвердить гипотезу о том, что IT отрасль более молодая, что HR  в банках появился раньше.

"Возрастная" версия 

Давайте проверим гипотезу, что в банках сидят старые пердуны, а в IT рвутся молодые и свежие силы HR
Ложные корреляции: очищение эффекта (на примере текучести персонала)

По оси X - отрасль, по оси Y - год рождения HR - респондентов опроса ключевые факторы текучести персонала по отраслям.
Правда, отличается от предыдущей картинки? Устраиваются в одно время примерно, но разного возраста, да? Явно, что производственники самые опытные, а айтишные ХР-ы самые молодые. Их медиана уперлась в третий квартиль банковских HR.
Краскал Уоллис говорит нам следующее
Kruskal-Wallis rank sum test

data:  gr by otr
Kruskal-Wallis chi-squared = 19.2368, df = 2, p-value = 6.649e-05

Хотя в данном случае распределение практически нормальное, поэтому можно было применить дисперсионный анализ. Попарное сравнение отраслей показало 
  • Значимые различия между производством и IT (средние 1977.103 и 1981.464, p-value = 1.999e-05)     
  • Значимые различия между банками и IT (средние  1977.922  и  1981.464, p-value = 0.002138)
  • Незначимые между банками и производством (средние  1977.922  и 1977.103, p-value = 0.4822)
Я думаю, post Hoc анализ можно сделать на глазок: значимость с учетом Бонферони не вылезет за 0, 05.

Результаты

давайте признаемся, интересные. Мы почти нашли объяснение, что разница в стаже между банковскими HR и HR IT объясняется тем, что в IT идут более молодые специалисты. Я написал "почти" потому, что разница в возрасте еще сама по себе не доказывает отсутствие влияние отрасли на стаж. Для этого нам нужно сделать регрессионный анализ с двумя переменными: возраст и отрасль. Добьем пример до конца?)
И самое интересное: допустим, мы объясним различие между банками и IT, но разница в текучести персонала HR  в банках и на производстве не объясняется возрастом. И следовательно там зарыты другие факторы. А текучесть в производстве и IT примерно одинакова (незначимо отличается), но там тоже действует какой то фактор, поскольку есть значимые различия. 

Вопросы

Для начала хочу получить обратную связь насчет ясности изложения:=
  • Достаточно ли понятным, ясным языком я изложил пост? 
  • Если да, то хотите ли продолжения?
  • Если да, то какие факторы могут влиять на значимые различия между текучестью HR банков и производством, IT и производством?
спасибо! жду ваши ответы

Комментариев нет: