Вступ до практичної психометрики

Мультимедійний навчальний посібник

2.3. Визначення надійності особистісного опитувальника

Поряд із забезпеченням стандартизованості психодіагностичного інструменту важливим етапом його психометричної розробки є перевірка надійності.

Надійність (reliability) методики забезпечує точність вимірювань, які здійснюються за її допомогою, сталість результатів під впливом сторонніх випадкових факторів, а також узгодженість результатів дослідження при первинному та повторному використанні методики на одних і тих самих досліджуваних.

На ступінь надійності результатів психодіагностичного обстеження впливає велика кількість факторів, які умовно можна об’єднати в шість наступних груп:

  1. Нестабільність вимірюваної психічної властивості у часі;
  2. Недосконалість психодіагностичної методики (незрозумілість інструкції, занадто великий обсяг завдань, їхня різнорідність, висока складність тощо);
  3. Мінливість ситуації обстеження (участь різних психодіагностів, які мають специфічні стильові, іміджеві та ін. особливості; проведення вимірювання в різні періоди доби; вплив несприятливих функціональних станів досліджуваних; різний ергодизайн приміщень, у яких відбувається тестування; наявність сторонніх звукових стимулів, несприятливих температурних умов, поганого освітлення; присутність сторонніх осіб тощо);
  4. Настанови досліджуваних на соціально схвалювані, крайні, невизначені або середні відповіді, симуляція або агравація, ефект тренування, вгадування тощо;
  5. Суб’єктивізм у способах оцінки та інтерпретації результатів збоку психодіагноста, або помилки;
  6. Нерепрезентативність вибірки (невеликий розкид результатів у вибірці, наявність у ній двох контрастних груп, що демонструють надто високі та дуже низькі результати).

Відповідно, підвищити надійність можна шляхом забезпечення репрезентативності вибірки стандартизації, дотримання суворої регламентованості процедури обстеження, чітке формулювання інструкції та відсутність різного роду невизначеностей у стимульному матеріалі, контролювання впливу на її перебіг факторів середовища, особистості експериментатора, психофізіологічного стану та мотивації досліджуваних, визначення єдиних нормативів оцінок результатів виконання методики.

Існують різні види надійності (рис. 7) та, відповідно, кілька способів її встановлення. Оскільки всі види надійності відображають ступінь узгодження низки показників, то основним статистичним методом перевірки надійності є кореляційний аналіз. Надійність є тим вищою, чим більше отриманий показник наближається до 1 і навпаки.

Рис. 7. Основні види надійності.

Зупинимося на розгляді вказаних видів надійності докладніше.

Надійність вимірювального інструменту встановлюється різними способами: шляхом оцінювання ретестової надійності, визначення надійності паралельних форм методики, доведення надійності її частин та надійності за внутрішньою узгодженістю.

Ретестова надійність психодіагностичної методики перевіряється шляхом її повторного проведення на одних і тих самих досліджуваних через певний проміжок часу. У цьому випадку методика вважається надійною, якщо результати першого (“тест”) та другого (“ретест”) обстеження збігаються або якщо досліджувані зберігають рангові місця у вибірці за результатами ретесту.

При визначенні ретестової надійності важливу роль відіграє проміжок часу між першим та повторним дослідженням. Чим коротшим є такий проміжок, тим більшою є імовірність встановлення надійності методики. Зі збільшенням часового інтервалу підвищується ймовірність впливу сторонніх факторів та зміни ступеня вираженості даної властивості в досліджуваних, що зумовлює появу тенденції до зниження надійності.

Однозначної відповіді на питання, який строк для повторного дослідження є оптимальним, немає. У тестологічній літературі найчастіше вказується на часовий інтервал від двох тижнів до одного місяця. Лише дослідник, виходячи зі змісту методики, умов, за яких вона проводиться, особливостей вибірки досліджуваних тощо, може визначити та обґрунтувати цей строк.

Як указують Л.Ф. Бурлачук та С.М. Морозов, поряд з очевидною простотою встановлення ретестова надійність має певні недоліки: при повторному використанні одних і тих самих завдань, особливо за наявності невеликого часового інтервалу між обстеженнями, в досліджуваних може сформуватись навичка роботи з даною психодіагностичною методикою; окрім цього деякі з респондентів можуть запам’ятати окремі відповіді та відтворити при повторному обстеженні попередню картину відповідей, що призводить до покращення індивідуальних результатів та як наслідок – до завищення показників надійності. При цьому також слід враховувати, що ретестова надійність може зменшуватися за наявності великої кількості завдань у методиці: чим більше завдань, тим вищою є імовірність випадкової або закономірної зміни відповіді при ретесті.

Тому з метою уникнення подібних проблем застосовується процедура встановлення надійності паралельних форм за допомогою взаємозамінних форм психодіагностичної методики. Така надійність визначається внаслідок повторного обстеження вибірки досліджуваних паралельною (еквівалентною) формою методики через мінімальний інтервал часу в однакових умовах. Паралельна форма методики створюється таким чином, щоб обидва її варіанти були максимально сумісними за головними діагностичними характеристиками, тобто з однаковою помилкою вимірювали ту саму властивість психіки. Це досягається шляхом дотримання під час конструювання еквівалентних форм низки правил: 1) кількість завдань в еквівалентних формах має бути приблизно однаковою; 2) типи завдань в обох формах мають бути уніфіковані за психологічним змістом та рівнем складності; 3) завдання мають бути розподілені за складністю однаковим способом; 4) обидві форми повинні мати приблизно однакові середні та стандартні відхилення; 5) процедура застосування обох форм, а також техніка оцінювання результатів мають бути уніфікованими.

Процедурно встановлення надійності паралельних форм відбувається у такі два способи:

  • одні і ті самі досліджувані обстежуються спочатку за допомогою основного набору завдань, а потім – із використанням еквівалентної форми діагностичної методики.
  • уся вибірка випадковим чином розподіляється на дві приблизно рівні частини, кожній з яких пропонується одна з паралельних форм психодіагностичної методики. При повторному обстеженні, котре зазвичай проводиться через тиждень, пропоновані для виконання досліджуваним підгрупам форми міняються. Найважливішою перевагою даного методу є скорочення часового інтервалу при повторному обстеженні та зменшення можливості тренування та запам’ятовування окремих відповідей.

Як правило, практичне визначення даного типу надійності пов’язане зі значними труднощами, оскільки іноді буває вкрай складно побудувати кілька варіантів однієї методики (особливо це стосується особистісних опитувальників) таким чином, аби, вони, з одного боку, відповідали одним i тим самим діагностичним критеріям та були зорієнтованими на вимірювання ідентичних психологічних факторів, а з іншого – були різними за змістом та характером завдань. Крім цього, у випадку визначення надійності за допомогою паралельних форм повністю не знімається ефект тренування в досліджуваних, особливо якщо паралельні набори схожі за принципом рішення.

Основними кількісними показниками як ретестової надійності, так і надійності паралельних форм є коефіцієнт кореляції між результатами первинного та повторного обстеження. Для його обчислення зазвичай використовують:

  • у випадку аналізу залежності змінних, виміряних в інтервальній шкалі, – коефіцієнт добутку моментів rxy Пірсона:

    де xi та yi – кількісні показники, що порівнюються; σx та σy – стандартні відхилення в зіставлених рядках; n – кількість спостережень.

  • у випадку аналізу залежності змінних, виміряних за допомогою ординальної шкали, – коефіцієнт рангової кореляції rs Спірмена:

    де di – різниця між рангами кожної змінної з пар значень X та Y; n – кількість спостережень.

Високий коефіцієнт кореляції (0,7–0,9 і вище) за наявності великого інтервалу між двома випробуваннями свідчить про високу надійність методики. Невисокий показник надійності (0,46–0,50) означає, що в методиці наявні пункти, котрі через свою специфічність зумовлюють зниження однорідності. Такі пункти необхідно або відредагувати (переформулювати), або вилучити з загального списку завдань із обов’язковим повторенням процедури обчислення показника надійності.

Окрім цього, як зазначає О.В. Мітіна, показник надійності залежить не тільки від правильного добору пунктів з огляду на їхню взаємну узгодженість, а й від тієї вибірки, на якій цей показник визначався. Так, у питаннях можуть зустрічатись формулювання або ситуації, неактуальні для одних людей, та особистісно значущі для інших. Якщо таких питань в опитувальнику багато, то це може істотно вплинути на надійність результатів психодіагностичного вимірювання. Пункти з описом таких ситуацій можуть випадково опинитися в одній половині розщепленого опитувальника, і тоді у вибірці тих респондентів, для яких обидві частини є особистісно значущими, коефіцієнт кореляції буде високим. Разом із тим, у відповідях на суб’єктивно нейтральні пункти буде присутній елемент випадковості, а, відтак, коефіцієнт кореляції між двома частинами методики буде значно нижчим. Тому в практиці психодіагностики в описі методики зазвичай подається характеристика тих груп, на яких проводилося визначення надійності.

Надійність частин методики на відміну від встановлення ретестової надійності та надійності паралельних форм не передбачає повторного обстеження, а пов’язана з аналізом узгодженості результатів окремих одиничних пунктів.

Найпоширенішим методом встановлення надійності частин психодіагностичної методики є розщеплення шкали, сутність якого полягає в порівнянні виконання досліджуваним завдань двох рівноцінних частин методики. Зазвичай такі дві еквівалентні за характером групи пунктів формулюються з парних та непарних номерів завдань, і для двох отриманих рядків результатів обчислюється коефіцієнт кореляції. Якщо методика однорідна, то великої різниці у відповідях на представлені у двох половинах методики завдання не буде, і, відповідно, коефіцієнт кореляції (а відтак і коефіцієнт надійності) буде достатньо високим (у межах 0,7-0,8).

Для визначення надійності частин методики підставити обчислений коефіцієнт кореляції Пірсона між двома половинами тесту у формулу Спірмена-Брауна:

де r11– надійність всього опитувальника;r1/2 1/2 – кореляція між двома половинами тесту.

Оскільки вказаний коефіцієнт надійності методики прямо залежить від кількості завдань, то існує можливість доводити цей коефіцієнт до бажаної величини шляхом збільшення кількості завдань. Для цього використовують таку формулу:

Перетворюючи цю формулу, обчислюємо n:

Припустимо, що r = 0,6, а ми бажаємо збільшити коефіцієнт надійності до 0,9. Згідно формули 17 знаходимо:

Звідси, для того, щоб підвищити коефіцієнт надійності з 0,6 до 0,9 необхідно збільшити кількість завдань у шість разів.

Підкреслимо, що, виокремлюючи обидві частини методики, слід переконатися, аби вони були близькими або збігалися за значенням індексу дискримінативності та складності (ефективності).

Дискримінативність завдань відображає здатність окремих пунктів диференціювати досліджуваних відносно “максимального” та “мінімального” результату методики. Для її визначення використовується коефіцієнт кореляції кожного завдання із загальним балом, отриманим досліджуваними за методикою в цілому (мінімально припустиме значення r ≥ 0,2). Чим вищим є коефіцієнт кореляції, тим вищою є дискримінативність завдання. Пункти з негативною або нульовою кореляцією, як правило, виключаються.

Для обчислення індексу дискримінативності зазвичай використовують критерій добутку моментів Пірсона (якщо завдання мають п’ять і більше варіантів відповідей) або точково-бісеріальний коефіцієнт кореляції (для дихотомічних відповідей). Останній визначається за допомогою формули:

де – середнє по Х зі значенням 1 по Y; – середнє по Х зі значенням 0 по Y; Sx – стандартне відхилення всіх n значень по Х; n – загальний обсяг вибірки; n1 – кількість об’єктів, які мають 1 по Y; n0 – кількість об’єктів, які мають 0 по Y; n = n1 + n0.

Оскільки в пакеті статистичних програм SPSS не передбачено процедури обчислення точково-бісеріального коефіцієнту кореляції, наведемо приклад його визначення вручну (табл. 5).

Таблиця 5

Приклад обчислення точково-бісеріального коефіцієнту кореляції rpb
Показник Y (1 – відповідь на пункт “так”; 0 – відповідь на пункт “ні”) Показник Х (бал за всією методикою) Обчислення rpb
1 150
0 170
1 160
1 165
0 140
1 183
0 157
0 152
1 163
1 168
1 160
0 155
1 157
0 160
0 152

Достовірність зв’язку, обчисленого за допомогою точково-бісеріального коефіцієнту кореляції rpb, можна встановити за допомогою критерію χ2 (для кількості ступенів свободи df = 2), котрий у даному випадку обчислюється за формулою:

де n – загальна кількість досліджуваних.

Якщо порівняти отриманий коефіцієнт χ2 = 2,52 із теоретичним табличним значенням, то можна говорити про помірний зв’язок між змінними.

Індекс ефективності пов’язаний із визначенням частки досліджуваних, відповідь яких збіглася з ключем. Для цього Л.Ф. Бурлачук пропонує створити матрицю аналізу завдань (табл. 7), в якій кожний стовпчик містить завдання, а рядок – досліджуваного.

Таблиця 7

Матриця аналізу ефективності методики
Досліджувані Завдання Усього
a b c d e
1 1 1 0 1 1 4
2 0 1 0 0 1 2
3 1 0 0 1 1 3
4 1 0 0 0 1 2
5 0 0 0 1 1 2
Усього 3 2 0 3 5 13

Надалі шляхом ділення кількості досліджуваних, які дали “ключову” відповідь, на їхню загальну кількість, встановлюється індекс ефективності кожного пункту. В ідеалі цей індекс для кожного завдання має знаходитися в інтервалі від 0,25 до 0,75, наближуючись у середньому до 0,5 для всього опитувальника. Виходячи з таблиці 7, індекс ефективності для кожного завдання буде таким: (а) 3/5 = 0,6; (b) 2/5 = 0,4; (c) 0/5 = 0; (d) 3/5 = 0,6 та (e) 5/5 = 1. Із цього випливає, що завдання (е) (на яке всі досліджувані відповіли згідно ключа) та завдання (с) (на яке не відповів ніхто) є такими, що не мають диференціюючої сили, а тому малоефективними.

Повертаючись до розгляду методу розщеплення, зазначимо насамкінець, що він має як переваги, такі і недоліки. Відсутність потреби в повторному обстеженні та конструюванні двох однакових за психологічним змістом методик надає йому вагомих переваг порівняно з визначенням ретестової надійності та надійності паралельних форм. Але поряд із цим застосування цього методу не дозволяє встановити часову стійкість результатів психодіагностичного вимірювання, що потребує комбінування методу розщеплення з процедурою обчислення ретестової надійності. Окрім цього слід мати на увазі, що розщеплення методики на дві половини вдвічі зменшує її “довжину”, що може знизити достовірність отримуваних характеристик надійності.

Обчислення надійності за внутрішньою узгодженістю використовується у випадку, коли необхідно встановити ступінь вираженості інтеркореляційних зв’язків між усіма завданнями методики. З цією метою використовуються різні формули, з-поміж яких виокремимо формулу К’юдера-Ричардсона та формулу коефіцієнта α Кронбаха.

Формула К’юдера-Ричардсона застосовується у випадку, коли пункти вимірюються за дихотомічною шкалою:

де k – загальна кількість пунктів; pi – доля осіб, які відповіли на і пункт 1-им варіантом відповіді; , де N1 – кількість досліджуваних, що дали правильні (ключові) відповіді на завдання від загальної кількості досліджуваних, N – загальна кількість досліджуваних; qi = 1–pi; σ2 – дисперсія первинних балів опитувальника.

У випадку, коли альтернатив відповідей більше, ніж дві, використовується коефіцієнт надійності α Кронбаха:

де k – загальна кількість пунктів; σi2 – дисперсія первинних балів за і пунктом; σ2 – дисперсія первинних балів опитувальника.

У практиці психологічної діагностики вважається, що методика надійна, якщо rt (α) ≥ 0,6.

Часова стабільність психодіагностичної методики як один із ключових аспектів її надійності вказує також і на відносну стійкість вимірюваної за її допомогою психічної властивості (інакше процедура встановлення показника надійності втрачає сенс). Зовнішньо це виявляється однаково – у стабільності відповідей досліджуваного. Разом із цим припущення про незмінність вимірюваної психічної властивості не може бути апріорним та має ґрунтуватись на емпіричному визначенні міри стабільності досліджуваної ознаки. Для цього використовується процедура “тест–ретест” із інтервалом у декілька місяців (але не більше 6 місяців), котра в даному випадку дозволяє перевірити, в яких межах варіюються результати досліджуваних. Якщо коливання є поодинокими та статистично незначущими по всій вибірці в цілому, то можна говорити, що зміни властивості надійні. Однак якщо відповіді більше ніж 5% досліджуваних змінюються і це не зумовлено нестійкістю самої методики, то вимірювана властивість не може бути визнана стабільною, а низький коефіцієнт кореляції при цьому інтерпретується як ознака інтенсивного становлення досліджуваної властивості. Якщо, виходячи з теоретичних міркувань, відомо, що вимірювана властивість вже сформована та має бути достатньо стабільною, то коефіцієнт кореляції між результатами тесту і ретесту, на думку О.В. Мітіної, повинен бути не нижчим за 0,8.

Говорячи про константність результатів психодіагностичного дослідження, тобто про їхню незалежність від особистості діагноста, слід зазначити, що наявні в інструкції вимоги щодо формалізації процедури проведення діагностичних методик не виключають вплив особистісних особливостей користувачів на результат обстеження. Адже повністю регламентувати швидкість мовлення діагноста, тон голосу, паузи, вираз обличчя та інші стильові особливості його поведінки неможливо. Недбале ставлення діагноста до обстеження, поспіх, помилки та обмовки під час його проведення, негативно відбиваються на відповідях респондентів (виникають помилки у виборі потрібної альтернативи, пропуски пунктів тощо). Тому, якщо в авторів методики виникають підозри щодо можливого вплив особистості інтерв’юера на результат діагностичної процедури, доцільною є перевірка методики за цим критерієм. Показник константності обчислюється як коефіцієнт кореляції результатів двох дослідів, проведених у відносно однакових умовах на одній і тій самій вибірці досліджуваних, але різними експериментаторами. При цьому на надійність методики за цим параметром указує коефіцієнт кореляції не нижчий за 0,8.

Отже, надійність як один із найважливіших психометричних критеріїв якості психодіагностичної методики вказує на ступінь часової стабільності (повторюваності отримуваних за її допомогою оцінок), точності (що характеризується діапазоном розсіювання одержаних при повторному тестуванні оцінок) та, як наслідок, невипадковості результатів вимірювання. В понятті “надійність психодіагностичної методики” виокремлюють три головні аспекти, котрі відповідають трьом різним процедурам обчислення коефіцієнту надійності: 1) надійність, що визначається шляхом повторного використання однієї і тієї самої (ідентичної) форми методики на одній і тій самій вибірці; 2) надійність, що визначається шляхом використання двох еквівалентних форм методики; 3) надійність, що визначається шляхом розщеплення методики на дві частини та обчислення коефіцієнту кореляції між оцінками, виставленими по кожній із цих частин. Окрім цього, при встановленні надійності психодіагностичної методики має бути проаналізований, а за необхідністю й елімінований вплив й інших факторів, які створюють похибки вимірювання, насамперед – міри стабільності (мінливості) досліджуваної ознаки та особливості поведінки експериментатора під час проведення психодіагностичного обстеження.