This page is hosted for free by zzz.com.ua, if you are owner of this page, you can remove this message and gain access to many additional features by upgrading your hosting to PRO or VIP for just 32.50 UAH.
Do you want to support owner of this site? Click here and donate to his account some amount, he will be able to use it to pay for any of our services, including removing this ad.

С.П.Іглін

Обробка масиву даних

Вступ

Ця сторінка призначена для студентів, що вивчають курс теорії ймовірностей та математичної статистики. За її допомогою ви засвоїте тему "Обробка масиву даних". Безпосередньо зі сторінки ви зможете обробити реальний масив даних, наприклад, своє ІДЗ, навіть якщо у вас немає на комп’ютері MATLAB. Якщо ж у вас є MATLAB, перейдіть на цю сторінку: там у вас є можливість втрутитися у сценарій (програму) обчислень. А на цій сторінці обробка масиву даних здійснюється за стандартним сценарієм, який зазвичай використовується у ВНЗ при вивченні курсу теорії ймовірностей та математичної статистики.

Для правильної роботи з цією сторінкою ваш браузер повинен підтримувати сценарії Java Script. Увімкніть їх, якщо вони вимкнені.

Введення вхідних даних

Нехай проведено декілька (багато) вимірювань однієї й тієї ж випадкової величини X. Позначимо їх xi. Будемо вважати, що всі xi записані у звичайному текстовому форматі. Для розділення цілої та дрібної частин використовуємо десятичну точку. Між числами залишаємо хоча б один пробіл. При необхідності можна перед числом проставити знак плюс або мінус. Допускається також експоненційна форма запису чисел, тобто числа виду −1.52345E−0002 чи −1.52345e−0002, що треба розуміти як −1.52345×10−2. Декілька зразків правильного оформлення файлів вхідних даних можна завантажити звідсіля (zip-архів, 5kb, звичайні текстові файли). Для початку їх можна використати як тестові приклади, а потім взяти свої дані.

Обробку масиву даних почнемо з введення цих даних. Занесіть ваші числа в область введення, яку ви бачите нижче. Числа можна записувати у будь-якому порядку. На будь-якому рядку може бути будь-яка кількість чисел, відокремлених хоча б одним пробілом. Не ставте між числами нияких інших розділювачів, кріме пробілів: ані ком, ані крапок з комами тощо. Після запису всіх чисел в область введення натисніть кнопку "Рахувати". Ваші числа будуть введені на сторінку та переформатовані в одновимірний масив. Будуть знайдені мінімальне xmin та максимальне xmax значення. Також буде визначена кількість даних n. Ці результаты виводяться на сторінку. Щоб результати розрахунків були коректними, мінімальна кількість чисел на цій сторінці обмежена 25.


Перевірте, чи всі числа введені. Скріпт сторінки не відслідковує помилки, він просто відкидає нечислові дані та пропускає їх. Тому порівняйте кількість введених чисел з тим, що має бути. Якщо все правильно, йдемо далі.

Вибіркові параметри розподілу (точкові оцінки)

Будемо позначати вибіркові параметри (точкові оцінки) тими ж буквами, що й відповідні генеральні параметри, але з хвилею (тільдою) зверху. Для нашої вибірки визначимо вибіркові математичне сподівання ~mx, дисперсію ~Dx, середньоквадратичне відхилення ~σx, асиметрію ~ax та ексцес ~ex за формулами:

Нижче наведені обчислені за вашими даними вибіркові параметри розподілу (точкові оцінки). Ці дані автоматично оновлюються при введенні нових вхідних даних.

Довірчі оцінки генеральних параметрів розподілу (інтервальні оцінки)

За вибірковими параметрами розподілу можна знайти довірчі інтервали для генеральних параметрів. Довірчий інтервал для генерального математичного сподівання mx має вигляд

де tp(f) − квантиль t-розподілу Стьюдента, що відповідає ймовірності p (береться з таблиць). В цю формулу входять також: ~mx − вибіркове математичне сподівання (1), ~σx − вибіркове середньоквадратичне відхилення (3), n − об’єм вибірки та f = n−1 − кількість ступенів волі вибірки.

Довірчий інтервал для генеральної дисперсії Dx знаходиться за формулою

де χp2(f) − квантиль χ2-розподілу Пірсона, що відповідає ймовірності p (береться з таблиць), ~Dx − вибіркова дисперсія (2) та f − кількість ступенів волі вибірки.

Взагалі формули (6-7) мають місце лише тоді, коли генеральна сукупність X має нормальний розподіл. Але часто цими формулами користуються й для будь-якого закона розподілу X. У цьому випадку оговорюють, що результати, отримані за цими формулами, є наближеними. Мы поки ще не знаємо, за яким законом розподілена наша величина X. На це питання ми будемо відповідати далі.

Для знаходження довірчих інтервалів для генеральних асиметрії ax та ексцесу ex використовуємо нерівність Чебишова. Для генеральної асиметрії маємо:

а для генерального ексцеса:

де q=1−p − рівень значущості, Da, De − дисперсії вибіркових асиметрії та ексцесу, які знаходяться за формулами:

У формули (8-11) входять також: вибіркова асиметрія ~ax (4), вибірковий ексцес ~ex (5) та об’єм вибірки n. На відміну від (6-7), формули (8-11) є правильними для будь-яких законів розподілу генеральної сукупності X.

Задамо одне чи кілька значень довірчої ймовірності p в області введення. Там вже є кілька значень. Змініть або доповніть їх, якщо вони вас не влаштовують. Всі довірчі ймовірності повинні бути більше 0 та менше 1. Принцип занесення чисел той самий, що й раніше при заданні вхідних даних: з десятичною точкою або у показниковій формі, відокремлення пробілами. Всі нечислові та неправильні значення відкидаються. Натиснув на кнопочку, перерахуємо для цих довірчих імовірностей довічні інтервали для генеральних параметрів: математичного сподівання mx, дисперсії Dx, асиметрії ax та ексцесу ex.


Підбір теоретичного розподілу та його параметрів

Підбір теоретичного розподілу складається з таких етапів:

  1. підбір виду розподілу (тобто закону);
  2. підбір параметрів розподілу (тобто чисел, що входять у вираз для функції та щільності розподілу);
  3. перевірка правильності підбирання.

У цьому розділі ми підберемо вид теоретичного розподілу та його параметри (пп. 1 і 2). А в наступних розділах перевіримо правильність підбирання за допомогою критеріїв згоди Колмогорова та Пірсона.

Вид (тобто закон) теоретичного розподілу підбирається за виглядом гістограми. Тому займемося її побудовою. Спочатку весь інтервал змінювання даних [xmin, xmax] треба розбити на ділянки. Зазвичай беруть ділянки одинакової довжини. Скільки ділянок взяти? Є декілька підходів до визначення кількості ділянок k. Один з них − це використання формули Стерджесса:

де ⌊...⌋ − операція округлення до найближчого цілого. Інший підхід є таким. З одного боку, ділянок повинно бути як можна більше, а з іншого боку, треба, щоб у кожну з цих ділянок потрапляло як можна більше значень xi. Компроміс між цими двома вимогами призводить до того, що зазвичай обирають кількість ділянок k для побудови гістограми як найближче ціле до квадратного кореня з n:

У сценарії сторінки за умовчанням використовується другий варіант: квадратний корінь з кількості досліджень, округлений до найближчого цілого. За необхідності змініть цей вибір. У нижченаведеному перемикачу оберіть потрібну кількість інтервалів розбиття та натисніть на кнопочку. Буде визначена ширина кожної ділянки h та побудована гістограма розподілу. Для цього після розбиття інтервалу [xmin, xmax] на k ділянок підраховується кількість влучень нашої величини у кожну ділянку nj. Стовпчикова діаграма цих nj і називається гістограмою.



За виглядом гістограми підбирається теоретичний закон розподілу. Для цього дивимось, на яку щільність розподілу схожа гістограма, та обираємо відповідний закон. На цій сторінці вибір невеликий. Ми розглядаємо тільки деякі закони розподілу, що найчастіше зустрічаються у застосуваннях:

  1. нормальний;
  2. показниковий (експоненційний);
  3. зсунутий показниковий (експоненційний);
  4. Лапласів (двобічний експоненційний);
  5. рівномірний;
  6. Симпсонів (трикутний);
  7. Релеїв;
  8. зсунутий Релеїв.

Є ще лівобічні зсунуті розподіли Релея та показниковий. Такі дані теж можна обробляти на цій сторінці. Для цього просто змініть знак у всіх xi. Якщо у вас є інший розподіл, напишіть мені, і я доповню цей посібник. А зараз подивіться на малюнки 1-6: чи немає на них чогось схожего на вашу гістограму?

Графік щільності нормального розподілу − колоколоподібна крива, симетрична відносно своєї вертикальної осі, але може бути зміщеною вздовж горизонталі відносно осі Oy. Значення x можуть бути різного знаку. Вираз для щільності нормального розподілу є таким:

а функція розподілу має вигляд:

де Φ(u) − sнтеграл Лапласа, для якого є таблиці. У вирази для щільності та функції нормального розподілу входять 2 параметри: m та σ, тому нормальний розподіл є двохпараметричним. За нормальним законом зазвичай розподілена похибка вимірювань, якщо на результат дослідження впливає багато дрібних незалежних факторів.

Щільність показникового розподілу відмінна від нуля лише для невід’ємних значень x. В нулі вона приймає максимальне значення, що дорівнює α. Зі зростанням x вона спадає, залишаючись угнутою, та асимптотично наближається до 0. Вираз для щільності показникового розподілу:

а для функції розподілу:

Показниковий розподіл є однопараметричним: функція та щільність його залежать від одного параметра α. За показниковим законом розподілений інтервал часу між однотипними випадковими подіями: викликами на АТС, замовленнями у фірму, страховими випадками тощо.

Зсунутий показниковий розподіл відрізняється від звичайного тим, що ненульові значення щільності та функції розподілу починаються не з нуля, а з деякого значення b. Тому цей розподіл є двохпараметричним. Вираз для щільності розподілу:

а для функції розподілу:

Графік щільності зсунутого показникового розподілу такий самий, як і на мал.2. Є ще лівобічний зсунутий показниковий розподіл; графік його щільності відрізняється від графіка на мал.2 симетричним обертанням навколо вертикального відрізку. Якщо ваша гістограма схожа на такий графік, поміняйте знаки у всіх xi.

Щільність розподілу Лапласа має злам у точці b. У цій точці вона приймає максимальне значення, що дорівнює α/2. В обидві сторони від b крива симетрично спадає, залишаючись угнутою, та асимптотично наближаючись до 0. Вираз для щільності розподілу Лапласа:

а для функції розподілу:

Розподіл Лапласа використовується, наприклад, для опису розподілу похибок у моделях регресії. Він є двопараметричним. Параметри розподілу: α та b.

Щільність рівномірного розподілу відмінна від нуля тільки на заданому відрізку [a, b], і приймає на ньому стале значення:

Функція рівномірного розподілу лівіше точки a дорівнює нулю, правіше b дорівнює одиниці, а на відрізку [a, b] змінюється за лінійним законом:

Рівномірний розподіл − двохпараметричний, оскільки у вирази для Fx(x) та fx(x) входять 2 параметри: a та b. За рівномірним законом розподілена похибка округлення та фаза випадкових коливань.

Щільність розподілу Симпсона також відмінна від нуля тільки на заданому відрізку [a, b], але, на відміну від рівномірного розподілу, не є на ньому сталою, а має трикутний вигляд:

Функція розподілу Симпсона лівіше точки a дорівнює нулю, правіше b дорівнює одиниці, а на відрізку [a, b] має вираз:

Як і рівномірний розподіл, розподіл Симпсона − двохпараметричний, оскільки у вирази для Fx(x) та fx(x) входять 2 параметри: a і b. За законом Симпсона розподілена сума двох незалежних рівномірно розподілених величин.

Щільність Релеєвого розподілу відмінна від нуля лише для невід’ємних значень x. Він нуля вона є опуклою та зростає до деякого максимального значення. Далі зі зростанням x вона спадає, стає угнутою, та асимптотично наближається до 0. Вираз для щільності Релеєвого розподілу є таким:

Вираз для функції Релеєвого розподілу:

Цей розподіл є однопараметричним: він залежить від одного параметра σ. За Релеєвим законом розподілена відстань від точки влучення у мішень до її центру.

Зсунутий Релеїв розподіл відрізняється від класичного тим, шо ненульові значення щільності розподілу починаються не з нуля, а з деякого значення b. Графік щільності його розподілу такий самий, як і на мал.6. Його щільність розподілу:

а функція розподілу:

Зсунутий Релеїв розподіл − двохпараметричний: його щільність та функція розподілу залежать від двох параметрів: σ та b. Є ще лівобічний зсунутий Релеїв розподіл, його щільність розподілу відрізняється від зображеної на мал.6 обертанням навколо вертикальної прямої x=b. Якщо у вас такі дані, поміняйте знаки у всіх xi.

Подивіться на свою гістограму та оберіть той розподіл, що найбільш підходить.

У вирази для теоретичної функції розподілу Fx(x) та теоретичної щільності розподілу fx(x) входять різні числові параметри. Для їхнього визначення можна застосувати або принцип максимальної правдоподібності, або метод моментів. Принцип максимальної правдоподібності полягає в тому, що обчислюється щільність розподілу в усіх експериментальних точках xi: fx(xi), а потім їхній добуток. Цей добуток є функцією тих числових параметрів, що входять у аналітичний вираз для fx(x). Числові параметри підбираються так, щоб цей добуток був максимальним (досліджується на екстремум функція кількох змінних).

Простішим є метод моментів. У ньому параметри, що входять у вирази для Fx(x) та fx(x), підбираються так, щоб обчислені за цими параметрам математичне сподівання (для 1-параметричних законів) або математичне сподівання та дисперсія (для 2-параметричних законів) співпали з вибірковими. Так, для нормального розподілу параметри m та σ обираємо такими, щоб вони співпадали відповідно з вибірковим математичним сподіванням та середньоквадратичним відхиленням:

Для показникового розподілу параметр α знаходимо так:

У двохпараметричному зсунутому показниковому розподілі його параметри α та b знаходимо таким чином:

Для розподілу Лапласа параметри α та β знаходяться так:

Параметри рівномірного розподілу a та b будуть дорівнювати:

Параметри трикутного розподілу Симпсона a и b будуть такими:

Параметр σ Релеєвого розподілу дорівнює:

Параметри зсунутого Релеєвого розподілу σ та b знаходяться так:

Оберіть у перемикачу той розподіл, що найбільш підходить, та натисніть кнопочку "Перерахувати" (за умовчанням виконується автоматичне підбирання найкращого розподілу з наявних у списку). За методом моментів та формулами (30-37) будуть знайдені параметри обраного розподілу. Побудуємо на одному графіку теоретичну та емпіричну щільності розподілу. Емпірична щільність розподілу − це та ж сама гістограма, у якої масштаб уздовж осі ординат змінений таким чином, щоб площа під кривою дорівнювала 1. Для цього всі мітки вздовж осі ординат у гістограмі треба розділити на nh, де n − кількість експериментальних даних, а h − ширина ділянки при побудові гістограми. Теоретичну щільність розподілу будуємо за однією з формул (14), (16), (18), (20), (22), (24), (26) чи (28). Емпіричну щільність розподілу намалюємо чорною лінією, а теоретичну, що підбирається − лінією такого кольору, як на мал.1-6.










На цьому графіку в одному масштабі малюються емпірична щільність розподілу fx(x)~ та теоретична fx(x). Який теоретичний розподіл найкраще узгоджується з емпіричним: нормальний, показниковий, зсунутий показниковий, Лапласів, рівномірний, трикутний, Релеів чи зсунутий Релеів?

Критерій згоди Колмогорова

Критерій згоди Колмогорова застосовується для перевірки статистичної гіпотези про правильність підбирання теоретичного розподілу. Для його застосування треба знайти максимальну за модулем різницю між вибірковою (емпіричною, експериментальною) функцією розподілу Fx(x)~ та теоретичною (генеральною, припускаємою, підібраною) Fx(x):

а за нею обчислити λ=Dn, яку порівняти з квантилем λ-розподілу Колмогорова (ці квантилі є в таблицях). Якщо величина λ не дуже велика (не перевищує квантиля λp), то з довірчою ймовірністю p статистичну гіпотезу можна прийняти. Якщо ж λ>λp, то теоретичний розподіл підібраний невірно.

Для застосування критерія згоди Колмогорова треба побудувати на одному графіку теоретичну функцію розподілу Fx(x) та вибіркову Fx(x),~ а потім застосувати сам критерій. Графік емпіричної функції розподілу Fx(x)~ є кусочно-сталою лінією: це ламана зі сходинками висотою 1/n у точках з абсцисами xi. Максимум різниці між теоретичною та емпіричною функціями розподілу досягається як раз на одній з цих сходинок. Обчислимо у цих точках вибіркову Fx(x)~ та підібрану теоретичну Fx(x) функції розподілу. Побудуємо на одному графіку Fx(x)~ чорною лінією та підібрану Fx(x) лінією обраного раніше кольору. Вертикальною лінією покажемо максимальну за модулем різницю між Fx(x) та Fx(x).~ Знайдемо її та обчислимо статистику Колмогорова λ=Dn. Порівняємо знайдену статистику з квантилем λ-розподілу Колмогорова. Для цього задамо довірчу ймовірність. Зазвичай її обирають не дуже великою, наприклад, 0.7. Задайте довірчу ймовірність у віконці та натисніть кнопочку − перевірка статистичної гіпотези за λ-критерієм Колмогорова буде перерахована з новою довірчою ймовірністю.


Критерій згоди Пірсона

У критерії згоди Пірсона порівнюються між собою теоретичні та емпіричні кількості влучень у ділянки. Візьмемо ті ділянки, за якими була побудована гістограма. Емпіричні кількості влучень у ці ділянки nj ми порівнюємо з теоретичними кількостями влучень npj, де pj − ймовірність потрапляння нашої величини у j ділянку. Теоретичний розподіл можна вважати підібраним вірно з довірчою ймовірністю p, якщо сумарна квадратична відносна різниця між теоретичною та практичною кількістю влучень у кожну ділянку буде не дуже великою: повинна виконуватися умова

причому треба, щоб усі npj≥5. Тут m − кількість обмежень, що дорівнює кількості параметрів обраного закону розподілу плюс 1. Так, для нормального, рівномірного законів, законів Лапласа та Симпсона, а також для зсунутих експоненційного та Релеєвого законів m=3, а для звичайних експоненційного та Релеєвого законів m=2.

Побудуємо таблицю результатів, у яку занесемо: номери ділянок (1-й стовпчик), границі ділянок aj та bj (2-й та 3-й стовпчики), ймовірність влучення у ділянку pj (4-й стовпчик), теоретичну кількість влучень npj (5-й стовпчик) та практичну кількість влучень nj (6-й стовпчик).

Границі ділянок та практичну кількість влучень візьмемо з гістограми. Теоретична ймовірність влучення у j ділянку підраховується за формулою

де Fx(x) − підібрана теоретична функція розподілу. Перевіримо виконання умови проте, що всі npj≥5, та об’єднаємо ті ділянки, де npj<5. Перебудуємо таблицю та додамо до неї ще один, 7-й стовпчик − доданки лівої частини формули (39): (njnpj)2/npj. Підрахуємо суму елементів останнього стовпця, тобто ліву частину формули (39). Вона називається статистикою Пірсона. Порівняємо її з квантилем χ2-розподілу Пірсона при заданій довірчій імовірності. Задайте у віконці потрібну довірчу ймовірність та натисніть кнопочку − χ2-критерій Пірсона буде перерахований з новим значенням довірчої ймовірності.