У цій статті наведено синтаксис формули та описано, як у програмі Microsoft Excel використовувати функцію LINEST.
Опис
Функція LINEST обчислює статистику для лінії за допомогою методу "найменших квадратів", щоб обчислити пряму лінію, яка найбільше відповідає вашим даним, а потім повертає масив, що описує цю лінію. Можна також поєднати функцію LINEST з іншими функціями, щоб обчислити статистику для інших типів моделей, які є лінійними в невідомих параметрах, у тому числі поліноміальні, логарифмічні, експоненційні та ступеневі ряди. Оскільки ця функція повертає масив значень, її потрібно вводити як формулу масиву. Необхідні вказівки наведено у прикладах цієї статті.
Формула для лінії має такий вигляд:
y = mx + b
-або-
y = m1x1 + m2x2 + ... + b
якщо існує кілька діапазонів х-значень, де залежні y-значення — це функція незалежних x-значень. m-значення — це коефіцієнти, які відповідають кожному x-значенню, а b — константа. Зауважте, що y, x і m можуть бути векторами. Масив, який повертає функція LINEST, — {mn;mn-1;...,m1;b}. Функція LINEST також може повертати додаткову статистику регресії.
Синтаксис
LINEST(відомі_значення_y;[відомі_значення_x];[конст];[статистика])
Синтаксис функції LINEST має такі аргументи:
Синтаксис
-
Відомі_значення_y. Обов’язковий аргумент. Набір значень y, вже відомих із рівняння y = mx + b.
-
Якщо масив відомі_значення_y є окремим стовпцем, то кожний стовпець відомі_значення_x інтерпретується як окрема змінна.
-
Якщо масив відомі_значення_y міститься в одному рядку, то кожний рядок відомі_значення_x інтерпретується як окрема змінна.
-
-
Відомі_значення_x. Необов’язковий аргумент. Сукупність значень x, які можуть бути вже відомі з рівняння y = mx + b.
-
Масив відомі_значення_x може містити один або кілька наборів змінних. Якщо використовується лише одна змінна, відомі_значення_y і відомі_значення_x можуть бути діапазонами будь-якої форми, за умови, що вони мають однакову розмірність. Якщо використовується кілька змінних, відомі_значення_y мають бути вектором (тобто діапазоном із висотою в один рядок і шириною в один стовпець).
-
Якщо відомі_значення_x не задано, вважається, що це буде масив {1;2;3;...}, який має той самий розмір, що й відомі_значення_y.
-
-
Конст. Необов’язковий аргумент. Логічне значення, яке вказує, чи потрібно, щоб константа b дорівнювала 0.
-
Якщо аргумент конст приймає значення TRUE (істина) або його не вказано, b обчислюється у звичайний спосіб.
-
Якщо аргумент конст приймає значення FALSE (хибність), то b вважається рівним 0, а значення m добираються так, щоб y = mx.
-
-
Статистика. Необов’язковий аргумент. Логічне значення, яке визначає, чи потрібно повертати додаткову статистику регресії.
-
Якщо аргумент «статистика » має значення TRUE, функція LINEST повертає додаткову статистику регресії; у результаті повертається масив {mn;mn-1,...,m1;b; sen,sen-1,...,se1,seb; r2,sey; F,df; ssreg,ssresid}.
-
Якщо аргумент статистика приймає значення FALSE (хибність) або цей аргумент не вказано, функція LINEST повертає лише m-коефіцієнти й константу b.
Додаткова статистика регресії має такий вигляд.
-
Статистичні значення |
Опис |
---|---|
se1;se2;...;sen |
Стандартні значення помилок для коефіцієнтів m1;m2;...;mn. |
seb |
Стандартне значення помилок для константи b (seb=#N/A, коли аргумент конст має значення FALSE). |
r2 |
Коефіцієнт визначення. Порівнює орієнтовні та фактичні значення y, а також діапазони у значенні від 0 до 1. Якщо це 1, у вибірці є ідеальна кореляція – немає різниці між очікуваним значенням y і фактичним значенням y. В іншій крайності, якщо коефіцієнт визначення дорівнює 0, формула регресії не корисна для прогнозування значення y. Відомості про те, як обчислюється2 , див. в розділі "Примітки" далі в цій статті. |
sey |
Стандартна помилка для очікуваного y |
F |
F-статистика, або спостережувані F-значення. Використовуйте для визначення, чи спостережуване відношення між залежною і незалежною змінними виникло випадково. |
df |
Ступені свободи. Використовуйте ступені свободи, щоб знаходити критичні F-значення в статистичній таблиці. Порівняйте значення в таблиці з F-статистикою, яку повертає функція LINEST , щоб визначити довірчий рівень для моделі. Відомості про те, як обчислюється df, див. в розділі "Примітки" далі в цій статті. Приклад 4 . Використання F і df. |
ssreg |
Регресійна сума квадратів. |
ssresid |
Залишкова сума квадратів. Відомості про те, як обчислюються ssreg і ssresid, див. в розділі "Примітки" далі в цій статті. |
На наведеному нижче рисунку показано порядок повернення статистики додаткової регресії.
Примітки
-
Можна описати будь-яку пряму лінію за допомогою нахилу та перетину з віссю y:
Нахил (m):
Щоб знайти нахил лінії, часто написаної як m, візьміть дві точки на лінії, (x1,y1) і (x2,y2); нахил дорівнює (y2 - y1)/(x2 - x1).Перетин Y (b):
Y-перетин рядка, часто написаного як b, – це значення y в точці перетину осі Y.Формула прямої лінії дорівнює y = mx + b. Вивчивши значення m і b, ви можете обчислити будь-яку точку на рядку, підключивши до неї значення y- або x. Також можна скористатися функцією TREND .
-
Якщо є лише одна незалежна x-змінна, можна отримати значення нахилу та перетину з віссю y безпосередньо за допомогою таких формул:
Схил:
=INDEX(LINEST(known_y;known_x);1)Перетин Y:
=INDEX(LINEST(known_y;known_x);2) -
Точність апроксимації за допомогою прямої, обчисленої функцією LINEST, залежить від степеня розкиду даних. Чим ближчі дані до прямої, тим точніша модель, яка використовується функцією LINEST. Функція LINEST використовує метод найменших квадратів для визначення найкращої апроксимації даних. Якщо є лише одна незалежна x-змінна, m і b обчислюються за такими формулами:
де x і y – вибіркові середні значення, тобто x = AVERAGE(відомі_значення_x), а y = AVERAGE(відомі_значення_y).
-
Лінійні та криві функції LINEST і LOGEST можуть обчислити найкращу пряму лінію або експоненційну криву, яка відповідає вашим даним. Однак потрібно вирішити, який із двох результатів найкраще підходить для ваших даних. Ви можете обчислити TREND(known_y,known_x) для прямої лінії або GROWTH(known_y, known_x) для експоненційної кривої. Ці функції без аргументу new_x повертають масив значень y, прогнозованих уздовж цієї лінії або кривої на фактичних точках даних. Потім можна порівняти прогнозовані значення з фактичними значеннями. Їх можна створити на діаграмах для візуального порівняння.
-
Здійснюючи регресійний аналіз, Excel обчислює для кожної точки квадрат різниці між прогнозованим значенням у та фактичним значенням у. Сума цих квадратів різниць називається залишковою сумою квадратів (ssresid). Потім Excel обчислює загальну суму квадратів (sstotal). Якщо аргумент конст приймає значення TRUE (істина) або цей аргумент не вказано, загальна сума квадратів дорівнюватиме сумі квадратів різниць між фактичними значеннями y та середніми значеннями у. Якщо аргумент конст приймає значення FALSE (хибність), загальна сума квадратів дорівнюватиме сумі квадратів фактичних значень у (без віднімання середнього значення у від кожного окремого значення у). Після цього регресійну суму квадратів (ssreg) можна обчислити таким чином: ssreg=sstotal-ssresid. Чим менша залишкова сума квадратів, порівняно із загальною сумою квадратів, тим більше значення коефіцієнта визначення r2, що є показником того, наскільки добре формула, отримана в результаті регресивного аналізу, пояснює зв'язок між змінними. Значення r2 дорівнює ssreg/sstotal.
-
У деяких випадках один або кілька стовпців X (припустімо, що стовпці Y і X) можуть не мати додаткового передбачливого значення в присутності інших стовпців X. Іншими словами, усунення одного або кількох стовпців X може призвести до не менш точних прогнозованих значень Y. У такому разі ці зайві стовпці X слід пропустити з моделі регресії. Це явище називається "колінеарність", тому що будь-який надлишковий стовпець X може бути виражений як сума кратних не надлишкових стовпців X. Функція LINEST перевіряє колінеарність і видаляє зайві стовпці X із моделі регресії, коли визначає їх. Видалені стовпці X можна розпізнати у виводі LINEST як такі, що містять коефіцієнти 0 на додачу до значень 0 se. Якщо один або кілька стовпців видаляються як зайві, це впливає на df, оскільки df залежить від кількості стовпців X, які фактично використовуються для передбачливих цілей. Докладні відомості про обчислення df див. у прикладі 4. Якщо змінити df, тому що зайві стовпці X видаляються, значення sey і F також впливають. Колінеарність повинна бути відносно рідкісною на практиці. Однак один випадок, коли може виникнути більша ймовірність того, що деякі стовпці X містять лише 0 і 1 значення як індикатори того, чи є суб'єкт в експерименті учасником певної групи або не є учасником певної групи. Якщо аргумент const = TRUE або його не вказано, функція LINEST ефективно вставляє додатковий стовпець X з усіх 1 значень для моделювання перетину. Якщо у вас є стовпець з 1 для кожної теми, якщо чоловічий або 0, якщо ні, і у вас також є стовпець з 1 для кожної теми, якщо жіночий, або 0, якщо ні, цей останній стовпець надлишковий, оскільки записи в ньому можна отримати від віднімання запису в стовпці "чоловічий індикатор" від запису в додатковому стовпці всіх 1 значень, доданих функцією LINEST .
-
Для випадків, коли стовпці Х не видаляються з моделі внаслідок колінеарності, значення df обчислюється таким чином: якщо існує k стовпців аргументу відомі_значення_x і аргумент конст має значення TRUE (істина), або цей аргумент не вказано, то df=n-k-1. Якщо аргумент конст має значення FALSE (хибність), то df=n-k. В обох випадках видалення стовпців Х унаслідок колінеарності збільшує значення df на 1.
-
Вводячи константу масиву як, наприклад, аргумент відомі_значення_x, слід використовувати крапку з комою для розділення значень, які містяться в одному рядку, та двокрапку — для розділення рядків. Символи-роздільники можуть відрізнятися залежно від регіональних параметрів.
-
Зауважте, що y-значення, прогнозовані рівнянням регресії, можуть не бути припустимими, якщо вони перебувають поза межами діапазону y-значень, використаного для визначення рівняння.
-
Основний алгоритм, використовуваний у функції LINEST, відрізняється від основного алгоритму, використовуваного у функціях SLOPE і INTERCEPT. Відмінність між цими алгоритмами може призвести до отримання різних результатів, якщо дані є невизначеними і колінеарними. Наприклад, якщо точки даних аргументу відомі_значення_y дорівнюють 0, а точки даних аргументу відомі_значення_x дорівнюють 1:
-
Функція LINEST повертає значення 0. Алгоритм функції LINEST створено, щоб повертати придатні результати для колінеарних даних, і в такому випадку можна знайти принаймні одну відповідь.
-
Функції SLOPE і INTERCEPT повертають #DIV/0! помилку #REF!. Алгоритм функцій SLOPE і INTERCEPT призначений для пошуку лише однієї відповіді, і в цьому випадку може бути кілька відповідей.
-
-
Крім того, що функцію LOGEST можна використати для обчислення статистики для інших типів регресії, функцію LINEST можна використати для обчислення діапазону інших типів регресії за допомогою введення функцій змінних x та y як рядів x та y для функції LINEST. Наприклад, така формула:
=LINEST(y-значення; x-значення^COLUMN($A:$C))
працює, якщо є окремий стовпець y-значень і окремий стовпець x-значень для обчислення кубічного (поліноміального 3-го порядку) наближення форми:
y = m1*x + m2*x^2 + m3*x^3 + b
Цю формулу можна змінити для обчислення інших типів регресії, але в деяких випадках буде потрібно змінити результати та іншу статистику.
-
Значення F-test, яке повертає функція LINEST, відрізняється від значення F-test, яке повертає функція FTEST1. LINEST повертає статистику F, у той час як FTEST1 повертає ймовірність.
Приклади
Приклад 1. Нахил і Y-перетин
Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім – клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.
Відоме значення Y |
Відоме значення X |
---|---|
1 |
0 |
9 |
4 |
5 |
2 |
7 |
3 |
Результат (нахил) |
Результат (перетин з віссю Y) |
2 |
1 |
Формула (формула масиву у клітинках A7:B7) |
|
=LINEST(A2:A5,B2:B5,,FALSE) |
Приклад 2. Проста лінійна регресія
Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім – клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.
Місяць |
Продажі |
---|---|
1 |
3 100 грн. |
2 |
4 500 грн. |
3 |
4 400 грн. |
4 |
5 400 грн. |
5 |
7 500 грн. |
6 |
8 100 грн. |
Формула |
Результат |
=SUM(LINEST(B1:B6, A1:A6)*{9,1}) |
11 000 грн. |
Обчислює орієнтовну суму виручки в дев’ятому місяці з урахуванням продажів із першого по шостий місяці. |
Приклад 3. Множинна лінійна регресія
Скопіюйте дані прикладу з наведеної нижче таблиці та вставте їх у клітинку A1 нового аркуша Excel. Щоб відобразити результат обчислення формул, виберіть їх, натисніть клавішу F2, а потім – клавішу Enter. За потреби можна змінити ширину стовпців, щоб відобразити всі дані.
Площа (x1) |
Кількість офісів (x2) |
Кількість входів (x3) |
Час експлуатації (x4) |
Оціночна вартість (y) |
---|---|---|---|---|
2310 |
2 |
2 |
20 |
142 000 грн. |
2333 |
2 |
2 |
12 |
144 000 грн. |
2356 |
3 |
1,5 |
33 |
151 000 грн. |
2379 |
3 |
2 |
43 |
150 000 грн. |
2402 |
2 |
3 |
53 |
139 000 грн. |
2425 |
4 |
2 |
23 |
169 000 грн. |
2448 |
2 |
1,5 |
99 |
126 000 грн. |
2471 |
2 |
2 |
34 |
142 900 грн. |
2494 |
3 |
3 |
23 |
163 000 грн. |
2517 |
4 |
4 |
55 |
169 000 грн. |
2540 |
2 |
3 |
22 |
149 000 грн. |
-234,2371645 |
||||
13,26801148 |
||||
0,996747993 |
||||
459,7536742 |
||||
1732393319 |
||||
Формула (формула динамічного масиву, введена в A19) |
||||
=LINEST(E2:E12,A2:D12,TRUE,TRUE) |
Приклад 4. Використання статистики F та r2
У попередньому прикладі коефіцієнт визначення (r2) дорівнює 0,99675 (див. клітинку A17 у результатах функції LINEST), що вказує на міцний зв'язок між незалежними змінними та ціною продажу. За допомогою F-статистики можна визначити, чи ці результати з таким високим значенням r2 сталися випадково.
Вважаємо, що насправді немає залежності між змінними, але відображено винятковий випадок створення вибірки з 11 адміністративних будівель, для якого статистичний аналіз свідчить про високу залежність. Елемент "Альфа" використовується на позначення ймовірності помилкового висновку про те, що така залежність є.
Значення F і df у виводі з функції LINEST можна використовувати для оцінки ймовірності збільшення F-значення, яке відбувається випадково. F можна порівняти з критичними значеннями в опублікованих таблицях F-розподілу або функцію FDIST в Excel, щоб обчислити ймовірність більшого F-значення, яке відбувається випадково. Відповідний F-розподіл має ступені свободи v1 і v2. Якщо n – кількість точок даних і конст = TRUE або пропущено, то v1 = n – df – 1 і v2 = df. (Якщо конст = FALSE, то v1 = n – df і v2 = df.) Функція FDIST із синтаксисом FDIST(F,v1,v2) повертає ймовірність вищого F-значення, яке відбувається випадково. У цьому прикладі df = 6 (клітинка B18) і F = 459,753674 (клітинка A18).
Якщо альфа-значення 0,05, v1 = 11 – 6 – 1 = 4, а v2 = 6, критичний рівень F становить 4,53. Оскільки F = 459,753674 набагато вище, ніж 4,53, вкрай малоймовірно, що F значення цього високого відбулося випадково. (Якщо альфа = 0,05, гіпотеза про відсутність зв'язку між known_y і known_x буде відхилена, коли F перевищує критичний рівень, 4,53).) За допомогою функції FDIST у програмі Excel можна отримати ймовірність того, що F-значення цього високого значення відбулося випадково. Наприклад, FDIST(459,753674, 4, 6) = 1,37E-7, надзвичайно невелика ймовірність. Ви можете зробити висновок, знайшовши критичний рівень F в таблиці або скориставшись функцією FDIST , щоб формула регресії була корисною для прогнозування оціночної вартості офісних будівель у цій області. Пам'ятайте, що дуже важливо використовувати правильні значення v1 і v2, обчислені в попередньому абзаці.
Приклад 5. Обчислення t-статистики
Інша перевірка припущення визначить, чи кожний коефіцієнт нахилу допомагає в оціненні вартості адміністративної будівлі у прикладі 3. Наприклад, щоб визначити статистичну значність коефіцієнту часу експлуатації, поділіть -234,24 (коефіцієнт нахилу терміну) на 13,268 (очікувана стандартна помилка коефіцієнтів терміну у клітинці A15). Далі подано значення спостережуваного t:
t = m4 ÷ se4 = -234,24 ÷ 13,268 = -17,7
Якщо абсолютне значення t досить високе, можна зробити висновок, що коефіцієнт нахилу допомагає в оціненні вартості адміністративної будівлі у прикладі 3. У поданій нижче таблиці наведено абсолютні значення для 4 значень спостережуваного t.
Звернувшись до таблиць у довіднику з математичної статистики, можна дізнатися, що t-критичне двобічне з 6 степенями вільності та Альфа = 0,05 дорівнює 2,447. Це критичне значення можна також знайти за допомогою функції TINV у програмі Excel. TINV(0,05;6) = 2,447. Оскільки абсолютна величина t, яка дорівнює 17,7, більше за 2,447, час експлуатації є важливою змінною для оцінки вартості адміністративної будівлі. Аналогічно можна визначити статистичну значимість усіх інших змінних. Нижче наведено спостережувані значення t для кожної з незалежних змінних.
Змінна |
Значення спостережуваного t |
---|---|
Площа |
5,1 |
Кількість офісів |
31,3 |
Кількість входів |
4,8 |
Час експлуатації |
17,7 |
Всі ці значення мають абсолютне значення, яке більше за 2,447; тому всі змінні, використані в рівнянні регресії, мають значення для прогнозування оціночної вартості адміністративних будівель у цьому районі.