Applies ToExcel pro Microsoft 365 Excel pro Microsoft 365 pro Mac Excel pro web Excel 2024 Excel 2024 pro Mac Excel 2021 Excel 2021 pro Mac Excel 2019 Excel 2016

Tento článek popisuje syntaxi vzorce a použití funkce LINREGRESE v Microsoft Excelu.

Popis

Funkce LINREGRESE vypočítá pomocí metody nejmenších čtverců statistické hodnoty pro přímku, která nejlépe odpovídá uvedeným datům, a vrátí matici s parametry přímky. Funkci LINREGRESE lze také použít společně s dalšími funkcemi, které vypočtou statistické hodnoty pro další typy lineárních modelů s neznámými parametry, včetně polynomických, logaritmických, exponenciálních nebo mocninných řad. Vzhledem k tomu, že tato funkce vrací matici hodnot, musí být zadána jako maticový vzorec. Pokyny jsou uvedeny u příkladů v tomto článku.

Tato přímka je definována následujícím vztahem:

y = mx + b

– nebo –

y = m1x1 + m2x2 + ... + b

pokud existuje více oblastí x, kde závislé hodnoty y jsou funkcí nezávislých hodnot x. Hodnoty m jsou koeficienty odpovídající každé z hodnot x, b je konstanta. Všimněte si, že y, x a m mohou být vektory. Matice, která je výsledkem funkce LINREGRESE, má tvar {mn;mn-1;...;m1;b}. Funkce LINREGRESE může také vracet další regresní statistiky.

Syntaxe

LINREGRESE(pole_y;[pole_x];[b];[stat])

Syntaxe funkce LINREGRESE má následující argumenty:

Syntaxe

  • Pole_y:    Povinný argument. Sada hodnot y odvozených ze vztahu y = mx + b.

    • Pokud je oblast pole_y v jediném sloupci, je každý sloupec oblasti pole_x interpretován jako samostatná proměnná.

    • Pokud je oblast pole_y v jediném řádku, je každý řádek oblasti pole_x interpretován jako samostatná proměnná.

  • Pole_x:    Nepovinný argument. Sada hodnot x, které již mohou být známé ze vztahu y = mx + b.

    • Rozsah known_x může obsahovat jednu nebo více sad proměnných. Pokud je použita pouze jedna proměnná, known_y a known_x mohou být rozsahy libovolného tvaru, pokud mají stejné rozměry. Pokud se použije více než jedna proměnná, known_y musí být vektor (to znamená oblast s výškou jednoho řádku nebo šířkou jednoho sloupce).

    • Pokud vynecháte argument pole_x, předpokládá se, že jde o matici {1;2;3;...}, která je stejně velká jako pole_y.

  • B:    Volitelný argument. Logická hodnota, která určuje, zda se má parametr b (absolutní člen) počítat nebo zda se má rovnat nule.

    • Pokud má argument b hodnotu PRAVDA nebo není uveden, počítá se konstanta b běžným způsobem.

    • Jestliže má argument b hodnotu NEPRAVDA, uvažuje se, že b = 0, a hodnoty m se upraví tak, aby platilo y = mx.

  • Stat:    Volitelný argument. Jedná se o logickou hodnotu, která určuje, zda chcete zjistit další regresní statistiky.

    • Pokud je statistika TRUE, funkce LINREGRESE vrátí další regresní statistiky; výsledkem je vrácená matice {mn,mn-1,...,m1,b; sen,sen-1,...,se1,seb; r2,sey; F,df; ssreg,ssresid}.

    • V případě, že je argument stat NEPRAVDA nebo není uveden, vrátí funkce LINREGRESE pouze koeficienty m a konstantu b.

      Dodatečné regresní statistiky jsou:

Statistika

Popis

se1,se2,...,sen

Standardní chyby pro koeficienty m1,m2,...,mn.

seb

Standardní chyba pro konstantu b (seb = #NENÍ_K_DISPOZICI, pokud b je NEPRAVDA)

r2

Koeficient determinace. Porovnává skutečné hodnoty y a jejich odhady, nabývá hodnot od 0 do 1. Pokud je roven 1, existuje v tomto vzorku dokonalá korelace, tj. mezi odhadem a skutečnými hodnotami y není žádný rozdíl. Pokud je koeficient determinace roven nule, znamená to, že regresní rovnice nedokáže předpovídat hodnoty y. Informace o tom, jak se počítají2 , najdete v části Poznámky dále v tomto tématu.

sey

Standardní chyba odhadu y.

F

F statistika nebo pozorovaná hodnota F. Pomocí F statistiky můžete určit, jestli pozorovaný vztah mezi závislými a nezávislými proměnnými dochází náhodou.

df

Stupně volnosti. Pomocí stupňů volnosti lze nalézt kritické hodnoty F ve statistické tabulce. Porovnáním hodnot z tabulky s F-statistikou, kterou vrátí funkce LINREGRESE, lze určit úroveň spolehlivosti modelu. Informace o výpočtu hodnoty df naleznete v části Poznámky tohoto tématu. Příklad4 ukazuje použití hodnot F a df.

ssreg

Regresní součet čtverců.

ssresid

Reziduální součet čtverců. Informace o výpočtu hodnot ssreg a ssresid naleznete v části Poznámky tohoto tématu.

Následující příklad uvádí pořadí, ve kterém se vracejí dodatečné regresní statistiky.

List

Poznámky

  • Libovolnou přímku lze popsat pomocí sklonu a průsečíku s osou y:

    Sklon (m): Pokud chcete najít sklon přímky, často napsané jako m, vezměte dva body na přímce, (x1,y1) a (x2,y2); sklon je roven (y2 - y1)/(x2 - x1).

    Průsečík Y (b): Průsečík y přímky, často napsaný jako b, je hodnota y v bodě, kde čára protíná osu y.

    Rovnice přímky je y = mx + b. Jakmile znáte hodnoty m a b, můžete vypočítat libovolný bod této přímky tak, že do rovnice dosadíte hodnotu x nebo y. Lze též použít funkci LINTREND.

  • Máte-li pouze jedinou nezávislou proměnnou x, můžete hodnoty sklonu a průsečíku s osou y získat přímo z následujících vzorců:

    Svah: =INDEX(LINREGRESE(known_y;known_x);1)

    Průsečík Y: =INDEX(LINREGRESE(known_y;known_x);2)

  • Přesnost přímky vypočtené funkcí LINREGRESE závisí na tom, jak je daná množina dat rozptýlená. Čím více jsou data lineární, tím je regresní model funkce LINREGRESE přesnější. Funkce LINREGRESE používá metodu nejmenších čtverců, aby se regrese co nejvíce přiblížila daným datům. Máte-li pouze jedinou nezávislou proměnnou x, budou se m a b počítat podle následujících vzorců:

    Rovnice

    Rovnice

    kde x a y jsou střední hodnoty výběru, např. x = PRŮMĚR (pole_x) a y = PRŮMĚR(pole_y).

  • Funkce LINREGRESE a LOGEST umí vypočítat nejlepší přímku nebo exponenciální křivku, která odpovídá vašim datům. Musíte se ale rozhodnout, který z těchto dvou výsledků nejlépe vyhovuje vašim datům. Funkci TREND(known_y,known_x) můžete vypočítat jako přímku nebo funkci GROWTH(known_y, known_x) pro exponenciální křivku. Tyto funkce, bez argumentu new_x , vrátí pole hodnot y předpovězené podél této přímky nebo křivky ve skutečných datových bodech. Pak můžete porovnat předpovězené hodnoty se skutečnými hodnotami. Můžete je zmapovat, abyste je mohli vizuálně porovnat.

  • U regresní analýzy počítá aplikace Excel pro každý bod druhou mocninu rozdílu mezi skutečnou hodnotou y v tomto bodě a hodnotou odhadnutou. Součet těchto kvadratických odchylek se nazývá reziduální součet čtverců ssresid. Aplikace Excel pak vypočítá celkový součet čtverců, sstotal. Pokud je argument b = PRAVDA nebo chybí, rovná se celkový součet čtverců součtu kvadratických odchylek mezi skutečnými hodnotami y a průměrem hodnot y. Pokud je argument b = NEPRAVDA, je celkový součet čtverců součtem čtverců skutečných hodnot y (bez odečtení průměrných hodnot y od každé jednotlivé hodnoty y). Regresní součet čtverců ssreg lze vypočítat jako ssreg = sstotal - ssredid. Čím menší je součet zbytkových čtverců v porovnání s celkovým součtem čtverců, tím větší je hodnota koeficientu určení r2, což je indikátor toho, jak dobře rovnice vyplývající z regresní analýzy vysvětluje vztah mezi proměnnými. Hodnota r2 se rovná ssreg/sstotal.

  • V některých případech může mít jeden nebo více sloupců X (předpokládejme, že hodnoty Y a X jsou ve sloupcích) žádnou další prediktivní hodnotu v přítomnosti ostatních sloupců X. Jinými slovy, odstranění jednoho nebo více sloupců X může vést k predikovaným hodnotám Y, které jsou stejně přesné. V takovém případě by měly být tyto redundantní sloupce X z regresního modelu vynechány. Tento jev se nazývá "koinearita", protože každý redundantní sloupec X lze vyjádřit jako součet násobků ne redundantních sloupců X. Funkce LINREGRESE kontroluje koinearitu a při jejich identifikaci odebere z regresního modelu všechny redundantní sloupce X. Odebrané sloupce X lze ve výstupu funkce LINREGRESE rozpoznat jako součinitele 0 kromě hodnot 0 se. Pokud je jeden nebo více sloupců odebráno jako redundantní, df je ovlivněn, protože df závisí na počtu sloupců X skutečně použitých pro prediktivní účely. Podrobnosti o výpočtu df najdete v příkladu 4. Pokud se hodnota df změní, protože jsou odebrány redundantní sloupce X, ovlivní to také hodnoty sey a F. Koinearita by měla být v praxi poměrně vzácná. Jeden případ, kdy je pravděpodobnější, že nastane, je, když některé sloupce X obsahují pouze hodnoty 0 a 1 jako indikátory toho, zda subjekt v experimentu je nebo není členem určité skupiny. Pokud argument const = PRAVDA nebo je vynechán, funkce LINREGRESE efektivně vloží další sloupec X všech 1 hodnot pro modelování průsečíku. Pokud máte sloupec s hodnotou 1 pro každý předmět, pokud je muž, nebo 0, pokud ne, a máte také sloupec s 1 pro každý předmět, pokud je žena, nebo 0, je tento druhý sloupec nadbytečný, protože položky v něm lze získat odečtením položky ve sloupci "indikátor muž" od položky v dodatečném sloupci všech 1 hodnot přidaných funkcí LINREGRESE .

  • Pokud nejsou z modelu odebrány žádné sloupce X z důvodu kolinearity, vypočítá se hodnota df následujícím způsobem: existuje-li k sloupců obsahujících pole_x a argument b = PRAVDA nebo chybí, pak df = n – k – 1. Jestliže argument b = NEPRAVDA, pak df = n - k. V obou případech zvyšuje každý sloupec X odebraný z důvodu kolinearity hodnotu df o 1.

  • Zadáváte-li jako argument maticovou konstantu (například pole_x), oddělujte hodnoty v řádku středníky a jednotlivé řádky symboly svislé čáry (|). Oddělovače se mohou lišit podle místního nastavení.

  • Všimněte si, že hodnoty y, předpovídané pomocí regresní rovnice, nemusí platit, pokud jsou mimo oblast hodnot y, pomocí kterých jste rovnici vytvářeli.

  • Algoritmus použitý u funkce LINREGRESE se odlišuje od algoritmu použitého u funkcí INTERCEPT a SLOPE. U neurčitých dat ležících na stejné přímce může rozdíl mezi těmito algoritmy vést k odlišným výsledkům. Jsou-li například datové body argumentu pole_y rovny 0 a datové body argumentu pole_x rovny 1, jsou výsledky následující:

    • Funkce LINREGRESE vrátí hodnotu 0. Algoritmus funkce LINREGRESE vrací přijatelné výsledky pro data ležící na stejné přímce, přičemž v tomto případě lze nalézt alespoň jeden výsledek.

    • SLOPE a INTERCEPT vrací #DIV/0! . Algoritmus funkcí SLOPE a INTERCEPT je navržen tak, aby hledal pouze jednu odpověď a v tomto případě může být odpovědí více.

  • Kromě použití funkce LOGEST k výpočtu statistik pro jiné regresní typy můžete funkci LINREGRESE použít k výpočtu rozsahu jiných regresních typů zadáním funkcí proměnných x a y jako řady x a y pro funkci LINREGRESE. Například následující vzorec:

    =LINREGRESE(hodnoty_y;hodnoty_x^SLOUPEC($A:$C))

    funguje, pokud máte jeden sloupec s hodnotami y a jeden sloupec s hodnotami x, které počítají kubickou aproximaci (polynom 3. stupně) ve tvaru:

    y = m1*x + m2*x^2 + m3*x^3 + b

    Tento vzorec lze upravit a počítat jiné typy regrese. V některých případech však vyžaduje úpravu výstupních hodnot a dalších statistických údajů.

  • Hodnota F-testu vrácená funkcí LINREGRESE se liší od hodnoty F-testu vrácené funkcí FTEST. Funkce LINREGRESE vrátí F-statistiku, zatímco funkce FTEST vrátí pravděpodobnost.

Příklady

Příklad 1 – Sklon a průsečík s osou Y

Zkopírujte vzorová data z následující tabulky a vložte je do buňky A1 v novém listu Excelu. Aby vzorce zobrazily výsledky, vyberte je, stiskněte F2 a potom stiskněte Enter. Pokud potřebujete, můžete přizpůsobit šířky sloupců a zobrazit si všechna data.

Známé y

Známé x

1

0

9

4

5

2

7

3

Výsledek (směrnice)

Výsledek (průsečík s osou y)

2

1

Vzorec (maticový vzorec v buňkách A7:B7)

=LINREGRESE(A2:A5;B2:B5;;NEPRAVDA)

Příklad 2 – Prostá lineární regrese

Zkopírujte vzorová data v následující tabulce a vložte je do buňky A1 nového excelového sešitu. Aby vzorce zobrazily výsledky, vyberte je, stiskněte F2 a potom stiskněte Enter. Pokud potřebujete, můžete přizpůsobit šířky sloupců a zobrazit si všechna data.

Měsíc

Prodej

1

3 100 Kč

2

4 500 Kč

3

4 400 Kč

4

5 400 Kč

5

7 500 Kč

6

8 100 Kč

Vzorec

Výsledek

=SUMA(LINREGRESE(B1:B6; A1:A6)*{9;1})

110 000 Kč

Na základě prodejů v prvním až šestém měsíci vypočítá odhad prodeje v devátém měsíci.

Příklad 3 – Vícenásobná lineární regrese

Zkopírujte vzorová data z následující tabulky a vložte je do buňky A1 v novém listu Excelu. Aby vzorce zobrazily výsledky, vyberte je, stiskněte F2 a potom stiskněte Enter. Pokud je to třeba, můžete si přizpůsobit šířku sloupců, abyste viděli všechna data.

Podlahová plocha (x1)

Počet kanceláří (x2)

Počet vchodů (x3)

Stáří (x4)

Odhadní cena (y)

2310

2

2

20

$142 000

2333

2

2

12

$144 000

2356

3

1,5

33

$151 000

2379

3

2

43

$150 000

2402

2

3

53

$139 000

2425

4

2

23

$169 000

2448

2

1,5

99

$126 000

2471

2

2

34

$142 900

2494

3

3

23

$163 000

2517

4

4

55

$169 000

2540

2

3

22

$149 000

-234,2371645

13,26801148

0,996747993

459,7536742

1732393319

Vzorec (dynamický maticový vzorec zadaný v A19)

=LINREGRESE(E2:E12;A2:D12;PRAVDA;PRAVDA)

Příklad 4 – Použití statistiky F a r2

V předchozím příkladu je koeficient určení nebolir2 0,99675 (viz buňka A17 ve výstupu funkce LINREGRESE), což by znamenalo silný vztah mezi nezávislými proměnnými a prodejní cenou. Pomocí F statistiky můžete rozhodnout, zda tyto výsledky, s tak vysokou hodnotou r2, nejsou nahodilé.

Předpokládejme nyní, že mezi proměnnými ve skutečnosti žádná závislost neexistuje, ale vybrali jste neobvyklý vzorek 11 úředních budov, podle nějž statistická analýza naznačuje silnou závislost. Označení „Alfa“ se používá pro pravděpodobnost chybného závěru o existenci závislosti.

Pomocí hodnot F a df ve výstupu funkce LINREGRESE lze vyhodnotit pravděpodobnost, že je vyšší hodnota F náhodná. Hodnotu F lze porovnat s kritickými hodnotami v publikovaných tabulkách F-distribuce nebo lze pomocí funkce FDIST aplikace Excel vypočítat pravděpodobnost, že je vyšší hodnota F náhodná. Příslušná distribuce F obsahuje stupně volnosti v1 a v2. Pokud n je počet datových hodnot a argument b = PRAVDA nebo chybí, pak v1 = n – df – 1 a v2 = df. (Jestliže argument b = NEPRAVDA, pak v1 = n – df a v2 = df.) Funkce FDIST,  se syntaxí FDIST(F,v1,v2),  vrátí pravděpodobnost, že je vyšší hodnota F náhodná. V příkladu 4 platí, že df = 6 (buňka B18) a F = 459,753674 (buňka A18).

Za předpokladu, že Alfa má hodnotu 0,05, v1 = 11 – 6 – 1 = 4 a v2 = 6, je kritická hodnota F 4,53. Protože F = 459,753674 je mnohem vyšší než 4,53, je mimořádně nepravděpodobné, že je takto vysoká hodnota F náhodná. (Při hodnotě Alfa = 0,05 bude odmítnuta hypotéza, že mezi poli_x a poli_y není žádný vztah, pokud je hodnota F vyšší než kritická hodnota 4,53.) Pomocí funkce FDIST aplikace Excel můžete zjistit pravděpodobnost, že je takto vysoká hodnota F náhodná. Například FDIST(459,753674; 4; 6) = 1,37E-7 je mimořádně nízká pravděpodobnost. Po vyhledání kritické hodnoty F v tabulce nebo použití funkce FDIST aplikace Excel lze usoudit, že regresní rovnice umožňuje předpovídat odhadní hodnotu úřední budovy v této oblasti. Nezapomeňte, že je nezbytné použít správné hodnoty stupňů volnosti v1 a v2 vypočítané v předchozím odstavci.

Příklad 5 – Výpočet T-statistiky

Jiný test statistické hypotézy určuje, zda se pro odhad hodnoty úředních budov z Příkladu 3 hodí každý z koeficientů sklonu. Chcete-li například testovat statistickou významnost koeficientu stáří, vydělte -234,24 (sklon pro koeficient stáří) číslem 13,268 (odhad standardní chyby pro koeficient stáří v buňce A15). Následující rovnost udává pozorovanou hodnotu t:

t = m4 ÷ se4 = -234,24 ÷ 13,268 = -17,7

Pokud je absolutní hodnota t dostatečně vysoká, vyplývá z toho, že směrnice umožňuje předpovídat odhadní hodnotu úřední budovy v Příkladu 3. Následující tabulka obsahuje absolutní pozorované hodnoty t pro čtyři proměnné.

Pokud nahlédnete do tabulky v nějaké statistické příručce, najdete v ní, že kritická hodnota t pro dvoustranný test, 6 stupňů volnosti a alfa = 0,05 je 2,447. Tuto kritickou hodnotu lze také zjistit pomocí funkce TINV aplikace Excel. TINV(0,05;6) = 2,447. Jelikož absolutní hodnota t, 17,7, je větší než 2,447, je stáří při odhadu hodnoty úřední budovy důležitou proměnnou. U každé z nezávisle proměnných lze testovat její statistickou významnost podobným způsobem. Následující tabulka uvádí pozorované hodnoty t pro každou z nezávisle proměnných:

Proměnná

Pozorovaná hodnota t

Podlahová plocha

5,1

Počet kanceláří

31,3

Počet vchodů

4,8

Stáří

17,7

Všechny tyto hodnoty mají absolutní hodnotu větší než 2,447, a proto všechny proměnné použité v regresní rovnici jsou významné pro odhad hodnoty úředních budov v této oblasti.

Potřebujete další pomoc?

Chcete další možnosti?

Prozkoumejte výhody předplatného, projděte si školicí kurzy, zjistěte, jak zabezpečit své zařízení a mnohem více.

Komunity vám pomohou klást otázky a odpovídat na ně, poskytovat zpětnou vazbu a vyslechnout odborníky s bohatými znalostmi.