Tiesinė porinė regresinė analizė. Pirštų matematika: mažiausių kvadratų metodai

Jis turi daugybę programų, nes leidžia apytiksliai pateikti tam tikrą funkciją kitomis paprastesnėmis. LSM gali būti labai naudingas apdorojant stebėjimus, ir jis aktyviai naudojamas kai kuriems dydžiams įvertinti pagal kitų matavimų rezultatus, kuriuose yra atsitiktinių klaidų. Šiame straipsnyje sužinosite, kaip „Excel“ įdiegti mažiausiųjų kvadratų skaičiavimus.

Problemos išdėstymas konkrečiu pavyzdžiu

Tarkime, kad yra du rodikliai X ir Y. Be to, Y priklauso nuo X. Kadangi OLS mus domina regresinės analizės požiūriu (Excel jos metodai realizuojami naudojant integruotas funkcijas), turėtume nedelsiant tęsti apsvarstyti konkrečią problemą.

Taigi, tegul X yra bakalėjos parduotuvės pardavimo plotas, matuojamas kvadratiniais metrais, o Y yra metinė apyvarta, apibrėžta milijonais rublių.

Būtina numatyti, kokią apyvartą (Y) turės parduotuvė, jei joje bus vienokių ar kitokių prekybinių patalpų. Akivaizdu, kad funkcija Y = f (X) didėja, nes prekybos centre parduodama daugiau prekių nei kioske.

Keletas žodžių apie pradinių duomenų, naudojamų prognozavimui, teisingumą

Tarkime, kad turime lentelę, sudarytą iš n parduotuvių duomenų.

Matematinės statistikos duomenimis, rezultatai bus daugmaž teisingi, jei bus išnagrinėti bent 5-6 objektų duomenys. Be to, negalima naudoti „anomalių“ rezultatų. Visų pirma, elitinio mažo butiko apyvarta gali būti daug kartų didesnė nei didelių „masmarket“ klasės parduotuvių apyvarta.

Metodo esmė

Lentelės duomenys gali būti rodomi Dekarto plokštumoje kaip taškai M 1 (x 1, y 1), ... M n (x n, y n). Dabar uždavinio sprendimas bus sumažintas iki aproksimacinės funkcijos y = f (x) parinkimo, kurios grafikas eina kuo arčiau taškų M 1, M 2, .. M n .

Žinoma, galite naudoti aukšto laipsnio daugianarį, tačiau šią parinktį ne tik sunku įgyvendinti, bet ir tiesiog neteisinga, nes ji neatspindės pagrindinės tendencijos, kurią reikia aptikti. Racionaliausias sprendimas yra ieškoti tiesės y = ax + b, kuri geriausiai aproksimuotų eksperimentinius duomenis, o tiksliau koeficientus - a ir b.

Tikslumo balas

Bet kokiam aproksimavimui ypač svarbu įvertinti jo tikslumą. Pažymėkite e i skirtumą (nuokrypį) tarp taško x i funkcinių ir eksperimentinių verčių, ty e i = y i - f (x i).

Akivaizdu, kad norint įvertinti aproksimacijos tikslumą, galite naudoti nuokrypių sumą, t. suma e i visuose nagrinėjamuose taškuose. Tačiau ne viskas taip paprasta, nes kartu su teigiamais nukrypimais praktiškai atsiras ir neigiamų.

Problemą galite išspręsti naudodami nuokrypių modulius arba jų kvadratus. Pastarasis metodas yra plačiausiai naudojamas. Jis naudojamas daugelyje sričių, įskaitant regresinę analizę (programoje „Excel“ jos įgyvendinimas atliekamas naudojant dvi integruotas funkcijas), ir jau seniai įrodyta, kad yra veiksminga.

Mažiausio kvadrato metodas

„Excel“, kaip žinote, yra įmontuota automatinio sumavimo funkcija, leidžianti apskaičiuoti visų reikšmių, esančių pasirinktame diapazone, reikšmes. Taigi niekas netrukdys mums apskaičiuoti išraiškos reikšmės (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

Matematiniu žymėjimu tai atrodo taip:

Kadangi iš pradžių buvo nuspręsta apytiksliai naudoti tiesią liniją, turime:

Taigi užduotis rasti tiesę, kuri geriausiai apibūdina konkretų ryšį tarp X ir Y, prilygsta dviejų kintamųjų funkcijos minimumo apskaičiavimui:

Tam reikia prilyginti nuliui dalinių išvestinių naujų kintamųjų a ir b atžvilgiu ir išspręsti primityvią sistemą, susidedančią iš dviejų lygčių su 2 formos nežinomaisiais:

Po paprastų transformacijų, įskaitant padalijimą iš 2 ir manipuliavimą sumomis, gauname:

Ją išspręsdami, pavyzdžiui, Cramerio metodu, gauname stacionarų tašką su tam tikrais koeficientais a * ir b * . Tai yra minimumas, t.y., norint nuspėti, kokia bus parduotuvės apyvarta tam tikrame plote, tinka tiesė y = a * x + b *, kuri yra nagrinėjamo pavyzdžio regresijos modelis. Žinoma, tai neleis jums rasti tikslaus rezultato, tačiau tai padės susidaryti supratimą, ar apsipirkti kreditine parduotuve tam tikrai sričiai apsipirks.

Kaip įdiegti mažiausiųjų kvadratų metodą „Excel“.

„Excel“ turi funkciją, skirtą mažiausiųjų kvadratų vertei apskaičiuoti. Jis turi tokią formą: TREND (žinomos Y reikšmės; žinomos X reikšmės; naujos X reikšmės; konstanta). Taikykime formulę, skirtą OLS skaičiavimui programoje „Excel“, savo lentelei.

Norėdami tai padaryti, langelyje, kuriame turėtų būti rodomas „Excel“ skaičiavimo, naudojant mažiausių kvadratų metodą, rezultatas, įveskite „=“ ženklą ir pasirinkite funkciją „TREND“. Atsidariusiame lange užpildykite atitinkamus laukus, pažymėdami:

  • žinomų Y verčių diapazonas (šiuo atveju apyvartos duomenys);
  • diapazonas x 1 , …x n , t. y. prekybos ploto dydis;
  • ir žinomos bei nežinomos x reikšmės, kurioms reikia sužinoti apyvartos dydį (informaciją apie jų vietą darbalapyje rasite žemiau).

Be to, formulėje yra loginis kintamasis „Const“. Jei jį atitinkančiame lauke įvesite 1, tai reikš, kad reikia atlikti skaičiavimus, darant prielaidą, kad b \u003d 0.

Jei reikia žinoti prognozę daugiau nei vienai x reikšmei, tada įvedus formulę nereikėtų spausti „Enter“, o reikia įvesti kombinaciją „Shift“ + „Control“ + „Enter“ („Enter“). ) klaviatūroje.

Kai kurios funkcijos

Regresinė analizė gali būti prieinama net manekenams. Excel formule, skirta nuspėti nežinomų kintamųjų masyvo reikšmę – „TREND“ – gali naudotis net tie, kurie apie mažiausiųjų kvadratų metodą nėra girdėję. Pakanka tik žinoti kai kurias jo darbo ypatybes. Visų pirma:

  • Jei vienoje eilutėje ar stulpelyje išdėstysite žinomų kintamojo y reikšmių diapazoną, kiekviena eilutė (stulpelis) su žinomomis x reikšmėmis bus suvokiama kaip atskiras kintamasis.
  • Jei diapazonas su žinomu x nenurodytas lange TREND, tada naudojant funkciją „Excel“, programa laikys jį masyve, susidedančiu iš sveikųjų skaičių, kurių skaičius atitinka diapazoną su nurodytomis reikšmėmis. y kintamojo.
  • Norint išvesti „numatytų“ reikšmių masyvą, tendencijos išraiška turi būti įvesta kaip masyvo formulė.
  • Jei nenurodomos naujos x reikšmės, funkcija TREND laiko jas lygiomis žinomoms. Jei jie nenurodyti, 1 masyvas laikomas argumentu; 2; 3; 4;…, kuris yra proporcingas diapazonui su jau pateiktais parametrais y.
  • Diapazonas, kuriame yra naujos x reikšmės, turi turėti tokias pačias ar daugiau eilučių arba stulpelių kaip ir diapazonas su nurodytomis y reikšmėmis. Kitaip tariant, jis turi būti proporcingas nepriklausomiems kintamiesiems.
  • Masyve su žinomomis x reikšmėmis gali būti keli kintamieji. Tačiau jei mes kalbame tik apie vieną, tada reikalaujama, kad diapazonai su nurodytomis x ir y reikšmėmis būtų proporcingi. Jei yra keli kintamieji, būtina, kad diapazonas su nurodytomis y reikšmėmis tilptų į vieną stulpelį arba vieną eilutę.

PROGNOZĖS funkcija

Jis įgyvendinamas naudojant kelias funkcijas. Vienas iš jų vadinasi „PROJEKTAVIMAS“. Jis panašus į TREND, ty pateikia skaičiavimų, naudojant mažiausių kvadratų metodą, rezultatą. Tačiau tik vienam X, kurio Y reikšmė nežinoma.

Dabar žinote „Excel“ formules, skirtas manekenams, kurios leidžia numatyti būsimo rodiklio reikšmę pagal tiesinę tendenciją.

Mažiausių kvadratų metodas (OLS, angl. Ordinary Least Squares, OLS)- matematinis metodas, naudojamas įvairioms problemoms spręsti, pagrįstas kai kurių funkcijų kvadratinių nuokrypių nuo norimų kintamųjų sumos sumažinimu. Jis gali būti naudojamas „išspręsti“ per daug apibrėžtas lygčių sistemas (kai lygčių skaičius viršija nežinomųjų skaičių), rasti sprendimą įprastų (ne per daug apibrėžtų) netiesinių lygčių sistemų atveju, apytiksliai apskaičiuoti taškų reikšmes. kokios nors funkcijos. OLS yra vienas iš pagrindinių regresinės analizės metodų, leidžiančių įvertinti nežinomus regresijos modelių parametrus iš imties duomenų.

Enciklopedinis „YouTube“.

    1 / 5

    ✪ Mažiausių kvadratų metodas. Tema

    ✪ Mažiausių kvadratų, pamoka 1/2. Linijinė funkcija

    ✪ Ekonometrija. 5 paskaita. Mažiausių kvadratų metodas

    ✪ Mitin I. V. - Fizinių rezultatų apdorojimas. eksperimentas – Mažiausių kvadratų metodas (4 paskaita)

    ✪ Ekonometrija: 2 mažiausių kvadratų metodo esmė

    Subtitrai

Istorija

Iki XIX amžiaus pradžios. mokslininkai neturėjo tam tikrų taisyklių, kaip išspręsti lygčių sistemą, kurioje nežinomųjų skaičius yra mažesnis už lygčių skaičių; Iki tol buvo naudojami tam tikri metodai, priklausomai nuo lygčių tipo ir skaičiuotuvų išradingumo, todėl skirtingi skaičiuotuvai, remdamiesi tais pačiais stebėjimo duomenimis, padarė skirtingas išvadas. Gausas (1795) priskiriamas prie pirmojo metodo taikymo, o Legendre (1805) savarankiškai atrado ir paskelbė jį šiuolaikiniu pavadinimu (fr. Methode des moindres quarres). Laplasas šį metodą susiejo su tikimybių teorija, o amerikiečių matematikas Adrainas (1808) svarstė jo tikimybinius pritaikymus. Metodas yra plačiai paplitęs ir patobulintas tolesnių Encke, Besselio, Hanseno ir kitų tyrimų.

Mažiausių kvadratų metodo esmė

Leisti x (\displaystyle x)- rinkinys n (\displaystyle n) nežinomi kintamieji (parametrai), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- funkcijų rinkinys iš šio kintamųjų rinkinio. Problema yra pasirinkti tokias vertybes x (\displaystyle x) kad šių funkcijų reikšmės būtų kuo artimesnės kai kurioms reikšmėms y i (\displaystyle y_(i)). Iš esmės mes kalbame apie per daug apibrėžtos lygčių sistemos „sprendimą“. f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) nurodyta prasme – maksimalus kairės ir dešinės sistemos dalių artumas. LSM esmė yra pasirinkti kaip „artumo matą“ kairiosios ir dešinės dalių nuokrypių kvadratu sumą. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Taigi LSM esmė gali būti išreikšta taip:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rodyklė dešinėn \min _(x)).

Jeigu lygčių sistema turi sprendinį, tai kvadratų sumos minimumas bus lygus nuliui ir tikslius lygčių sistemos sprendinius galima rasti analitiškai arba, pavyzdžiui, įvairiais skaitinio optimizavimo metodais. Jei sistema yra per daug apibrėžta, tai yra, laisvai kalbant, nepriklausomų lygčių skaičius yra didesnis nei nežinomų kintamųjų skaičius, tai sistema neturi tikslaus sprendimo ir mažiausių kvadratų metodas leidžia rasti kokį nors "optimalų" vektorių. x (\displaystyle x) maksimalaus vektorių artumo prasme y (\displaystyle y) ir f (x) (\displaystyle f(x)) arba maksimalus nuokrypio vektoriaus artumas e (\displaystyle e) iki nulio (artumas suprantamas euklido atstumo prasme).

Pavyzdys – tiesinių lygčių sistema

Visų pirma, tiesinių lygčių sistemai „išspręsti“ gali būti naudojamas mažiausių kvadratų metodas

A x = b (\displaystyle Ax=b),

kur A (\displaystyle A) stačiakampio dydžio matrica m × n , m > n (\displaystyle m\times n,m>n)(t. y. A matricos eilučių skaičius yra didesnis nei reikiamų kintamųjų).

Tokia lygčių sistema paprastai neturi sprendimo. Todėl šią sistemą galima „išspręsti“ tik tokio vektoriaus pasirinkimo prasme x (\displaystyle x) sumažinti „atstumą“ tarp vektorių A x (\displaystyle Axe) ir b (\displaystyle b). Norėdami tai padaryti, galite taikyti sistemos kairiosios ir dešiniosios lygčių dalių skirtumų kvadratų sumos sumažinimo kriterijų, ty (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rodyklė dešinėn \min ). Nesunku parodyti, kad šios sumažinimo problemos sprendimas lemia šios lygčių sistemos sprendimą

A T A x = A T b ⇒ x = (AT A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rodyklė dešinėn x=(A^(T)A)^(-1)A^ (T)b).

OLS regresinėje analizėje (apytikslis duomenų)

Tebūnie n (\displaystyle n) kai kurių kintamųjų reikšmės y (\displaystyle y)(tai gali būti stebėjimų, eksperimentų ir kt. rezultatai) ir atitinkamus kintamuosius x (\displaystyle x). Iššūkis yra sukurti ryšį tarp y (\displaystyle y) ir x (\displaystyle x) apytikslis pagal kokią nors žinomą funkciją iki kai kurių nežinomų parametrų b (\displaystyle b) ty iš tikrųjų raskite geriausias parametrų vertes b (\displaystyle b), maksimaliai aproksimuojant reikšmes f (x, b) (\displaystyle f(x,b)) prie faktinių verčių y (\displaystyle y). Tiesą sakant, tai sumažinama iki per daug apibrėžtos lygčių sistemos „sprendimo“ atvejo b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Regresinėje analizėje, o ypač ekonometrijoje, naudojami tikimybiniai kintamųjų ryšio modeliai.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

kur ε t (\displaystyle \varepsilon _(t))- taip vadinamas atsitiktinių klaidų modeliai.

Atitinkamai, stebimų reikšmių nuokrypiai y (\displaystyle y) iš modelio f (x, b) (\displaystyle f(x,b)) jau daroma prielaida pačiame modelyje. LSM (įprasto, klasikinio) esmė – surasti tokius parametrus b (\displaystyle b), kurioje nuokrypių kvadratų suma (klaidos, regresijos modeliams jos dažnai vadinamos regresijos likučiais) e t (\displaystyle e_(t)) bus minimalus:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

kur R S S (\displaystyle RSS)- Anglų. Likutinė kvadratų suma apibrėžiama taip:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\suma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Bendruoju atveju šią problemą galima išspręsti skaitmeniniais optimizavimo (minimizacijos) metodais. Šiuo atveju kalbama apie netiesiniai mažieji kvadratai(NLS arba NLLS – angl. Non-linear Least Squares). Daugeliu atvejų galima gauti analitinį sprendimą. Norint išspręsti minimizavimo problemą, reikia rasti stacionarius funkcijos taškus R S S (b) (\displaystyle RSS(b)), išskiriant jį pagal nežinomus parametrus b (\displaystyle b), prilygindami išvestis nuliui ir išsprendę gautą lygčių sistemą:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\rodymo stilius \suma _(t=1)^(n)(y_(t)-f(x_) (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

LSM tiesinės regresijos atveju

Tegul regresijos priklausomybė yra tiesinė:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Leisti y yra paaiškinamo kintamojo stebėjimų stulpelio vektorius ir X (\displaystyle X)- tai yra (n × k) (\displaystyle ((n\times))))- veiksnių stebėjimų matrica (matricos eilutės - šio stebėjimo veiksnių reikšmių vektoriai, stulpeliais - šio veiksnio reikšmių vektorius visuose stebėjimuose). Tiesinio modelio matricos atvaizdavimas turi tokią formą:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Tada paaiškinamo kintamojo įverčių vektorius ir regresijos likučių vektorius bus lygus

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

atitinkamai regresijos likučių kvadratų suma bus lygi

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Šios funkcijos diferencijavimas parametro vektoriaus atžvilgiu b (\displaystyle b) ir išvestines prilyginus nuliui, gauname lygčių sistemą (matricos pavidalu):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Iššifruotoje matricos formoje ši lygčių sistema atrodo taip:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 2 ∑ x t 2 x t 3 x 3 x t 3 t 2 E (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ltaškai &\sum x_(t1)x_( tk)\\\suma x_(t2)x_(t1)&\suma x_(t2)^(2)&\suma x_(t2)x_(t3)&\ltaškai &\ suma x_(t2)x_(tk) \\\suma x_(t3)x_(t1)&\suma x_(t3)x_(t2)&\suma x_(t3)^(2)&\ltaškai &\suma x_ (t3)x_(tk)\\ \vtaškai &\vtaškai &\vtaškai &\dtaškai &\vtaškai \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ltaškai &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vtaškai \\b_( k)\\\pabaiga(pmatrica))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t) )\\\vtaškai \\\sum x_(tk)y_(t)\\\end(pmatrica))) kur visos sumos perimamos per visas leistinas reikšmes t (\displaystyle t).

Jei į modelį įtraukta konstanta (kaip įprasta), tada x t 1 = 1 (\displaystyle x_(t1) = 1) visiems t (\displaystyle t), todėl lygčių sistemos matricos viršutiniame kairiajame kampe yra stebėjimų skaičius n (\displaystyle n), o likusiuose pirmosios eilutės ir pirmojo stulpelio elementuose - tik kintamųjų reikšmių suma: ∑ x t j (\displaystyle \sum x_(tj)) ir pirmasis dešiniosios sistemos elementas - ∑ y t (\displaystyle \sum y_(t)).

Šios lygčių sistemos sprendimas pateikia bendrą tiesinio modelio mažiausių kvadratų įverčių formulę:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Analitiniais tikslais naudingas paskutinis šios formulės atvaizdas (lygčių sistemoje, padalijus iš n, vietoj sumų atsiranda aritmetiniai vidurkiai). Jei regresijos modelio duomenys centre, tada šiame pavaizdavime pirmoji matrica turi imties faktorių kovariacijos matricos reikšmę, o antroji – faktorių su priklausomu kintamuoju kovariacijų vektorius. Jei, be to, duomenys taip pat yra normalizuotas SKO (tai yra, galiausiai standartizuotas), tada pirmoji matrica turi veiksnių imties koreliacijos matricos reikšmę, antrasis vektorius - veiksnių imties koreliacijų vektorius su priklausomu kintamuoju.

Svarbi modelių LLS įverčių savybė su konstanta- sudarytos regresijos linija eina per imties duomenų svorio centrą, tai yra, lygybė įvykdoma:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\kepurė (b))_(j) (\bar (x))_(j)).

Ypač kraštutiniu atveju, kai vienintelis regresorius yra konstanta, nustatome, kad vieno parametro (pačios konstantos) OLS įvertis yra lygus aiškinamo kintamojo vidutinei vertei. Tai yra, aritmetinis vidurkis, žinomas dėl savo gerųjų savybių iš didelių skaičių dėsnių, taip pat yra mažiausių kvadratų įvertis – jis atitinka minimalios kvadratinių nukrypimų nuo jo sumos kriterijų.

Paprasčiausi ypatingi atvejai

Porinės tiesinės regresijos atveju y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), įvertinus vieno kintamojo tiesinę priklausomybę nuo kito, skaičiavimo formulės supaprastinamos (galima apsieiti ir be matricinės algebros). Lygčių sistema yra tokia:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Iš čia lengva rasti koeficientų įverčius:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2, a ^ = y ¯ − b x . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(atvejai)))

Nepaisant to, kad apskritai modeliai su konstanta yra geresni, kai kuriais atvejais iš teorinių svarstymų žinoma, kad konstanta a (\displaystyle a) turėtų būti lygus nuliui. Pavyzdžiui, fizikoje įtampos ir srovės santykis turi formą U = I ⋅ R (\displaystyle U=I\cdot R); matuojant įtampą ir srovę, būtina įvertinti varžą. Šiuo atveju kalbame apie modelį y = b x (\displaystyle y=bx). Šiuo atveju vietoj lygčių sistemos turime vieną lygtį

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Todėl vieno koeficiento įvertinimo formulė turi formą

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Polinominio modelio atvejis

Jei duomenys pritaikyti vieno kintamojo daugianario regresijos funkcija f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), tada, suvokdamas laipsnius x i (\displaystyle x^(i)) kaip nepriklausomus veiksnius kiekvienam i (\displaystyle i) modelio parametrus galima įvertinti remiantis bendra tiesinio modelio parametrų įvertinimo formule. Norėdami tai padaryti, pakanka atsižvelgti į bendrąją formulę, kad su tokiu aiškinimu x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) ir x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Todėl matricos lygtys šiuo atveju bus tokios formos:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x t 2 ... n x t k + 1 ⋮ ⋱ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t y t ⋮ n x t k y t ]. (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vtaškai & \vtaškai &\dtaškai &\vtaškai \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ltaškai &\ suma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vtaškai \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrica)).

Statistinės OLS įverčių savybės

Pirmiausia pažymime, kad tiesiniams modeliams mažiausiųjų kvadratų įverčiai yra tiesiniai įverčiai, kaip matyti iš aukščiau pateiktos formulės. Mažiausių kvadratų įverčių nešališkumui būtina ir pakanka įvykdyti svarbiausią regresinės analizės sąlygą: atsitiktinės paklaidos matematinis lūkestis, sąlygotas faktorių, turi būti lygus nuliui. Ši sąlyga įvykdyta, ypač jei

  1. atsitiktinių klaidų matematinis lūkestis lygus nuliui, ir
  2. veiksniai ir atsitiktinės paklaidos yra nepriklausomos atsitiktinės reikšmės.

Antroji sąlyga – egzogeninių veiksnių sąlyga – yra esminė. Jei ši savybė nepatenkinama, galime manyti, kad beveik bet kokie įverčiai bus itin nepatenkinami: jie net nebus nuoseklūs (tai yra, net ir labai didelis duomenų kiekis neleidžia gauti kokybinių įverčių šiuo atveju). Klasikiniu atveju daroma stipresnė prielaida apie veiksnių determinizmą, priešingai nei atsitiktinė paklaida, kuri automatiškai reiškia, kad egzogeninė sąlyga tenkinama. Bendru atveju, kad įverčiai būtų nuoseklūs, pakanka tenkinti egzogeniškumo sąlygą kartu su matricos konvergencija V x (\displaystyle V_(x))į kokią nors neišsigimusią matricą, kai imties dydis didėja iki begalybės.

Kad, be nuoseklumo ir nešališkumo, (paprastieji) mažiausių kvadratų įverčiai taip pat būtų veiksmingi (geriausi tiesinių nešališkų įverčių klasėje), turi būti patenkintos papildomos atsitiktinės paklaidos savybės:

Šios prielaidos gali būti suformuluotos atsitiktinių paklaidų vektoriaus kovariacijos matricai V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Šias sąlygas tenkinantis tiesinis modelis vadinamas klasikinis. Klasikinės tiesinės regresijos OLS įverčiai yra nešališki, nuoseklūs ir efektyviausi įverčiai visų tiesinių nešališkų įverčių klasėje (anglų literatūroje kartais vartojama santrumpa mėlyna (Geriausias tiesinis nešališkas įvertinimo įrankis) yra geriausias tiesinis nešališkas įvertinimas; buitinėje literatūroje dažniau cituojama Gauss - Markovo teorema). Kaip nesunku parodyti, koeficientų įverčių vektoriaus kovariacijos matrica bus lygi:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Efektyvumas reiškia, kad ši kovariacijos matrica yra „minimali“ (bet koks tiesinis koeficientų derinys, o ypač patys koeficientai, turi minimalią dispersiją), tai yra, linijinių nešališkų įverčių klasėje OLS įverčiai yra geriausi. Šios matricos įstrižainės elementai – koeficientų įverčių dispersijos – yra svarbūs gautų įverčių kokybės parametrai. Tačiau kovariacijos matricos apskaičiuoti neįmanoma, nes atsitiktinės paklaidos dispersija nežinoma. Galima įrodyti, kad nešališkas ir nuoseklus (klasikiniam tiesiniam modeliui) atsitiktinių paklaidų dispersijos įvertis yra reikšmė:

S 2 = R S S / (n − k) (\displaystyle s^(2) = RSS/(n-k)).

Pakeitę šią reikšmę į kovariacijos matricos formulę, gauname kovariacijos matricos įvertį. Gauti įvertinimai taip pat yra nešališki ir nuoseklūs. Taip pat svarbu, kad paklaidos dispersijos įvertis (taigi ir koeficientų dispersijos) bei modelio parametrų įverčiai būtų nepriklausomi atsitiktiniai dydžiai, todėl galima gauti testų statistiką hipotezėms apie modelio koeficientus tikrinti.

Reikėtų pažymėti, kad jei nesilaikoma klasikinių prielaidų, mažiausių kvadratų parametrų įverčiai nėra patys efektyviausi ir W (\displaystyle W) yra tam tikra simetriška teigiamo apibrėžtojo svorio matrica. Paprastieji mažiausi kvadratai yra ypatingas šio metodo atvejis, kai svorio matrica yra proporcinga tapatybės matricai. Kaip žinoma, simetrinės matricos (arba operatoriai) yra skaidomos W = P T P (\displaystyle W=P^(T)P). Todėl šią funkciją galima pavaizduoti taip e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), tai yra, ši funkcija gali būti pavaizduota kaip kai kurių transformuotų „likučių“ kvadratų suma. Taigi galime išskirti mažiausių kvadratų metodų klasę – LS-metodus (Least Squares).

Įrodyta (Aitkeno teorema), kad apibendrintam tiesinės regresijos modeliui (kuriame atsitiktinių paklaidų kovariacijos matricai netaikomi jokie apribojimai) efektyviausi (tiesinių nešališkų įverčių klasėje) yra vadinamųjų įverčiai. apibendrintas OLS (OMNK, GLS – apibendrinti mažiausi kvadratai)- LS metodas su svorio matrica, lygia atsitiktinių klaidų atvirkštinei kovariacijos matricai: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Galima parodyti, kad tiesinio modelio parametrų GLS įverčių formulė turi formą

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Šių įverčių kovariacijos matrica atitinkamai bus lygi

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- vienas)).

Tiesą sakant, OLS esmė slypi tam tikroje (tiesinėje) pirminių duomenų transformacijoje (P) ir transformuotiems duomenims taikant įprastus mažiausius kvadratus. Šios transformacijos tikslas yra tas, kad transformuotų duomenų atsitiktinės paklaidos jau tenkintų klasikines prielaidas.

Svertiniai mažiausi kvadratai

Įstrižainės svorio matricos (taigi ir atsitiktinių klaidų kovariacijos matricos) atveju turime vadinamuosius svertinius mažiausius kvadratus (WLS – Weighted Least Squares). Šiuo atveju modelio likučių svertinė kvadratų suma yra sumažinta, tai yra, kiekvienas stebėjimas gauna „svorį“, kuris yra atvirkščiai proporcingas šio stebėjimo atsitiktinės paklaidos dispersijai: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Tiesą sakant, duomenys transformuojami pasveriant stebėjimus (padalijus iš sumos, proporcingos numanomam atsitiktinių paklaidų standartiniam nuokrypiui), o svertiniams duomenims taikomi normalūs mažiausi kvadratai.

ISBN 978-5-7749-0473-0.

  • Ekonometrija. Vadovėlis / Red. Eliseeva I. I. – 2 leidimas. - M. : Finansai ir statistika, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Aleksandrova N.V. Matematikos terminų, sąvokų, pavadinimų istorija: žodynas-žinynas. - 3 leidimas - M. : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitinas, Rusakovas V.S. Eksperimentinių duomenų analizė ir apdorojimas - 5 leidimas - 24psl.
  • Funkciją aproksimuojame 2-ojo laipsnio daugianario. Norėdami tai padaryti, apskaičiuojame normalios lygčių sistemos koeficientus:

    , ,

    Sudarykime įprastą mažiausių kvadratų sistemą, kurios forma:

    Sistemos sprendimą lengva rasti:, , .

    Taigi randamas 2-ojo laipsnio daugianario: .

    Teorinis kontekstas

    Atgal į puslapį<Введение в вычислительную математику. Примеры>

    2 pavyzdys. Optimalaus daugianario laipsnio radimas.

    Atgal į puslapį<Введение в вычислительную математику. Примеры>

    3 pavyzdys. Normalios lygčių sistemos išvedimas empirinės priklausomybės parametrams rasti.

    Išveskime lygčių sistemą koeficientams ir funkcijoms nustatyti , kuri atlieka duotosios funkcijos vidurkio kvadrato aproksimaciją taškų atžvilgiu. Sukurkite funkciją ir parašykite jam būtiną ekstremalią sąlygą:

    Tada įprasta sistema bus tokia:

    Gavome tiesinę lygčių sistemą nežinomiems parametrams ir kurią lengva išspręsti.

    Teorinis kontekstas

    Atgal į puslapį<Введение в вычислительную математику. Примеры>

    Pavyzdys.

    Eksperimentiniai duomenys apie kintamųjų reikšmes X ir adresu pateikiami lentelėje.

    Dėl jų išlyginimo funkcija

    Naudojant mažiausių kvadratų metodas, apytiksliai apskaičiuokite šiuos duomenis tiesine priklausomybe y=kirvis+b(raskite parinktis a ir b). Sužinokite, kuri iš dviejų eilučių yra geresnė (mažiausių kvadratų metodo prasme) sulygina eksperimentinius duomenis. Padarykite piešinį.

    Mažiausių kvadratų metodo (LSM) esmė.

    Užduotis yra rasti tiesinės priklausomybės koeficientus, kuriems yra dviejų kintamųjų funkcija a ir bužima mažiausią vertę. Tai yra, atsižvelgiant į duomenis a ir b eksperimentinių duomenų nuokrypių kvadratu suma nuo rastos tiesės bus mažiausia. Tai yra mažiausių kvadratų metodo esmė.

    Taigi pavyzdžio sprendimas sumažinamas iki dviejų kintamųjų funkcijos ekstremumo radimo.

    Koeficientų radimo formulių išvedimas.

    Sudaroma ir išsprendžiama dviejų lygčių su dviem nežinomaisiais sistema. Funkcijų dalinių išvestinių radimas pagal kintamuosius a ir b, šias išvestines prilyginame nuliui.

    Gautą lygčių sistemą išsprendžiame bet kokiu metodu (pvz pakeitimo metodas arba Cramerio metodu) ir gauti koeficientų radimo formules naudojant mažiausių kvadratų metodą (LSM).

    Su duomenimis a ir b funkcija užima mažiausią vertę. Šio fakto įrodymas pateiktas žemiau esančiame tekste puslapio pabaigoje.

    Tai visas mažiausių kvadratų metodas. Parametrų radimo formulė a yra sumos , , , ir parametras n yra eksperimentinių duomenų kiekis. Šių sumų vertes rekomenduojama skaičiuoti atskirai.

    Koeficientas b rasta po skaičiavimo a.

    Atėjo laikas prisiminti originalų pavyzdį.

    Sprendimas.

    Mūsų pavyzdyje n=5. Lentelę užpildome, kad būtų patogiau apskaičiuoti sumas, kurios yra įtrauktos į reikalingų koeficientų formules.

    Ketvirtoje lentelės eilutėje esančios reikšmės gaunamos 2-os eilutės reikšmes padauginus iš 3-osios kiekvieno skaičiaus reikšmių i.

    Penktosios lentelės eilutės reikšmės gaunamos 2-os eilutės reikšmes padalijus į kvadratą kiekvienam skaičiui i.

    Paskutinio lentelės stulpelio reikšmės yra reikšmių visose eilutėse sumos.

    Koeficientams rasti naudojame mažiausių kvadratų metodo formules a ir b. Juose pakeičiame atitinkamas vertes iš paskutinio lentelės stulpelio:

    Vadinasi, y=0,165x+2,184 yra norima apytikslė tiesi linija.

    Belieka išsiaiškinti, kuri iš eilučių y=0,165x+2,184 arba geriau apytiksliai atitinka pirminius duomenis, t. y. atlikti įvertinimą naudojant mažiausių kvadratų metodą.

    Mažiausių kvadratų metodo paklaidos įvertinimas.

    Norėdami tai padaryti, turite apskaičiuoti pirminių duomenų kvadratinių nuokrypių nuo šių eilučių sumas ir , mažesnė reikšmė atitinka tiesę, kuri geriausiai apytiksliai atitinka pradinius duomenis mažiausiųjų kvadratų metodu.

    Nuo tada linija y=0,165x+2,184 geriau apytiksliai atitinka pradinius duomenis.

    Mažiausių kvadratų metodo (LSM) grafinė iliustracija.

    Diagramose viskas atrodo puikiai. Raudona linija yra rasta linija y=0,165x+2,184, mėlyna linija yra , rožiniai taškai yra pirminiai duomenys.

    Kam jis skirtas, kam skirti visi šie apytiksliai skaičiavimai?

    Aš asmeniškai naudoju sprendžiant duomenų išlyginimo, interpoliacijos ir ekstrapoliacijos problemas (pradiniame pavyzdyje jūsų gali būti paprašyta rasti stebimos reikšmės reikšmę y adresu x=3 arba kada x=6 pagal MNC metodą). Tačiau daugiau apie tai kalbėsime vėliau kitoje svetainės dalyje.

    Puslapio viršuje

    Įrodymas.

    Taip kad radus a ir b funkcija įgauna mažiausią reikšmę, būtina, kad šioje vietoje funkcijos antros eilės diferencialo kvadratinės formos matrica buvo teigiamas. Parodykime.

    Antrosios eilės skirtumas turi tokią formą:

    Tai yra

    Todėl kvadratinės formos matrica turi formą

    o elementų reikšmės nepriklauso a ir b.

    Parodykime, kad matrica yra teigiama apibrėžtoji. Tam reikia, kad kampas minoras būtų teigiamas.

    Pirmos eilės kampinis minoras . Nelygybė yra griežta, nes taškai nesutampa. Tai bus nurodyta toliau.

    Antros eilės kampinis minoras

    Įrodykime tai matematinės indukcijos metodas.

    Išvada: rastos vertės a ir b atitinka mažiausią funkcijos reikšmę , todėl yra pageidaujami mažiausių kvadratų metodo parametrai.

    Kada nors supratai?
    Užsisakykite sprendimą

    Puslapio viršuje

    Prognozės rengimas naudojant mažiausių kvadratų metodą. Problemos sprendimo pavyzdys

    Ekstrapoliacija — tai mokslinio tyrimo metodas, pagrįstas praeities ir dabarties tendencijų, dėsningumų, ryšių su prognozavimo objekto ateities raida sklaida. Ekstrapoliacijos metodai apima slankiojo vidurkio metodas, eksponentinis išlyginimo metodas, mažiausių kvadratų metodas.

    Esmė mažiausių kvadratų metodas susideda iš kvadratinių nuokrypių tarp stebimų ir apskaičiuotų verčių sumos sumažinimo. Apskaičiuotos reikšmės randamos pagal pasirinktą lygtį – regresijos lygtį. Kuo mažesnis atstumas tarp faktinių ir apskaičiuotų verčių, tuo tikslesnė prognozė, pagrįsta regresijos lygtimi.

    Kreivės pasirinkimo pagrindas yra teorinė tiriamo reiškinio, kurio kitimas atvaizduojamas laiko eilutėmis, esmės analizė. Kartais atsižvelgiama į svarstymus apie serijos lygių augimo pobūdį. Taigi, jei tikimasi produkcijos augimo aritmetine progresija, tada išlyginimas atliekamas tiesia linija. Jei paaiškėja, kad augimas yra eksponentinis, tada išlyginimas turėtų būti atliekamas pagal eksponentinę funkciją.

    Mažiausių kvadratų metodo darbo formulė : Y t+1 = a*X + b, kur t + 1 yra prognozuojamas laikotarpis; Уt+1 – prognozuojamas rodiklis; a ir b yra koeficientai; X yra laiko simbolis.

    Koeficientai a ir b apskaičiuojami pagal šias formules:

    kur, Uf - faktinės dinamikos serijos vertės; n yra lygių skaičius laiko eilutėje;

    Laiko eilučių išlyginimas mažiausių kvadratų metodu atspindi tiriamo reiškinio raidos modelius. Analitinėje tendencijos išraiškoje laikas laikomas nepriklausomu kintamuoju, o eilučių lygiai veikia kaip šio nepriklausomo kintamojo funkcija.

    Reiškinio raida priklauso ne nuo to, kiek metų praėjo nuo pradžios taško, o nuo to, kokie veiksniai turėjo įtakos jo vystymuisi, kokia kryptimi ir kokiu intensyvumu. Iš to aišku, kad reiškinio raida laike atsiranda dėl šių veiksnių veikimo.

    Teisingai nustatyti kreivės tipą, analitinės priklausomybės nuo laiko tipą yra viena iš sunkiausių išankstinės prognozės analizės užduočių. .

    Trendą apibūdinančios funkcijos, kurios parametrai nustatomi mažiausių kvadratų metodu, tipo pasirinkimas dažniausiai yra empirinis, sukonstruojant daugybę funkcijų ir jas lyginant tarpusavyje pagal šaknies reikšmę. - vidutinė kvadratinė paklaida, apskaičiuojama pagal formulę:

    kur Uf - faktinės dinamikos serijos vertės; Ur – apskaičiuotos (išlygintos) laiko eilutės reikšmės; n yra lygių skaičius laiko eilutėje; p – tendenciją (plėtros tendenciją) apibūdinančiose formulėse apibrėžtų parametrų skaičius.

    Mažiausių kvadratų metodo trūkumai :

    • bandant apibūdinti tiriamą ekonominį reiškinį naudojant matematinę lygtį, prognozė bus tiksli trumpą laiką ir regresijos lygtis turėtų būti perskaičiuojama, kai atsiranda naujos informacijos;
    • regresijos lygties pasirinkimo sudėtingumas, kuris išsprendžiamas naudojant standartines kompiuterines programas.

    Mažiausių kvadratų metodo naudojimo prognozei sudaryti pavyzdys

    Užduotis . Yra duomenų, apibūdinančių nedarbo lygį regione, proc.

    • Sudarykite nedarbo lygio regione prognozę lapkričio, gruodžio, sausio mėnesiams, naudodami metodus: slankusis vidurkis, eksponentinis išlyginimas, mažiausi kvadratai.
    • Apskaičiuokite gautų prognozių klaidas naudodami kiekvieną metodą.
    • Palyginkite gautus rezultatus, padarykite išvadas.

    Mažiausių kvadratų sprendimas

    Sprendimui sudarysime lentelę, kurioje atliksime reikiamus skaičiavimus:

    ε = 28,63/10 = 2,86 % prognozės tikslumas aukštas.

    Išvada : Skaičiavimų metu gautų rezultatų palyginimas slankiojo vidurkio metodas , eksponentinis išlyginimas ir mažiausių kvadratų metodu, galime teigti, kad vidutinė santykinė paklaida skaičiavimuose eksponentinės išlyginimo metodu patenka į 20-50%. Tai reiškia, kad prognozės tikslumas šiuo atveju yra tik patenkinamas.

    Pirmuoju ir trečiuoju atveju prognozės tikslumas yra didelis, nes vidutinė santykinė paklaida yra mažesnė nei 10%. Tačiau slankiojo vidurkio metodas leido gauti patikimesnius rezultatus (lapkričio prognozė - 1,52%, gruodžio mėnesio prognozė - 1,53%, sausio mėnesio prognozė - 1,49%), nes vidutinė santykinė paklaida naudojant šį metodą yra mažiausia - 1 ,13 proc.

    Mažiausio kvadrato metodas

    Kiti susiję straipsniai:

    Naudotų šaltinių sąrašas

    1. Mokslinės ir metodinės rekomendacijos socialinių rizikų diagnozavimo ir iššūkių, grėsmių ir socialinių pasekmių prognozavimo klausimais. Rusijos valstybinis socialinis universitetas. Maskva. 2010 m.;
    2. Vladimirova L.P. Prognozavimas ir planavimas rinkos sąlygomis: Proc. pašalpa. M .: Leidykla "Dashkov and Co", 2001;
    3. Novikova N.V., Pozdeeva O.G. Liaudies ūkio prognozavimas: edukacinis ir metodinis vadovas. Jekaterinburgas: leidykla „Ural“. valstybė ekonomika universitetas, 2007;
    4. Slutskin L.N. Verslo prognozavimo MBA kursas. Maskva: „Alpina Business Books“, 2006 m.

    MNE programa

    Įveskite duomenis

    Duomenys ir aproksimacija y = a + b x

    i- eksperimentinio taško numeris;
    x i- fiksuoto parametro reikšmė taške i;
    y i- išmatuoto parametro vertė taške i;
    ω i- matavimo svoris taške i;
    y i, skaičiuok.- skirtumas tarp išmatuotos vertės ir vertės, apskaičiuotos pagal regresiją y taške i;
    S x i (x i)- klaidų įvertinimas x i matuojant y taške i.

    Duomenys ir aproksimacija y = kx

    i x i y i ω i y i, skaičiuok. y i S x i (x i)

    Spustelėkite diagramą

    MNC internetinės programos vartotojo vadovas.

    Duomenų lauke kiekvienoje atskiroje eilutėje įveskite „x“ ir „y“ reikšmes viename eksperimentiniame taške. Reikšmės turi būti atskirtos tarpais (tarpu arba tabuliavimu).

    Trečioji reikšmė gali būti „w“ taško svoris. Jei taško svoris nenurodytas, tada jis yra lygus vienetui. Daugeliu atvejų eksperimentinių taškų svoriai nežinomi arba neapskaičiuoti; visi eksperimentiniai duomenys laikomi lygiaverčiais. Kartais tiriamo verčių diapazono svoriai tikrai nėra lygiaverčiai ir netgi gali būti apskaičiuoti teoriškai. Pavyzdžiui, spektrofotometrijoje svoriai gali būti apskaičiuojami naudojant paprastas formules, nors iš esmės visi to nepaiso, kad sumažintų darbo sąnaudas.

    Duomenis per mainų sritį galima įklijuoti iš biuro paketo skaičiuoklės, pvz., „Excel“ iš „Microsoft Office“ arba „Calc“ iš „Open Office“. Norėdami tai padaryti, skaičiuoklėje pasirinkite duomenų diapazoną, kurį norite kopijuoti, nukopijuokite į mainų sritį ir įklijuokite duomenis į šio puslapio duomenų lauką.

    Norint apskaičiuoti mažiausiųjų kvadratų metodą, reikia bent dviejų taškų, kad būtų galima nustatyti du koeficientus "b" - tiesės polinkio kampo liestinę ir "a" - vertę, kurią atskiria tiesia linija "y". ` ašis.

    Norint įvertinti apskaičiuotų regresijos koeficientų paklaidą, reikia nustatyti daugiau nei du eksperimentinių taškų skaičių.

    Mažiausių kvadratų metodas (LSM).

    Kuo didesnis eksperimentinių taškų skaičius, tuo tikslesnis statistinis koeficientų įvertis (dėl Stjudento koeficiento mažėjimo) ir tuo įvertis artimesnis bendrosios imties įverčiui.

    Vertybių gavimas kiekviename eksperimentiniame taške dažnai yra susijęs su didelėmis darbo sąnaudomis, todėl dažnai atliekamas kompromisinis eksperimentų skaičius, kuris suteikia lengvai suprantamą įvertinimą ir nesukelia pernelyg didelių darbo sąnaudų. Paprastai eksperimentinių taškų skaičius tiesinei mažiausiųjų kvadratų priklausomybei su dviem koeficientais pasirenkamas 5-7 taškų srityje.

    Trumpa tiesinės priklausomybės mažiausių kvadratų teorija

    Tarkime, kad turime eksperimentinių duomenų rinkinį reikšmių porų pavidalu [`y_i`, `x_i`], kur i yra vieno eksperimentinio matavimo skaičius nuo 1 iki n; „y_i“ – išmatuotos vertės taške „i“ reikšmė; „x_i“ – parametro, kurį nustatome taške „i“, reikšmė.

    Pavyzdys yra Ohmo dėsnio veikimas. Keisdami įtampą (potencialų skirtumą) tarp elektros grandinės sekcijų, išmatuojame per šią sekciją einančios srovės kiekį. Fizika suteikia mums eksperimentiškai nustatytą priklausomybę:

    „I=U/R“,
    kur "I" - srovės stiprumas; `R` - pasipriešinimas; "U" - įtampa.

    Šiuo atveju „y_i“ yra išmatuota srovės vertė, o „x_i“ yra įtampos vertė.

    Kaip kitą pavyzdį apsvarstykite šviesos sugertį medžiagos tirpale. Chemija suteikia mums formulę:

    "A = εl C",
    čia "A" yra tirpalo optinis tankis; `ε` – tirpios medžiagos pralaidumas; `l` - kelio ilgis, kai šviesa praeina pro kiuvetę su tirpalu; "C" yra ištirpusios medžiagos koncentracija.

    Šiuo atveju „y_i“ yra išmatuotas optinis tankis „A“, o „x_i“ yra mūsų nustatytos medžiagos koncentracijos vertė.

    Nagrinėsime atvejį, kai santykinė paklaida nustatant „x_i“ yra daug mažesnė nei santykinė paklaida matuojant „y_i“. Taip pat manysime, kad visos išmatuotos y_i reikšmės yra atsitiktinės ir normaliai paskirstytos, t.y. laikytis normalaus paskirstymo įstatymo.

    Esant tiesinei „y“ priklausomybei nuo „x“, galime parašyti teorinę priklausomybę:
    y = a + bx.

    Geometriniu požiūriu koeficientas "b" reiškia linijos nuolydžio liestinę su "x" ašimi, o koeficientas "a" - "y" reikšmę tiesės susikirtimo taške su " y ašis (su "x = 0").

    Regresijos tiesės parametrų radimas.

    Eksperimento metu išmatuotos „y_i“ vertės negali būti tiksliai teorinėje linijoje dėl matavimo klaidų, kurios visada būdingos realiame gyvenime. Todėl tiesinė lygtis turi būti pavaizduota lygčių sistema:
    „y_i = a + b x_i + ε_i“ (1),
    kur „ε_i“ yra nežinoma „y“ matavimo paklaida „i“ eksperimente.

    Priklausomybė (1) taip pat vadinama regresija, t.y. dviejų dydžių priklausomybė vienas nuo kito su statistiniu reikšmingumu.

    Priklausomybės atkūrimo užduotis – iš eksperimentinių taškų [`y_i`, `x_i`] surasti koeficientus `a` ir `b`.

    Koeficientams rasti paprastai naudojami „a“ ir „b“. mažiausių kvadratų metodas(MNK). Tai ypatingas didžiausios tikimybės principo atvejis.

    Perrašykime (1) kaip „ε_i = y_i - a - b x_i“.

    Tada klaidų kvadratų suma bus tokia
    „Φ = suma_(i=1)^(n) ε_i^2 = suma_(i=1)^(n) (y_i – a – b x_i)^2“. (2)

    Mažiausių kvadratų metodo principas yra sumažinti sumą (2) atsižvelgiant į parametrus "a" ir "b"..

    Minimalus dydis pasiekiamas, kai sumos (2) dalinės išvestinės koeficientų „a“ ir „b“ atžvilgiu yra lygios nuliui:
    `frac(dalinė Φ)(dalinė a) = trupmena(dalinė suma_(i=1)^(n) (y_i - a - b x_i)^2)(dalinė a) = 0
    „trumpas(dalinis Φ)(dalinis b) = trupmenas(dalinė suma_(i=1)^(n) (y_i - a - b x_i)^2)(dalinė b) = 0"

    Išplėsdami išvestines, gauname dviejų lygčių sistemą su dviem nežinomaisiais:
    „suma_(i=1)^(n) (2a + 2bx_i – 2y_i) = suma_(i=1)^(n) (a + bx_i – y_i) = 0“
    „suma_(i=1)^(n) (2bx_i^2 + 2ax_i – 2x_iy_i) = suma_(i=1)^(n) (bx_i^2 + ax_i – x_iy_i) = 0“

    Atverčiame skliaustus ir nuo norimų koeficientų nepriklausomas sumas perkeliame į kitą pusę, gauname tiesinių lygčių sistemą:
    „suma_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i“
    „suma_(i=1)^(n) x_iy_i = a suma_(i=1)^(n) x_i + b suma_(i=1)^(n) x_i^2“

    Išspręsdami gautą sistemą, randame koeficientų "a" ir "b" formules:

    `a = frac(sum_(i=1)^(n) y_i suma_(i=1)^(n) x_i^2 - suma_(i=1)^(n) x_i suma_(i=1)^(n ) x_iy_i) (n suma_(i=1)^(n) x_i^2 — (suma_(i=1)^(n) x_i)^2)" (3.1)

    `b = frac(n suma_(i=1)^(n) x_iy_i - suma_(i=1)^(n) x_i suma_(i=1)^(n) y_i) (n suma_(i=1)^ (n) x_i^2 – (suma_(i=1)^(n) x_i)^2)" (3.2)

    Šios formulės turi sprendinius, kai `n > 1` (liniją galima nubrėžti naudojant bent 2 taškus) ir kai determinantas `D = n suma_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, t.y. kai eksperimento x_i taškai yra skirtingi (t. y. kai linija nėra vertikali).

    Regresijos tiesės koeficientų paklaidų įvertinimas

    Norint tiksliau įvertinti koeficientų „a“ ir „b“ apskaičiavimo klaidą, pageidautina daug eksperimentinių taškų. Kai `n = 2`, neįmanoma įvertinti koeficientų paklaidos, nes apytikslė tiesė vienareikšmiškai eis per du taškus.

    Nustatoma atsitiktinio dydžio `V` paklaida klaidų kaupimo įstatymas
    „S_V^2 = suma_(i=1)^p (frac(dalinis f)(dalinis z_i))^2 S_(z_i)^2“,
    kur „p“ yra „z_i“ parametrų su „S_(z_i)“ klaida, turinčių įtakos „S_V“ klaidai, skaičius;
    „f“ yra „V“ priklausomybės funkcija nuo „z_i“.

    Parašykime klaidų kaupimosi dėsnį koeficientų `a` ir `b` paklaidai
    `S_a^2 = suma_(i=1)^(n)(trupinis(dalinis a)(dalinis y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(frac(dalinis a) )(dalinis x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(dalinis a)(dalinis y_i))^2`,
    `S_b^2 = suma_(i=1)^(n)(trupinis(dalinis b)(dalinis y_i))^2 S_(y_i)^2 + suma_(i=1)^(n)(trupinis(dalinis b) )(dalinis x_i))^2 S_(x_i)^2 = S_y^2 suma_(i=1)^(n)(frac(dalinis b)(dalinis y_i))^2`,
    nes „S_(x_i)^2 = 0“ (anksčiau padarėme išlygą, kad „x“ klaida yra nereikšminga).

    „S_y^2 = S_(y_i)^2“ – paklaida (dispersija, standartinis nuokrypis kvadratu) matmenyje „y“, darant prielaidą, kad klaida yra vienoda visoms „y“ reikšmėms.

    Pakeisdami formules, skirtas „a“ ir „b“ apskaičiavimui gautose išraiškose, gauname

    `S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i suma_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n suma_(i=1)^(n) x_i^2 - (suma_(i=1)^(n) x_i)^2) suma_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)" (4.1)

    `S_b^2 = S_y^2 kadras(suma_(i=1)^(n) (n x_i - suma_(i=1)^(n) x_i)^2) (D^2) = S_y^2 kadras( n (n suma_(i=1)^(n) x_i^2 - (suma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) (4.2)

    Daugumoje tikrų eksperimentų „Sy“ reikšmė nėra matuojama. Tam reikia atlikti kelis lygiagrečius matavimus (eksperimentus) viename ar keliuose plano taškuose, o tai padidina eksperimento laiką (ir galbūt ir kainą). Todėl paprastai daroma prielaida, kad "y" nuokrypis nuo regresijos linijos gali būti laikomas atsitiktiniu. Dispersijos įvertinimas „y“ šiuo atveju apskaičiuojamas pagal formulę.

    „S_y^2 = S_(y, poilsis)^2 = frac(suma_(i=1)^n (y_i - a - b x_i)^2) (n-2)".

    Daliklis „n-2“ atsiranda todėl, kad sumažinome laisvės laipsnių skaičių, nes apskaičiavome du koeficientus tai pačiai eksperimentinių duomenų imčiai.

    Šis įvertinimas taip pat vadinamas likutine dispersija, palyginti su regresijos linija „S_(y, rest)^2“.

    Koeficientų reikšmingumo vertinimas atliekamas pagal Studento kriterijų

    "t_a = frac(|a|) (S_a)", "t_b = frac(|b|) (S_b)"

    Jei apskaičiuoti kriterijai `t_a`, `t_b` yra mažesni už lentelės kriterijus `t(P, n-2)`, tai laikoma, kad atitinkamas koeficientas reikšmingai nesiskiria nuo nulio esant nurodytai tikimybei `P`.

    Norėdami įvertinti tiesinio ryšio aprašymo kokybę, galite palyginti `S_(y, rest)^2` ir `S_(bar y)`, palyginti su vidurkiu, naudodami Fišerio kriterijų.

    `S_(y juosta) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1) – y dispersijos, palyginti su vidurkiu, imties įvertinimas.

    Regresijos lygties, skirtos priklausomybei apibūdinti, efektyvumui įvertinti apskaičiuojamas Fišerio koeficientas.
    „F = S_(y juosta) / S_(y, poilsis)^2“,
    kuris lyginamas su lentelės Fišerio koeficientu „F(p, n-1, n-2)“.

    Jei „F > F(P, n-1, n-2)“, skirtumas tarp priklausomybės aprašymo „y = f(x)“ naudojant regresijos lygtį ir aprašymo naudojant vidurkį, laikomas statistiškai reikšmingu su tikimybe. "P". Tie. regresija geriau apibūdina priklausomybę nei „y“ sklaida aplink vidurkį.

    Spustelėkite diagramą
    pridėti vertes į lentelę

    Mažiausio kvadrato metodas. Mažiausių kvadratų metodas reiškia nežinomų parametrų a, b, c, priimtos funkcinės priklausomybės nustatymą

    Mažiausių kvadratų metodas reiškia nežinomų parametrų nustatymą a, b, c,… priimta funkcinė priklausomybė

    y = f(x,a,b,c,…),

    kuri duotų paklaidos vidutinio kvadrato (dispersijos) minimumą

    , (24)

    čia x i , y i - skaičių porų rinkinys, gautas iš eksperimento.

    Kadangi kelių kintamųjų funkcijos ekstremumo sąlyga yra sąlyga, kad jos dalinės išvestinės yra lygios nuliui, tada parametrai a, b, c,… nustatomi iš lygčių sistemos:

    ; ; ; … (25)

    Reikia atsiminti, kad parametrams po funkcijos formos parinkti naudojamas mažiausių kvadratų metodas y = f(x) apibrėžta.

    Jei iš teorinių samprotavimų neįmanoma padaryti išvadų, kokia turėtų būti empirinė formulė, tuomet reikia vadovautis vizualiniais vaizdais, pirmiausia grafiniu stebimų duomenų atvaizdavimu.

    Praktiškai dažniausiai apsiribojama šių tipų funkcijomis:

    1) linijinis ;

    2) kvadratinis a .

    Mažiausio kvadrato metodas

    Paskutinėje temos pamokoje susipažinsime su garsiausia programa FNP, kuris randa plačiausią pritaikymą įvairiose mokslo ir praktikos srityse. Tai gali būti fizika, chemija, biologija, ekonomika, sociologija, psichologija ir t. t. ir taip toliau. Likimo valia man dažnai tenka susidurti su ekonomika, todėl šiandien pasirūpinsiu jums bilietu į nuostabią šalį, vadinamą Ekonometrija=) ... Kaip tu to nenori?! Ten labai gerai – tereikia apsispręsti! …Tačiau tikriausiai tikrai norite išmokti spręsti problemas mažiausių kvadratų. O ypač stropūs skaitytojai išmoks juos išspręsti ne tik tiksliai, bet ir LABAI GREITAI ;-) Bet pirmiausia bendras problemos išdėstymas+ susijęs pavyzdys:

    Tegul rodikliai tiriami kokioje nors dalykinėje srityje, kuri turi kiekybinę išraišką. Tuo pačiu yra pagrindo manyti, kad rodiklis priklauso nuo rodiklio. Ši prielaida gali būti ir mokslinė hipotezė, ir pagrįsta elementariu sveiku protu. Tačiau palikime mokslą nuošalyje ir tyrinėkime patrauklesnes sritis – būtent bakalėjos parduotuves. Žymėti:

    – maisto prekių parduotuvės prekybinės patalpos, kv.m.
    - maisto prekių parduotuvės metinė apyvarta, milijonai rublių.

    Visiškai aišku, kad kuo didesnis parduotuvės plotas, tuo daugeliu atvejų didesnė jos apyvarta.

    Tarkime, atlikę stebėjimus / eksperimentus / skaičiavimus / šokius su tamburinu, turime skaitinius duomenis:

    Su bakalėjos parduotuvėmis, manau, viskas aišku: - tai 1-os parduotuvės plotas, - jos metinė apyvarta, - 2-os parduotuvės plotas, - jos metinė apyvarta ir t.t. Beje, prieiti prie įslaptintos medžiagos visai nebūtina – gana tikslų apyvartos įvertinimą galima gauti naudojant matematinė statistika. Tačiau nesiblaškykite, komercinio šnipinėjimo kursas jau mokamas =)

    Lentelinius duomenis taip pat galima rašyti taškų forma ir pavaizduoti mums įprastu būdu. Dekarto sistema .

    Atsakykime į svarbų klausimą: kiek balų reikia kokybiniam tyrimui?

    Kuo didesnis, tuo geriau. Minimalus leistinas rinkinys susideda iš 5-6 balų. Be to, esant nedideliam duomenų kiekiui, „nenormalūs“ rezultatai neturėtų būti įtraukti į imtį. Taigi, pavyzdžiui, nedidelė elito parduotuvė gali padėti daug daugiau nei „jų kolegos“, taip iškraipydami bendrą modelį, kurį reikia rasti!



    Jei tai gana paprasta, turime pasirinkti funkciją, tvarkaraštį kuri eina kuo arčiau taškų . Tokia funkcija vadinama apytikslis (apytikslis - apytikslis) arba teorinė funkcija . Paprastai tariant, čia iš karto atsiranda akivaizdus „pretendentas“ – aukšto laipsnio daugianario, kurio grafikas eina per VISUS taškus. Tačiau ši parinktis yra sudėtinga ir dažnai tiesiog neteisinga. (nes diagrama „vėjas“ visą laiką ir prastai atspindės pagrindinę tendenciją).

    Taigi norima funkcija turi būti pakankamai paprasta ir tuo pačiu adekvačiai atspindėti priklausomybę. Kaip jau galima spėti, vienas iš būdų rasti tokias funkcijas vadinamas mažiausių kvadratų. Pirmiausia bendrai panagrinėkime jo esmę. Tegul kuri nors funkcija apytiksliai atitinka eksperimentinius duomenis:


    Kaip įvertinti šio aproksimavimo tikslumą? Taip pat apskaičiuokime skirtumus (nukrypimus) tarp eksperimentinių ir funkcinių verčių (mes studijuojame piešinį). Pirma mintis, kuri ateina į galvą, yra įvertinti, kokia suma yra didelė, tačiau problema ta, kad skirtumai gali būti neigiami. (pavyzdžiui, ) ir nukrypimai dėl tokio sumavimo panaikins vienas kitą. Todėl, kaip aproksimacijos tikslumo įvertinimą, ji siūlo paimti sumą moduliai nukrypimai:

    arba sulankstyta forma: (nežinantiems: yra sumos piktograma ir - pagalbinis kintamasis - "skaitiklis", kuris ima reikšmes nuo 1 iki ) .

    Priartinus eksperimentinius taškus su skirtingomis funkcijomis, gausime skirtingas reikšmes, ir akivaizdu, kur ši suma mažesnė – ta funkcija tikslesnė.

    Toks metodas egzistuoja ir vadinamas mažiausio modulio metodas. Tačiau praktikoje jis tapo daug plačiau paplitęs. mažiausių kvadratų metodas, kuriame galimos neigiamos reikšmės pašalinamos ne pagal modulį, o padalijus nuokrypius kvadratu:



    , po kurio pastangos nukreipiamos į tokios funkcijos parinkimą, kad kvadratinių nuokrypių suma buvo kuo mažesnis. Tiesą sakant, iš čia ir kilo metodo pavadinimas.

    Ir dabar grįžtame prie kito svarbaus dalyko: kaip minėta aukščiau, pasirinkta funkcija turėtų būti gana paprasta, tačiau tokių funkcijų taip pat yra daug: linijinis , hiperbolinis , eksponentinis , logaritminis , kvadratinis ir tt Ir, žinoma, čia iš karto norėčiau „sumažinti veiklos sritį“. Kokią funkcijų klasę pasirinkti tyrimui? Primityvi, bet efektyvi technika:

    - Lengviausias būdas traukti taškus brėžinyje ir išanalizuokite jų vietą. Jei jie linkę būti tiesia linija, tuomet turėtumėte ieškoti tiesios linijos lygtis su optimaliomis reikšmėmis ir . Kitaip tariant, užduotis yra rasti TOKIUS koeficientus – kad kvadratinių nuokrypių suma būtų mažiausia.

    Jei taškai yra, pavyzdžiui, išilgai hiperbolė, tada aišku, kad tiesinė funkcija duos prastą aproksimaciją. Šiuo atveju mes ieškome „palankiausių“ hiperbolės lygties koeficientų - tie, kurie duoda mažiausią kvadratų sumą .

    Dabar atkreipkite dėmesį, kad abiem atvejais kalbame apie dviejų kintamųjų funkcijos, kurio argumentai yra ieškojo priklausomybės parinkčių:

    Ir iš esmės reikia išspręsti standartinę problemą – surasti mažiausiai dviejų kintamųjų funkcijos.

    Prisiminkite mūsų pavyzdį: tarkime, kad „parduotuvės“ taškai paprastai yra tiesioje linijoje ir yra pagrindo tikėti, kad yra tiesinė priklausomybė apyvartos iš prekybos zonos. Raskime TOKIUS koeficientus "a" ir "būti", kad kvadratinių nuokrypių suma buvo mažiausias. Viskas kaip įprasta – pirma I eilės daliniai vediniai. Pagal tiesiškumo taisyklė galite atskirti tiesiai po sumos piktograma:

    Jei norite šią informaciją panaudoti rašiniui ar kursiniam darbui, būsiu labai dėkingas už nuorodą šaltinių sąraše, tokių detalių skaičiavimų niekur nerasite:

    Sukurkime standartinę sistemą:

    Kiekvieną lygtį sumažiname „dviem“ ir, be to, „išskaidome“ sumas:

    Pastaba : savarankiškai analizuokite, kodėl „a“ ir „be“ galima išimti iš sumos piktogramos. Beje, formaliai tai galima padaryti su suma

    Perrašykime sistemą „taikoma“ forma:

    po kurio pradedamas brėžti mūsų problemos sprendimo algoritmas:

    Ar žinome taškų koordinates? Mes žinome. Sumos ar galime rasti? Lengvai. Mes sudarome paprasčiausią dviejų tiesinių lygčių su dviem nežinomaisiais sistema(„a“ ir „beh“). Mes išsprendžiame sistemą, pvz. Cramerio metodas, todėl susidaro stacionarus taškas . Tikrinama pakankama sąlyga ekstremumui, galime patikrinti, ar šiuo metu funkcija tiksliai pasiekia minimumas. Patikrinimas yra susijęs su papildomais skaičiavimais, todėl paliksime jį užkulisiuose. (jei reikia, trūkstamą kadrą galima peržiūrėtičia ) . Padarome galutinę išvadą:

    Funkcija geriausias būdas (bent jau lyginant su bet kuria kita tiesine funkcija) priartina eksperimentinius taškus . Grubiai tariant, jo grafikas eina kuo arčiau šių taškų. Pagal tradiciją ekonometrija taip pat vadinama gauta aproksimacinė funkcija suporuota tiesinės regresijos lygtis .

    Nagrinėjama problema turi didelę praktinę reikšmę. Mūsų pavyzdyje – lygtis leidžia numatyti, kokia apyvarta ("yig") bus parduotuvėje su vienokia ar kitokia pardavimo ploto verte (viena ar kita "x" reikšmė). Taip, gauta prognozė bus tik prognozė, tačiau daugeliu atvejų ji pasirodys gana tiksli.

    Išanalizuosiu tik vieną problemą su „tikraisiais“ skaičiais, nes joje nėra jokių sunkumų - visi skaičiavimai yra 7-8 klasių mokyklos programos lygiu. 95 procentais atvejų jūsų bus paprašyta rasti tiesiog tiesinę funkciją, tačiau pačioje straipsnio pabaigoje parodysiu, kad optimalios hiperbolės, eksponento ir kai kurių kitų funkcijų lygtis rasti nėra sunkiau.

    Tiesą sakant, belieka išdalinti žadėtas gėrybes – kad išmoktumėte tokius pavyzdžius išspręsti ne tik tiksliai, bet ir greitai. Atidžiai studijuojame standartą:

    Užduotis

    Ištyrus ryšį tarp dviejų rodiklių, gautos šios skaičių poros:

    Naudodami mažiausių kvadratų metodą, raskite tiesinę funkciją, kuri geriausiai atitinka empirinę funkciją (Patyręs) duomenis. Padarykite brėžinį, kuriame Dekarto stačiakampėje koordinačių sistemoje nubraižykite eksperimentinius taškus ir aproksimacinės funkcijos grafiką . Raskite kvadratinių nuokrypių tarp empirinių ir teorinių verčių sumą. Sužinokite, ar funkcija geresnė (pagal mažiausiųjų kvadratų metodą) apytiksliai eksperimentiniai taškai.

    Atkreipkite dėmesį, kad „x“ reikšmės yra natūralios vertybės, ir tai turi būdingą prasmingą reikšmę, apie kurią pakalbėsiu šiek tiek vėliau; bet jie, žinoma, gali būti trupmeniniai. Be to, priklausomai nuo konkrečios užduoties turinio, „X“ ir „G“ reikšmės gali būti visiškai arba iš dalies neigiamos. Na, mes gavome „beveidę“ užduotį, ir mes ją pradedame sprendimas:

    Kaip sistemos sprendimą randame optimalios funkcijos koeficientus:

    Kad žymėjimas būtų kompaktiškesnis, kintamąjį „skaitiklis“ galima praleisti, nes jau aišku, kad sumavimas atliekamas nuo 1 iki .

    Patogiau reikiamas sumas apskaičiuoti lentelės forma:


    Skaičiavimai gali būti atliekami naudojant mikroskaičiuotuvą, tačiau daug geriau naudoti „Excel“ - ir greičiau, ir be klaidų; žiūrėkite trumpą vaizdo įrašą:

    Taigi gauname štai ką sistema:

    Čia galite padauginti antrą lygtį iš 3 ir iš 1-osios lygties atimkite 2-ąjį dėmenį. Bet tai yra sėkmė – praktikoje sistemos dažnai nėra padovanotos, ir tokiais atvejais tai gelbsti Cramerio metodas:
    , todėl sistema turi unikalų sprendimą.

    Patikrinkime. Suprantu, kad nenoriu, bet kam praleisti klaidas ten, kur jų tikrai negalima praleisti? Rastą sprendimą pakeiskite kiekvienos sistemos lygties kairėje pusėje:

    Gaunamos tinkamos atitinkamų lygčių dalys, o tai reiškia, kad sistema išspręsta teisingai.

    Taigi norima aproksimacinė funkcija: – nuo visos tiesinės funkcijos eksperimentinius duomenis geriausiai atitinka jis.

    Skirtingai nei tiesiai parduotuvės apyvartos priklausomybė nuo jos ploto, nustatyta priklausomybė yra atvirkščiai (principas "kuo daugiau - tuo mažiau"), ir šį faktą iš karto atskleidžia neigiamas kampo koeficientas. Funkcija informuoja, kad padidėjus tam tikram rodikliui 1 vienetu, priklausomo rodiklio reikšmė mažėja vidutinis 0,65 vnt. Kaip sakoma, kuo didesnė grikių kaina, tuo mažiau parduodama.

    Norėdami nubraižyti apytikslę funkciją, randame dvi jos reikšmes:

    ir atlikite piešinį:

    Sukonstruota linija vadinama tendencijų linija (būtent linijinė tendencijos linija, t. y. bendruoju atveju tendencija nebūtinai yra tiesi linija). Visiems žinomas posakis „būti tendencijoje“, ir manau, kad šiam terminui papildomų komentarų nereikia.

    Apskaičiuokite kvadratinių nuokrypių sumą tarp empirinių ir teorinių vertybių. Geometriškai tai yra „raudonųjų“ atkarpų ilgių kvadratų suma (iš kurių du tokie maži, kad net nesimatote).

    Apibendrinkime skaičiavimus lentelėje:


    Jie vėl gali būti atliekami rankiniu būdu, tik tuo atveju, jei pateiksiu 1 punkto pavyzdį:

    bet daug efektyviau daryti jau žinomu būdu:

    Pakartokime: kokia rezultato prasmė?visos tiesinės funkcijos funkcija eksponentas yra mažiausias, tai yra, jis yra geriausias aproksimacija savo šeimoje. Ir čia, beje, galutinis problemos klausimas neatsitiktinis: o jeigu siūloma eksponentinė funkcija ar bus geriau apytiksliai eksperimento taškus?

    Raskime atitinkamą kvadratinių nuokrypių sumą – kad juos atskirčiau, pažymėsiu raide „epsilon“. Technika lygiai tokia pati:


    Ir vėl kiekvienam gaisro skaičiavimui 1 taškui:

    Programoje „Excel“ naudojame standartinę funkciją EXP (Sintaksę galite rasti „Excel“ žinyne).

    Išvada: , todėl eksponentinė funkcija eksperimentinius taškus aproksimuoja blogiau nei tiesė .

    Bet čia reikia pažymėti, kad „blogiau“ yra dar nereiškia, kas blogai. Dabar sukūriau šios eksponentinės funkcijos grafiką – ji taip pat eina arti taškų - tiek, kad be analitinio tyrimo sunku pasakyti, kuri funkcija tikslesnė.

    Tai užbaigia sprendimą, o aš grįžtu prie ginčo gamtinių vertybių klausimo. Įvairiuose tyrimuose, kaip taisyklė, ekonominiai ar sociologiniai mėnesiai, metai ar kiti vienodi laiko intervalai numeruojami natūraliu „X“. Apsvarstykite, pavyzdžiui, šią problemą:

    Turime šiuos duomenis apie parduotuvės mažmeninę apyvartą pirmąjį pusmetį:

    Naudodami tiesiosios linijos analitinį lygiavimą raskite liepos mėnesio pardavimo apimtį.

    Taip, ne bėda: numeruojame mėnesius 1, 2, 3, 4, 5, 6 ir naudojame įprastą algoritmą, dėl kurio gauname lygtį - vienintelis dalykas, kai kalbama apie laiką, dažniausiai yra raidė „te “ (nors tai nėra kritiška). Iš gautos lygties matyti, kad pirmąjį pusmetį apyvarta vidutiniškai išaugo 27,74 CU. per mėnesį. Gaukite liepos mėnesio prognozę (7 mėnuo): e.u.

    Ir panašios užduotys – tamsta tamsu. Norintys gali pasinaudoti papildoma paslauga, būtent mano Excel skaičiuoklė (demo versija), kuri beveik akimirksniu išsprendžia problemą! Yra darbinė programos versija mainais arba už simbolinis mokėjimas.

    Pamokos pabaigoje trumpa informacija apie kai kurių kitų tipų priklausomybių radimą. Tiesą sakant, nėra ką ypatingo pasakyti, nes pagrindinis požiūris ir sprendimo algoritmas išlieka tie patys.

    Tarkime, kad eksperimentinių taškų vieta primena hiperbolę. Tada, norint rasti geriausios hiperbolės koeficientus, reikia rasti funkcijos minimumą – norintys gali atlikti detalius skaičiavimus ir ateiti prie panašios sistemos:

    Formaliu techniniu požiūriu jis gaunamas iš „linijinės“ sistemos (pažymėkime žvaigždute)"x" pakeitimas į . Na, sumos apskaičiuoti, po kurio iki optimalių koeficientų "a" ir "būti" rankoje.

    Jei yra pagrindo manyti, kad taškai yra išdėstyti pagal logaritminę kreivę, tada ieškoti optimalių verčių ir rasti funkcijos minimumą . Formaliai sistemoje (*) turėtų būti pakeista taip:

    Skaičiuodami „Excel“, naudokite funkciją LN. Prisipažįstu, kad kiekvienam iš nagrinėjamų atvejų man nebus sunku sukurti skaičiuotuvus, bet vis tiek bus geriau, jei skaičiavimus „užprogramuosite“ patys. Video pamokos, kurios padės.

    Esant eksponentinei priklausomybei, situacija yra šiek tiek sudėtingesnė. Norėdami sumažinti materiją į tiesinį atvejį, imame funkcijos ir naudojimo logaritmą logaritmo savybės:

    Dabar, lygindami gautą funkciją su tiesine funkcija , darome išvadą, kad sistemoje (*) turi būti pakeista , ir - . Patogumui pažymime:

    Atkreipkite dėmesį, kad sistema yra išspręsta ir atžvilgiu, todėl suradus šaknis reikia nepamiršti surasti ir paties koeficiento.

    Norėdami apytiksliai įvertinti eksperimentinius taškus optimali parabolė , reikėtų rasti mažiausiai trijų kintamųjų funkcijos . Atlikę standartinius veiksmus, gauname tokį „veikiantį“ sistema:

    Taip, žinoma, čia yra daugiau sumų, tačiau naudojant mėgstamą programą nėra jokių sunkumų. Ir galiausiai aš jums pasakysiu, kaip greitai patikrinti naudojant „Excel“ ir sukurti norimą tendencijų liniją: sukurti sklaidos diagramą, pele pasirinkti bet kurį tašką. ir dešiniuoju pelės mygtuku spustelėkite parinktį "Pridėti tendencijų liniją". Tada pasirinkite diagramos tipą ir skirtuke "Galimybės" suaktyvinkite parinktį „Rodyti lygtį diagramoje“. Gerai

    Kaip visada, noriu baigti straipsnį gražia fraze ir beveik įvedžiau „Būk tendencijoje!“. Tačiau laikui bėgant jis persigalvojo. Ir ne todėl, kad tai yra formulė. Nežinau kaip kas, bet aš visai nenoriu sekti propaguojamos Amerikos ir ypač Europos tendencijos =) Todėl linkiu kiekvienam laikytis savo linijos!

    http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

    Mažiausių kvadratų metodas yra vienas iš labiausiai paplitusių ir labiausiai išvystytas dėl jo tiesinių ekonometrinių modelių parametrų įvertinimo metodų paprastumas ir efektyvumas. Tuo pačiu metu jį naudojant reikia laikytis tam tikro atsargumo, nes naudojant jį sukurti modeliai gali neatitikti daugelio savo parametrų kokybės reikalavimų ir dėl to „blogai“ atspindėti proceso raidos modelius.

    Išsamiau panagrinėkime tiesinio ekonometrinio modelio parametrų įvertinimo taikant mažiausiųjų kvadratų metodą procedūrą. Tokį modelį bendra forma galima pavaizduoti (1.2) lygtimi:

    y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

    Pradiniai duomenys vertinant parametrus a 0 , a 1 ,..., a n yra priklausomo kintamojo reikšmių vektorius y= (y 1 , y 2 , ... , y T)" ir nepriklausomų kintamųjų reikšmių matrica

    kuriame pirmasis stulpelis, susidedantis iš vienetų, atitinka modelio koeficientą .

    Mažiausių kvadratų metodas gavo savo pavadinimą remiantis pagrindiniu principu, kad jo pagrindu gauti parametrų įverčiai turi atitikti: modelio paklaidos kvadratų suma turi būti minimali.

    Užduočių sprendimo mažiausių kvadratų metodu pavyzdžiai

    2.1 pavyzdys. Prekybos įmonė turi 12 parduotuvių tinklą, apie kurių veiklą informacija pateikta lentelėje. 2.1.

    Įmonės vadovybė norėtų sužinoti, kaip metinės apyvartos dydis priklauso nuo parduotuvės prekybinio ploto.

    2.1 lentelė

    Parduotuvės numeris Metinė apyvarta, milijonai rublių Prekybos plotas, tūkst.m 2
    19,76 0,24
    38,09 0,31
    40,95 0,55
    41,08 0,48
    56,29 0,78
    68,51 0,98
    75,01 0,94
    89,05 1,21
    91,13 1,29
    91,26 1,12
    99,84 1,29
    108,55 1,49

    Mažiausių kvadratų sprendimas. Nurodykime - metinės parduotuvės apyvartą, milijonus rublių; - parduotuvės prekybos plotas, tūkst.m2.

    2.1 pav. 2.1 pavyzdžio sklaidos diagrama

    Nustatyti funkcinio ryšio tarp kintamųjų formą ir sudaryti sklaidos diagramą (2.1 pav.).

    Remiantis sklaidos diagrama, galime daryti išvadą, kad metinė apyvarta teigiamai priklauso nuo pardavimo ploto (t.y. y didės augant ). Tinkamiausia funkcinio ryšio forma yra linijinis.

    Informacija apie tolesnius skaičiavimus pateikta lentelėje. 2.2. Naudodami mažiausių kvadratų metodą įvertiname tiesinio vieno koeficiento ekonometrinio modelio parametrus

    2.2 lentelė

    t y t x 1t y t 2 x1t2 x 1t y t
    19,76 0,24 390,4576 0,0576 4,7424
    38,09 0,31 1450,8481 0,0961 11,8079
    40,95 0,55 1676,9025 0,3025 22,5225
    41,08 0,48 1687,5664 0,2304 19,7184
    56,29 0,78 3168,5641 0,6084 43,9062
    68,51 0,98 4693,6201 0,9604 67,1398
    75,01 0,94 5626,5001 0,8836 70,5094
    89,05 1,21 7929,9025 1,4641 107,7505
    91,13 1,29 8304,6769 1,6641 117,5577
    91,26 1,12 8328,3876 1,2544 102,2112
    99,84 1,29 9968,0256 1,6641 128,7936
    108,55 1,49 11783,1025 2,2201 161,7395
    S 819,52 10,68 65008,554 11,4058 858,3991
    Vidutinis 68,29 0,89

    Šiuo būdu,

    Todėl prekybos plotui padidėjus 1 tūkst. m 2, o kitiems rodikliams nesikeičiant, vidutinė metinė apyvarta padidėja 67,8871 mln. rublių.

    2.2 pavyzdys.Įmonės vadovybė pastebėjo, kad metinė apyvarta priklauso ne tik nuo parduotuvės prekybos ploto (žr. 2.1 pavyzdį), bet ir nuo vidutinio lankytojų skaičiaus. Atitinkama informacija pateikta lentelėje. 2.3.

    2.3 lentelė

    Sprendimas. Pažymėkite - vidutinis parduotuvės lankytojų skaičius per dieną, tūkst. žmonių.

    Nustatyti funkcinio ryšio tarp kintamųjų formą ir sudaryti sklaidos diagramą (2.2 pav.).

    Remiantis sklaidos diagrama, galime daryti išvadą, kad metinė apyvarta yra teigiamai susijusi su vidutiniu lankytojų skaičiumi per dieną (t.y. y didės augant ). Funkcinės priklausomybės forma yra tiesinė.

    Ryžiai. 2.2. Taškinė diagrama, pavyzdžiui, 2.2

    2.4 lentelė

    t x 2t x 2t 2 yt x 2t x 1t x 2t
    8,25 68,0625 163,02 1,98
    10,24 104,8575 390,0416 3,1744
    9,31 86,6761 381,2445 5,1205
    11,01 121,2201 452,2908 5,2848
    8,54 72,9316 480,7166 6,6612
    7,51 56,4001 514,5101 7,3598
    12,36 152,7696 927,1236 11,6184
    10,81 116,8561 962,6305 13,0801
    9,89 97,8121 901,2757 12,7581
    13,72 188,2384 1252,0872 15,3664
    12,27 150,5529 1225,0368 15,8283
    13,92 193,7664 1511,016 20,7408
    S 127,83 1410,44 9160,9934 118,9728
    Vidutinis 10,65

    Apskritai būtina nustatyti dviejų faktorių ekonometrinio modelio parametrus

    y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

    Informacija, reikalinga tolesniems skaičiavimams, pateikta lentelėje. 2.4.

    Įvertinkime tiesinio dviejų faktorių ekonometrinio modelio parametrus mažiausių kvadratų metodu.

    Šiuo būdu,

    Įvertinus koeficientą = 61,6583, matyti, kad, esant visiems kitiems dalykams, pardavimo plotui padidėjus 1 tūkst. m 2, metinė apyvarta padidės vidutiniškai 61,6583 mln.

    Koeficiento įvertis = 2,2748 rodo, kad, kitiems dalykams esant vienodai, didėjant vidutiniam lankytojų skaičiui 1 tūkst. žmonių. per dieną metinė apyvarta padidės vidutiniškai 2,2748 mln.

    2.3 pavyzdys. Naudojant lentelėje pateiktą informaciją. 2.2 ir 2.4, įvertinti vienfaktorinio ekonometrinio modelio parametrą

    kur yra centrinė -osios parduotuvės metinės apyvartos vertė, milijonai rublių; - t-osios parduotuvės vidutinio dienos lankytojų skaičiaus centre, tūkst. žmonių. (žr. 2.1-2.2 pavyzdžius).

    Sprendimas. Papildoma informacija, reikalinga skaičiavimams, pateikta lentelėje. 2.5.

    2.5 lentelė

    -48,53 -2,40 5,7720 116,6013
    -30,20 -0,41 0,1702 12,4589
    -27,34 -1,34 1,8023 36,7084
    -27,21 0,36 0,1278 -9,7288
    -12,00 -2,11 4,4627 25,3570
    0,22 -3,14 9,8753 -0,6809
    6,72 1,71 2,9156 11,4687
    20,76 0,16 0,0348 3,2992
    22,84 -0,76 0,5814 -17,413
    22,97 3,07 9,4096 70,4503
    31,55 1,62 2,6163 51,0267
    40,26 3,27 10,6766 131,5387
    Suma 48,4344 431,0566

    Naudodami (2.35) formulę gauname

    Šiuo būdu,

    http://www.cleverstudents.ru/articles/mnk.html

    Pavyzdys.

    Eksperimentiniai duomenys apie kintamųjų reikšmes X ir adresu pateikiami lentelėje.

    Dėl jų išlyginimo funkcija

    Naudojant mažiausių kvadratų metodas, apytiksliai apskaičiuokite šiuos duomenis tiesine priklausomybe y=kirvis+b(raskite parinktis a ir b). Sužinokite, kuri iš dviejų eilučių yra geresnė (mažiausių kvadratų metodo prasme) sulygina eksperimentinius duomenis. Padarykite piešinį.

    Sprendimas.

    Mūsų pavyzdyje n=5. Lentelę užpildome, kad būtų patogiau apskaičiuoti sumas, kurios yra įtrauktos į reikalingų koeficientų formules.

    Ketvirtoje lentelės eilutėje esančios reikšmės gaunamos 2-os eilutės reikšmes padauginus iš 3-osios kiekvieno skaičiaus reikšmių i.

    Penktosios lentelės eilutės reikšmės gaunamos 2-os eilutės reikšmes padalijus į kvadratą kiekvienam skaičiui i.

    Paskutinio lentelės stulpelio reikšmės yra reikšmių visose eilutėse sumos.

    Koeficientams rasti naudojame mažiausių kvadratų metodo formules a ir b. Juose pakeičiame atitinkamas vertes iš paskutinio lentelės stulpelio:

    Vadinasi, y=0,165x+2,184 yra norima apytikslė tiesi linija.

    Belieka išsiaiškinti, kuri iš eilučių y=0,165x+2,184 arba geriau apytiksliai atitinka pirminius duomenis, t. y. atlikti įvertinimą naudojant mažiausių kvadratų metodą.

    Įrodymas.

    Taip kad radus a ir b funkcija įgauna mažiausią reikšmę, būtina, kad šioje vietoje funkcijos antros eilės diferencialo kvadratinės formos matrica buvo teigiamas. Parodykime.

    Antrosios eilės skirtumas turi tokią formą:

    Tai yra

    Todėl kvadratinės formos matrica turi formą

    o elementų reikšmės nepriklauso a ir b.

    Parodykime, kad matrica yra teigiama apibrėžtoji. Tam reikia, kad kampas minoras būtų teigiamas.

    Pirmos eilės kampinis minoras . Nelygybė yra griežta, nes taškai

    Mažiausių kvadratų metodas (LSM) leidžia įvertinti įvairius dydžius naudojant daugelio matavimų, kuriuose yra atsitiktinių paklaidų, rezultatus.

    Būdingas MNC

    Pagrindinė šio metodo idėja yra ta, kad klaidų kvadratų suma yra laikoma problemos sprendimo tikslumo kriterijumi, kurį siekiama sumažinti. Naudojant šį metodą, galima taikyti tiek skaitinius, tiek analitinius metodus.

    Visų pirma, kaip skaitmeninis įgyvendinimas, mažiausių kvadratų metodas reiškia, kad reikia atlikti kuo daugiau nežinomo atsitiktinio dydžio matavimų. Be to, kuo daugiau skaičiavimų, tuo tikslesnis bus sprendimas. Remiantis šiuo skaičiavimų rinkiniu (pradiniais duomenimis), gaunamas kitas siūlomų sprendimų rinkinys, iš kurio atrenkamas geriausias. Jei sprendinių rinkinys yra parametrizuotas, mažiausių kvadratų metodas bus sumažintas iki optimalios parametrų reikšmės.

    Kaip analitinis požiūris į LSM įgyvendinimą pradinių duomenų (matavimų) ir siūlomų sprendimų aibėje, apibrėžiami kai kurie (funkciniai), kuriuos galima išreikšti formule, gauta kaip tam tikra hipotezė, kurią reikia patvirtinti. . Šiuo atveju mažiausių kvadratų metodas sumažinamas iki šios funkcijos minimumo suradimo pradinių duomenų kvadratinių klaidų aibėje.

    Atkreipkite dėmesį, kad ne pačios klaidos, o klaidų kvadratai. Kodėl? Faktas yra tas, kad dažnai matavimų nukrypimai nuo tikslios vertės yra teigiami ir neigiami. Nustatant vidurkį, paprastas sumavimas gali lemti neteisingą išvadą apie įvertinimo kokybę, nes abipusis teigiamų ir neigiamų verčių panaikinimas sumažins matavimų rinkinio atrankos galią. Ir, atitinkamai, vertinimo tikslumas.

    Kad taip neatsitiktų, kvadratiniai nuokrypiai sumuojami. Dar daugiau, siekiant suvienodinti išmatuotos vertės ir galutinio įvertinimo matmenis, išgauti naudojama klaidų kvadratų suma

    Kai kurios MNC programos

    MNC plačiai naudojamas įvairiose srityse. Pavyzdžiui, tikimybių teorijoje ir matematinėje statistikoje metodas naudojamas norint nustatyti tokią atsitiktinio dydžio charakteristiką kaip standartinis nuokrypis, kuris nustato atsitiktinio dydžio verčių diapazono plotį.