Enciclopedia de marketing. Informații generale despre analiza clusterului

Obiectul de studiu în statistica aplicată îl constituie datele statistice obținute în urma observațiilor sau experimentelor. Datele statistice sunt un set de obiecte (observații, cazuri) și trăsături (variabile) care le caracterizează. De exemplu, obiectele de studiu sunt țările lumii și semnele, geografice și indicatori economici caracterizându-le: continent; înălțimea zonei deasupra nivelului mării; temperatura medie anuală; locul țării în listă în ceea ce privește calitatea vieții, ponderea în PIB pe cap de locuitor; cheltuieli publice pentru sănătate, educație, armată; speranța medie de viață; ponderea șomajului, analfabeti; indicele calității vieții etc.
Variabilele sunt mărimi care, ca rezultat al măsurării, pot lua valori diferite.
Variabilele independente sunt variabile ale căror valori pot fi modificate în timpul experimentului, iar variabilele dependente sunt variabile ale căror valori pot fi doar măsurate.
Variabilele pot fi măsurate pe diverse scale. Diferența dintre scale este determinată de conținutul lor informativ. Se au în vedere următoarele tipuri de scale, prezentate în ordinea crescătoare a conținutului lor informativ: nominală, ordinală, intervalală, scară de raport, absolută. Aceste scale diferă între ele și prin numărul de operații matematice valide. Scala „cea mai săracă” este nominală, deoarece nu este definită nicio operație aritmetică, cea mai „bogată” în sine este absolută.
Măsurarea la scara nominală (clasificare) înseamnă a determina dacă un obiect (observare) aparține unei anumite clase. De exemplu: gen, ramură de serviciu, profesie, continent etc. În această scară, se poate număra doar numărul de obiecte din clase - frecvență și frecvență relativă.
Măsurarea pe scara ordinală (rang), pe lângă determinarea clasei de apartenență, vă permite să simplificați observațiile comparându-le între ele în anumite privințe. Cu toate acestea, această scară nu determină distanța dintre clase, ci doar care dintre cele două observații este de preferat. Prin urmare, datele experimentale ordinale, chiar dacă sunt reprezentate prin numere, nu pot fi considerate numere și asupra lor pot fi efectuate operații aritmetice 5 . În această scară, pe lângă calcularea frecvenței unui obiect, puteți calcula rangul obiectului. Exemple de variabile măsurate pe o scară ordinală: scorurile elevilor, premiile la concursuri, gradele militare, locul unei țări într-o listă de calitate a vieții etc. Uneori variabilele nominale și ordinale sunt numite categorice sau grupare, deoarece permit împărțirea obiectelor de cercetare în subgrupe.
Când se măsoară pe o scară de interval, ordonarea observațiilor se poate face atât de precis încât distanțele dintre oricare două dintre ele să fie cunoscute. Scala intervalului este unică până la transformările liniare (y = ax + b). Aceasta înseamnă că scara are un punct de referință arbitrar - zero condiționat. Exemple de variabile măsurate pe o scară de interval: temperatură, timp, altitudine deasupra nivelului mării. Variabilele dintr-o scară dată pot fi operate pentru a determina distanța dintre observații. Distanțele sunt numere întregi și orice operație aritmetică poate fi efectuată asupra lor.
Scala raportului este similară cu scara intervalului, dar este unică până la o transformare de forma y = ax. Aceasta înseamnă că scara are un punct de referință fix - zero absolut, dar o scară de măsurare arbitrară. Exemple de variabile măsurate pe o scară de raport: lungime, greutate, curent, sumă de bani, cheltuielile societății pentru sănătate, educație, armată, speranță de viață etc. Măsurătorile din această scală sunt numere întregi și orice operații aritmetice pot fi efectuate pe ele.
O scară absolută are atât un zero absolut, cât și o unitate de măsură absolută (scara). Un exemplu de scară absolută este linia numerică. Această scară este adimensională, astfel încât măsurătorile din ea pot fi folosite ca exponent sau bază a unui logaritm. Exemple de măsurători la scară absolută: rata șomajului; proporţia analfabetilor, indicele calităţii vieţii etc.
Cele mai multe dintre metodele statistice sunt metode statistice parametrice bazate pe presupunerea că un vector aleator de variabile formează o distribuție multivariată, de obicei normală sau se transformă într-o distribuție normală. Dacă această ipoteză nu este confirmată, ar trebui utilizate metode neparametrice de statistică matematică.

Analiza corelației.Între variabile (variabile aleatoare) poate exista o relație funcțională, manifestată prin faptul că una dintre ele este definită ca o funcție a celeilalte. Dar între variabile poate exista și o legătură de alt fel, manifestată prin faptul că una dintre ele reacționează la o modificare a celeilalte prin modificarea legii sale de distribuție. O astfel de relație se numește stocastică. Apare atunci când există factori aleatori comuni care afectează ambele variabile. Ca măsură a dependenței dintre variabile, se utilizează coeficientul de corelație (r), care variază de la -1 la +1. Dacă coeficientul de corelație este negativ, aceasta înseamnă că pe măsură ce valorile unei variabile cresc, valorile celeilalte scad. Dacă variabilele sunt independente, atunci coeficientul de corelație este 0 (reversul este adevărat numai pentru variabilele care au o distribuție normală). Dar dacă coeficientul de corelație nu este egal cu 0 (variabilele se numesc necorelate), atunci aceasta înseamnă că există o relație între variabile. Cu cât valoarea lui r este mai aproape de 1, cu atât dependența este mai puternică. Coeficientul de corelație atinge valorile sale extreme de +1 sau -1 dacă și numai dacă relația dintre variabile este liniară. Analiza corelației vă permite să stabiliți puterea și direcția relației stocastice dintre variabile (variabile aleatoare). Dacă variabilele sunt măsurate cel puțin pe o scară de interval și au o distribuție normală, atunci analiza corelației se realizează prin calcularea coeficientului de corelație Pearson, în in caz contrar Se folosesc corelațiile Spearman, tau lui Kendal sau Gamma.

Analiza de regresie. Analiza de regresie modelează relația unei variabile aleatoare cu una sau mai multe alte variabile aleatoare. În acest caz, prima variabilă se numește dependentă, iar restul - independentă. Alegerea sau atribuirea variabilelor dependente și independente este arbitrară (condițională) și se realizează de către cercetător în funcție de problema pe care o rezolvă. Variabilele independente se numesc factori, regresori sau predictori, iar variabila dependentă se numește caracteristica rezultatului sau răspuns.
Dacă numărul de predictori este egal cu 1, regresia se numește simplă, sau univariată, dacă numărul de predictori este mai mare de 1, multiplă sau multifactorială. În general, modelul de regresie poate fi scris după cum urmează:

Y \u003d f (x 1, x 2, ..., x n),

Unde y este variabila dependentă (răspuns), x i (i = 1,…, n) sunt predictori (factori), n este numărul de predictori.
Prin analiza de regresie, este posibil să se rezolve o serie de sarcini importante pentru problema studiată:
1). Reducerea dimensiunii spațiului variabilelor analizate (spațiul factorilor), prin înlocuirea unei părți a factorilor cu o singură variabilă - răspunsul. Această problemă este rezolvată mai complet prin analiza factorială.
2). Cuantificarea efectului fiecărui factor, de ex. regresia multiplă, permite cercetătorului să întrebe (și probabil să obțină un răspuns) despre „care este cel mai bun predictor pentru...”. În același timp, influența factorilor individuali asupra răspunsului devine mai clară, iar cercetătorul înțelege mai bine natura fenomenului studiat.
3). Calculul valorilor de răspuns predictiv pentru anumite valori ale factorilor, de ex. analiza regresiei, creează baza unui experiment de calcul pentru a obține răspunsuri la întrebări precum „Ce se va întâmpla dacă...”.
4). În analiza de regresie, mecanismul cauzal apare într-o formă mai explicită. În acest caz, prognosticul se pretează mai bine la o interpretare semnificativă.

Analiza canonică. Analiza canonică este concepută pentru a analiza dependențele dintre două liste de caracteristici (variabile independente) care caracterizează obiectele. De exemplu, puteți studia relația dintre diverși factori adversi și apariția unui anumit grup de simptome ale unei boli sau relația dintre două grupuri de parametri (sindroame) clinici și de laborator ai unui pacient. Analiza canonică este o generalizare a corelației multiple ca măsură a relației dintre o variabilă și multe alte variabile. După cum știți, corelația multiplă este corelația maximă dintre o variabilă și o funcție liniară a altor variabile. Acest concept a fost generalizat la cazul unei conexiuni între seturi de variabile - caracteristici care caracterizează obiectele. În acest caz, este suficient să ne limităm să luăm în considerare un număr mic de combinații liniare cele mai corelate din fiecare mulțime. Să fie, de exemplu, primul set de variabile format din semnele y1, ..., ur, al doilea set alcătuit din - x1, ..., xq, atunci relația dintre aceste mulțimi poate fi estimată ca o corelație între combinații liniare a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, care se numește corelație canonică. Sarcina analizei canonice este de a găsi coeficienții de pondere în așa fel încât corelația canonică să fie maximă.

Metode de comparare a mediilor.În cercetarea aplicată, există adesea cazuri când rezultatul mediu al unei anumite caracteristici a unei serii de experimente diferă de rezultatul mediu al altei serii. Deoarece mediile sunt rezultatele măsurătorilor, atunci, de regulă, ele diferă întotdeauna, întrebarea este dacă discrepanța observată între medii poate fi explicată prin erorile aleatorii inevitabile ale experimentului sau se datorează anumitor motive. Dacă vorbim despre compararea a două mijloace, atunci puteți aplica testul Student (testul t). Acesta este un test parametric, deoarece se presupune că trăsătura are o distribuție normală în fiecare serie de experimente. În prezent, a devenit la modă utilizarea criteriilor neparametrice pentru compararea mediilor
Compararea rezultatelor medii este una dintre modalitățile de identificare a dependențelor dintre trăsăturile variabile care caracterizează setul de obiecte studiat (observații). Dacă, la împărțirea obiectelor de studiu în subgrupe folosind o variabilă independentă categorică (predictor), ipoteza despre inegalitatea mediilor unei variabile dependente în subgrupuri este adevărată, atunci aceasta înseamnă că există o relație stocastică între această variabilă dependentă și predictorul categoric. Deci, de exemplu, dacă se stabilește că ipoteza despre egalitatea indicatorilor medii ai dezvoltării fizice și intelectuale a copiilor din grupurile de mame care au fumat și nu au fumat în timpul sarcinii este incorectă, atunci aceasta înseamnă că există o relația dintre fumatul mamei copilului în timpul sarcinii și dezvoltarea sa intelectuală și fizică.
Cea mai comună metodă de comparare a mediilor este analiza varianței. În terminologia ANOVA, un predictor categoric este numit factor.
Analiza varianței poate fi definită ca o metodă parametrică, statistică, concepută pentru a evalua impactul diverși factori asupra rezultatului experimentului, precum și pentru planificarea ulterioară a experimentelor. Prin urmare, în analiza varianței, este posibil să se investigheze dependența unei caracteristici cantitative de una sau mai multe caracteristici calitative ale factorilor. Dacă se ia în considerare un factor, atunci se utilizează analiza unidirecțională a varianței, în caz contrar, se utilizează analiza multivariată a varianței.

Analiza de frecventa. Tabelele de frecvență, sau așa cum sunt numite și tabele cu o singură intrare, sunt cea mai simplă metodă de analiză a variabilelor categoriale. Tabelele de frecvență pot fi, de asemenea, utilizate cu succes pentru a studia variabilele cantitative, deși acest lucru poate duce la dificultăți în interpretarea rezultatelor. Acest tip cercetarea statistică este adesea folosită ca una dintre procedurile de analiză exploratorie pentru a vedea cum sunt distribuite diferite grupuri de observații în eșantion sau cum este distribuită valoarea unei caracteristici pe intervalul de la valoarea minimă la valoarea maximă. De regulă, tabelele de frecvență sunt ilustrate grafic folosind histograme.

Tabulare încrucișată (împerechere)– procesul de combinare a două (sau mai multe) tabele de frecvență astfel încât fiecare celulă din tabelul construit să fie reprezentată printr-o singură combinație de valori sau niveluri de variabile tabulate. Tabelul încrucișat face posibilă combinarea frecvențelor de apariție a observațiilor la diferite niveluri ale factorilor considerați. Prin examinarea acestor frecvențe, este posibilă identificarea relațiilor dintre variabilele tabulate și explorarea structurii acestei relații. În mod obișnuit, sunt tabulate variabile categorice sau de scară cu valori relativ puține. Dacă o variabilă continuă trebuie să fie tabelată (să zicem, nivelul zahărului din sânge), atunci trebuie mai întâi recodificată prin împărțirea intervalului de modificare într-un număr mic de intervale (de exemplu, nivel: scăzut, mediu, ridicat).

Analiza corespondenței. Analiza corespondenței, în comparație cu analiza frecvenței, conține metode descriptive și exploratorii mai puternice pentru analiza tabelelor bidirecționale și multidirecționale. Metoda, ca și tabelele de contingență, vă permite să explorați structura și relația variabilelor de grupare incluse în tabel. În analiza corespondenței clasice, frecvențele din tabelul de contingență sunt standardizate (normalizate) în așa fel încât suma elementelor din toate celulele să fie egală cu 1.
Unul dintre scopurile analizei corespondenței este reprezentarea conținutului tabelului de frecvențe relative sub formă de distanțe între rândurile și/sau coloanele individuale ale tabelului într-un spațiu dimensional inferior.

analiza grupului. Analiza cluster este o metodă de analiză de clasificare; scopul său principal este de a împărți setul de obiecte și trăsături studiate în grupuri sau clustere omogene într-un anumit sens. Aceasta este o metodă statistică multivariată, deci se presupune că datele inițiale pot avea un volum semnificativ, adică. atât numărul de obiecte de studiu (observații), cât și trăsăturile care caracterizează aceste obiecte pot fi semnificativ mari. Marele avantaj al analizei cluster este că face posibilă partiționarea obiectelor nu după un singur atribut, ci după un număr de atribute. În plus, analiza cluster, spre deosebire de majoritatea metodelor matematice și statistice, nu impune nicio restricție asupra tipului de obiecte luate în considerare și vă permite să explorați o mulțime de date inițiale de natură aproape arbitrară. Deoarece clusterele sunt grupuri de omogenitate, sarcina analizei cluster este de a împărți setul lor în m (m - întreg) clustere pe baza caracteristicilor obiectelor, astfel încât fiecare obiect să aparțină doar unui grup de partiții. În același timp, obiectele aparținând aceluiași cluster trebuie să fie omogene (similare), iar obiectele aparținând unor clustere diferite trebuie să fie eterogene. Dacă obiectele de grupare sunt reprezentate ca puncte în spațiul caracteristic n-dimensional (n este numărul de caracteristici care caracterizează obiectele), atunci asemănarea dintre obiecte este determinată prin conceptul de distanță dintre puncte, deoarece este intuitiv clar că cel mai mic distanța dintre obiecte, cu atât acestea sunt mai asemănătoare.

Analiză discriminantă. Analiza discriminantă include metode statistice clasificarea observaţiilor multivariate într-o situaţie în care cercetătorul dispune de aşa-numitele eşantioane de antrenament. Acest tip de analiză este multidimensional, deoarece utilizează mai multe caracteristici ale obiectului, al căror număr poate fi arbitrar mare. Scopul analizei discriminante este de a clasifica un obiect pe baza măsurării diferitelor caracteristici (trăsături), adică de a-l atribui unuia dintre mai multe grupuri (clase) specificate într-un mod optim. Se presupune că datele inițiale, împreună cu caracteristicile obiectelor, conțin o variabilă categorică (grupare) care determină dacă obiectul aparține unui anumit grup. Prin urmare, analiza discriminantă prevede verificarea coerenței clasificării efectuate prin metodă cu clasificarea empirică inițială. Metoda optimă este înțeleasă fie ca minim al așteptării matematice a pierderilor, fie ca minim al probabilității unei clasificări false. În cazul general, problema discriminării (discriminării) se formulează astfel. Fie rezultatul observației asupra unui obiect construcția unui vector aleator k-dimensional Х = (X1, X2, …, XК), unde X1, X2, …, XК sunt caracteristicile obiectului. Este necesar să se stabilească o regulă conform căreia, în funcție de valorile coordonatelor vectorului X, obiectul este atribuit uneia dintre seturile posibile i, i = 1, 2, ..., n. Metodele de discriminare pot fi împărțite condiționat în parametrice și neparametrice. În parametrii se știe că distribuția vectorilor caracteristici în fiecare populație este normală, dar nu există informații despre parametrii acestor distribuții. Metodele de discriminare neparametrică nu necesită cunoașterea exactă forma functionala distribuții și să permită rezolvarea problemelor de discriminare pe baza unor informații a priori nesemnificative despre populații, care sunt deosebit de valoroase pentru aplicații practice. Dacă sunt îndeplinite condițiile de aplicabilitate a analizei discriminante - variabilele-trăsături independente (se mai numesc și predictori) trebuie măsurate cel puțin pe o scară de interval, distribuția lor trebuie să corespundă legii normale, este necesară utilizarea analizei discriminante clasice. , în rest - metoda modelelor generale de analiză discriminantă.

Analiza factorilor. Analiza factorială este una dintre cele mai populare metode statistice multivariate. Dacă metodele cluster și discriminante clasifică observațiile, împărțindu-le în grupuri de omogenitate, atunci analiza factorială clasifică trăsăturile (variabilele) care descriu observațiile. De aceea obiectivul principal analiza factorială – reducerea numărului de variabile pe baza clasificării variabilelor și determinarea structurii relațiilor dintre acestea. Reducerea se realizează prin evidențierea factorilor comuni ascunși (latenți) care explică relația dintre trăsăturile observate ale obiectului, i.e. în locul setului inițial de variabile, va fi posibilă analizarea datelor privind factorii selectați, al căror număr este mult mai mic decât numărul inițial de variabile interdependente.

Arbori de clasificare. Arborele de clasificare sunt o metodă de analiză a clasificării care vă permite să preziceți apartenența obiectelor la o anumită clasă, în funcție de valorile corespunzătoare ale caracteristicilor care caracterizează obiectele. Atributele sunt numite variabile independente, iar o variabilă care indică dacă obiectele aparțin unor clase se numește dependentă. Spre deosebire de analiza discriminantă clasică, arborii de clasificare sunt capabili să efectueze ramificare unidimensională pe variabile de diferite tipuri - categorice, ordinale, interval. Nu sunt impuse restricții cu privire la legea distribuției variabilelor cantitative. Prin analogie cu analiza discriminantă, metoda face posibilă analizarea contribuțiilor variabilelor individuale la procedura de clasificare. Arborii de clasificare pot fi, și uneori sunt, foarte complexi. Cu toate acestea, utilizarea unor proceduri grafice speciale face posibilă simplificarea interpretării rezultatelor chiar și pentru arbori foarte complexi. Oportunitate reprezentare grafică Rezultatele și ușurința de interpretare explică în mare măsură marea popularitate a arborilor de clasificare în domeniile aplicate, cu toate acestea, cele mai importante proprietăți distinctive ale arborilor de clasificare sunt ierarhia lor și aplicabilitatea largă. Structura metodei este de așa natură încât utilizatorul are capacitatea de a construi arbori de complexitate arbitrară folosind parametri controlați, realizând erori minime de clasificare. Dar conform unui arbore complex, din cauza setului mare de reguli de decizie, este dificil să clasificați un nou obiect. Prin urmare, atunci când construiește un arbore de clasificare, utilizatorul trebuie să găsească un compromis rezonabil între complexitatea arborelui și complexitatea procedurii de clasificare. Aplicabilitatea largă a arborilor de clasificare le face un instrument foarte atractiv pentru analiza datelor, dar nu trebuie presupus că este recomandat să fie folosit în locul metodelor tradiționale de analiză a clasificării. Dimpotrivă, dacă sunt îndeplinite ipoteze teoretice mai stricte impuse de metodele tradiționale, iar distribuția de eșantionare are unele proprietăți speciale (de exemplu, distribuția variabilelor corespunde legii normale), atunci utilizarea metodelor tradiționale va fi mai eficientă. Cu toate acestea, ca metodă de analiză exploratorie sau ca ultimă soluție atunci când toate metodele tradiționale eșuează, Arborele de Clasificare, conform multor cercetători, sunt de neegalat.

Analiza și clasificarea componentelor principale.În practică, se pune adesea problema analizării datelor cu dimensiuni mari. Metoda analizei și clasificării componentelor principale permite rezolvarea acestei probleme și servește la atingerea a două obiective:
– reducerea numărului total de variabile (reducerea datelor) pentru a obține variabile „principale” și „necorelate”;
– clasificarea variabilelor și a observațiilor, cu ajutorul spațiului factorilor în construcție.
Metoda este similară cu analiza factorială în formularea sarcinilor de rezolvat, dar are o serie de diferențe semnificative:
– în analiza componentelor principale nu se folosesc metode iterative pentru extragerea factorilor;
– împreună cu variabilele active și observațiile utilizate pentru extragerea componentelor principale, pot fi specificate variabile auxiliare și/sau observații; apoi variabilele auxiliare și observațiile sunt proiectate pe spațiul factorilor calculat din variabilele și observațiile active;
- posibilitățile enumerate permit utilizarea metodei ca un instrument puternic de clasificare atât a variabilelor, cât și a observațiilor.
Rezolvarea problemei principale a metodei se realizează prin crearea unui spațiu vectorial de variabile (factori) latente (ascunse) cu o dimensiune mai mică decât cea inițială. Dimensiunea inițială este determinată de numărul de variabile pentru analiză din datele sursă.

Scalare multidimensională. Metoda poate fi privită ca o alternativă la analiza factorială, care realizează o reducere a numărului de variabile prin evidențierea factorilor latenți (nu observați direct) care explică relațiile dintre variabilele observate. Scopul scalării multidimensionale este de a găsi și interpreta variabile latente care permit utilizatorului să explice asemănările dintre obiectele date puncte din spațiul caracteristic original. În practică, indicatorii asemănării obiectelor pot fi distanțele sau grade de conexiune între ele. În analiza factorială, asemănările dintre variabile sunt exprimate folosind o matrice de coeficienți de corelație. În scalarea multidimensională, un tip arbitrar de matrice de similaritate a obiectelor poate fi utilizat ca date de intrare: distanțe, corelații etc. În ciuda faptului că există multe asemănări în natura problemelor studiate, metodele de scalare multivariată și analiza factorială au o serie de diferențe semnificative. Astfel, analiza factorială necesită ca datele studiate să respecte o distribuție normală multivariată, iar dependențele să fie liniare. Scalare multidimensională nu impune astfel de restricții, ea poate fi aplicată dacă este dată matricea asemănărilor perechi ale obiectelor. În ceea ce privește diferențele de rezultate, analiza factorială încearcă să extragă mai multe variabile latente decât scalarea multivariată. Prin urmare, scalarea multidimensională duce adesea la soluții mai ușor de interpretat. Mai important, totuși, scalarea multivariată poate fi aplicată oricărui tip de distanță sau similaritate, în timp ce analiza factorială necesită o matrice de corelație a variabilelor care să fie utilizată ca intrare sau o matrice de corelație care să fie calculată mai întâi din fișierul de date de intrare. Principala ipoteză a scalarii multidimensionale este că există un anumit spațiu metric cu caracteristici de bază esențiale, care implicit a servit drept bază pentru datele empirice obținute privind proximitatea dintre perechile de obiecte. Prin urmare, obiectele pot fi reprezentate ca puncte în acest spațiu. De asemenea, se presupune că obiectele mai apropiate (conform matricei inițiale) corespund unor distanțe mai mici în spațiul caracteristicilor de bază. Prin urmare, scalarea multidimensională este un set de metode de analiză a datelor empirice privind proximitatea obiectelor, cu ajutorul cărora se determină dimensiunea spațiului caracteristicilor obiectelor măsurate care sunt esențiale pentru o anumită sarcină semnificativă și configurația de punctele (obiectele) din acest spațiu se construiesc. Acest spațiu („scara multidimensională”) este similar cu scalele utilizate în mod obișnuit, în sensul că valorile caracteristicilor esențiale ale obiectelor măsurate corespund anumitor poziții pe axele spațiului. Logica scalarii multidimensionale poate fi ilustrata in cele ce urmeaza exemplu simplu. Să presupunem că există o matrice de distanțe în perechi (adică asemănări ale unor caracteristici) între unele orașe. Analizând matricea, este necesar să se plaseze puncte cu coordonatele orașelor în spațiu bidimensional (pe un plan), păstrând pe cât posibil distanțele reale dintre ele. Amplasarea rezultată a punctelor pe plan poate fi folosită ulterior ca o hartă geografică aproximativă. În cazul general, scalarea multidimensională permite ca obiectele (orașele din exemplul nostru) să fie amplasate într-un spațiu de o anumită dimensiune (în acest caz este egală cu două) astfel încât să reproducă în mod adecvat distanțele observate între ele. Ca rezultat, aceste distanțe pot fi măsurate în termeni de variabile latente găsite. Deci, în exemplul nostru, putem explica distanțele în termeni de o pereche de coordonate geografice Nord/Sud și Est/Vest.

Modelare prin ecuații structurale (modelare cauzală). conturată în În ultima vreme progresele în analiza statistică multivariată și analiza structurilor de corelație, combinate cu cei mai recenti algoritmi de calcul, au servit drept punct de plecare pentru crearea unei noi, dar deja recunoscute tehnici de modelare a ecuațiilor structurale (SEPATH). Această tehnică extraordinar de puternică de analiză multivariată include metode din diverse domenii ale statisticii, regresia multiplă și analiza factorială au fost dezvoltate și combinate în mod natural aici.
Obiectul modelării ecuațiilor structurale sunt sisteme complexe, structura interna necunoscut („cutie neagră”). Prin observarea parametrilor sistemului folosind SEPATH, puteți explora structura acestuia, puteți stabili relații cauză-efect între elementele sistemului.
Enunțarea problemei modelării structurale este următoarea. Să fie variabile pentru care momentele statistice sunt cunoscute, de exemplu, o matrice de corelație a eșantionului sau coeficienți de covarianță. Astfel de variabile sunt numite explicite. Ele pot fi caracteristicile unui sistem complex. Relațiile reale dintre variabilele explicite observate pot fi destul de complexe, dar presupunem că există o serie de variabile ascunse care explică structura acestor relații cu un anumit grad de acuratețe. Astfel, cu ajutorul variabilelor latente, se construiește un model de relații între variabilele explicite și implicite. În unele sarcini, variabilele latente pot fi considerate cauze, iar cele explicite drept consecințe, prin urmare, astfel de modele sunt numite cauzale. Se presupune că variabilele ascunse, la rândul lor, pot fi legate între ele. Structura conexiunilor se presupune a fi destul de complexă, dar tipul său este postulat - acestea sunt conexiuni descrise prin ecuații liniare. Unii parametri ai modelelor liniare sunt cunoscuți, alții nu și sunt parametri liberi.
Ideea principală a modelării ecuațiilor structurale este că puteți verifica dacă variabilele Y și X sunt legate printr-o relație liniară Y = aX analizând varianțele și covarianțele lor. Această idee se bazează pe o proprietate simplă a mediei și varianței: dacă înmulțiți fiecare număr cu o constantă k, media se înmulțește și cu k, cu abaterea standard înmulțită cu modulul lui k. De exemplu, luați în considerare un set de trei numere 1, 2, 3. Aceste numere au o medie egală cu 2 și o abatere standard egală cu 1. Dacă înmulțiți toate cele trei numere cu 4, atunci este ușor de calculat că media va fi egală cu 8, abaterea standard este 4, iar varianța este 16. Astfel, dacă există seturi de numere X și Y legate de Y = 4X, atunci varianța lui Y trebuie să fie de 16 ori mai mare decât varianța lui X. Prin urmare, putem testa ipoteza că Y și X sunt ecuații legate Y = 4X, comparând varianțele variabilelor Y și X. Această idee poate fi generalizată în diferite moduri la mai multe variabile legate printr-un sistem de ecuații liniare. În același timp, regulile de transformare devin mai greoaie, calculele mai complexe, dar ideea principală rămâne aceeași - puteți verifica dacă variabilele sunt legate liniar studiind variațiile și covarianțele lor.

Metode de analiză a supraviețuirii. Metodele de analiză a supraviețuirii au fost dezvoltate inițial în cercetarea medicală, biologică și asigurări, dar apoi au devenit utilizate pe scară largă în științele sociale și economice, precum și în industrie în probleme de inginerie (analiza de fiabilitate și timpii de eșec). Imaginați-vă că se studiază un nou tratament sau medicament. Evident, cea mai importantă și obiectivă caracteristică este speranța medie de viață a pacienților din momentul internării în clinică sau durata medie de remisiune a bolii. Metodele standard parametrice și neparametrice ar putea fi utilizate pentru a descrie timpii medii de supraviețuire sau remisiune. Cu toate acestea, există o caracteristică semnificativă în datele analizate - pot exista pacienți care au supraviețuit pe toată perioada de observație, iar la unii dintre ei boala este încă în remisie. Poate exista și un grup de pacienți cu care s-a pierdut contactul înainte de finalizarea experimentului (de exemplu, au fost transferați în alte clinici). Folosind metode standard de estimare a mediei, acest grup de pacienți ar trebui exclus, pierzând astfel informații importante care au fost colectate cu dificultate. În plus, cei mai mulți dintre acești pacienți sunt supraviețuitori (recuperați) în perioada în care au fost observați, ceea ce indică în favoarea unei noi metode de tratament (medicament). Acest tip de informații, atunci când nu există date privind apariția evenimentului care ne interesează, se numesc incomplete. Dacă există date despre apariția unui eveniment de interes pentru noi, atunci informațiile se numesc complete. Observațiile care conțin informații incomplete se numesc observații cenzurate. Observațiile cenzurate sunt tipice atunci când valoarea observată reprezintă timpul până când apare un eveniment critic, iar durata observației este limitată în timp. Utilizarea observațiilor cenzurate este specificul metodei luate în considerare – analiza supraviețuirii. ÎN aceasta metoda caracteristicile probabilistice ale intervalelor de timp dintre apariţiile succesive evenimente critice. Acest tip de cercetare se numeste analiza duratelor pana la momentul terminarii, care poate fi definita ca fiind intervalele de timp dintre inceperea observarii obiectului si momentul terminarii, la care obiectul inceteaza sa indeplineasca proprietatile specificate pentru observare. Scopul cercetării este de a determina probabilitățile condiționate asociate duratelor până la momentul încetării. Construirea tabelelor de viață, ajustarea distribuției de supraviețuire, estimarea funcției de supraviețuire folosind procedura Kaplan-Meier sunt metode descriptive pentru studierea datelor cenzurate. Unele dintre metodele propuse permit compararea supraviețuirii în două sau mai multe grupuri. În cele din urmă, analiza de supraviețuire conține modele de regresie pentru evaluarea relațiilor dintre variabilele continue multivariate cu valori similare duratelor de viață.
Modele generale de analiză discriminantă. Dacă nu sunt îndeplinite condițiile de aplicabilitate a analizei discriminante (DA) - variabilele independente (predictorii) trebuie măsurate cel puțin pe o scară de interval, distribuția lor trebuie să corespundă legii normale, este necesar să se folosească metoda modelelor generale de analiza discriminantă (GDA). Metoda este numită astfel deoarece utilizează modelul liniar general (GLM) pentru a analiza funcțiile discriminante. În acest modul, analiza funcției discriminante este tratată ca un model liniar multivariat general în care variabila dependentă categorială (răspunsul) este reprezentată de vectori cu coduri care denotă grupuri diferite pentru fiecare observație. Metoda ODA are o serie de avantaje semnificative față de analiza discriminantă clasică. De exemplu, nu există restricții cu privire la tipul de predictor utilizat (categoric sau continuu) sau la tipul de model care este definit, este posibilă selectarea în trepte a predictorilor și selectarea celui mai bun subset de predictori, dacă există un eșantion de validare încrucișată în fișierul de date, selecția celui mai bun subset de predictori se poate baza pe clasificarea greșită a acțiunilor pentru eșantionarea prin validare încrucișată etc.

Serii de timp. Seria temporală este cea mai intens dezvoltată, direcție promițătoare statistici matematice. O serie de timp (dinamică) este o succesiune de observații ale unui anumit atribut X (variabilă aleatoare) la momentele echidistante succesive t. Observațiile individuale se numesc niveluri ale seriei și sunt notate cu xt, t = 1, ..., n. Când se studiază o serie temporală, se disting mai multe componente:
x t \u003d u t + y t + c t + e t, t \u003d 1, ..., n,
unde u t este o tendință, o componentă care se schimbă fără probleme care descrie impactul net al factorilor pe termen lung (scăderea populației, scăderea veniturilor etc.); - componenta sezoniera, reflectand frecventa proceselor pe o perioada nu foarte lunga (zi, saptamana, luna etc.); сt este o componentă ciclică care reflectă frecvența proceselor pe perioade lungi de timp peste un an; t este o componentă aleatoare care reflectă influența factorilor aleatori care nu pot fi contabilizați și înregistrați. Primele trei componente sunt componente deterministe. Componenta aleatorie se formează ca urmare a suprapunerii unui număr mare factori externi, fiecare individual având o influență ușoară asupra modificării valorilor caracteristicii X. Analiza și studiul seriilor temporale vă permit să construiți modele pentru prezicerea valorilor caracteristicii X pentru viitor, dacă succesiunea de observațiile din trecut sunt cunoscute.

Rețele neuronale. Rețelele neuronale sunt un sistem de calcul, a cărui arhitectură este analogă cu construcția țesutului nervos din neuroni. Neuronii stratului cel mai de jos sunt alimentați cu valorile parametrilor de intrare, pe baza cărora trebuie luate anumite decizii. De exemplu, în conformitate cu valorile parametrilor clinici și de laborator ai pacientului, este necesar să-l atribuim unuia sau altuia în funcție de severitatea bolii. Aceste valori sunt percepute de rețea ca semnale care sunt transmise la stratul următor, slăbindu-se sau întărindu-se în funcție de valorile numerice (greutăți) atribuite conexiunilor interneuronale. Ca urmare, la ieșirea neuronului stratului superior este generată o anumită valoare, care este considerată un răspuns - răspunsul întregii rețele la parametrii de intrare. Pentru ca rețeaua să funcționeze, aceasta trebuie să fie „antrenată” (antrenată) pe date pentru care sunt cunoscute valorile parametrilor de intrare și răspunsurile corecte la aceștia. Învățarea constă în selectarea ponderilor conexiunilor interneuronale care oferă cele mai apropiate răspunsuri la răspunsurile corecte cunoscute. Rețelele neuronale pot fi folosite pentru a clasifica observațiile.

Planificarea experimentului. Arta de a aranja observațiile într-o anumită ordine sau de a face verificări special planificate utilizare deplină posibilitățile acestor metode și constituie conținutul subiectului „planificarea experimentului”. În prezent, metodele experimentale sunt utilizate pe scară largă atât în ​​știință, cât și în diverse domenii de activitate practică. De obicei, scopul principal al cercetării științifice este de a arăta semnificația statistică a efectului unui anumit factor asupra variabilei dependente studiate. De regulă, scopul principal al planificării experimentelor este extragerea cantității maxime de informații obiective despre influența factorilor aflați în studiu asupra indicatorului (variabila dependentă) de interes pentru cercetător folosind cel mai mic număr de observații costisitoare. Din păcate, în practică, în majoritatea cazurilor, nu se acordă suficientă atenție planificării cercetării. Ei colectează date (atât cât pot colecta), apoi efectuează procesări și analize statistice. Dar numai analiza statistică efectuată în mod corespunzător nu este suficientă pentru a obține validitatea științifică, deoarece calitatea oricărei informații obținute din analiza datelor depinde de calitatea datelor în sine. Prin urmare, proiectarea experimentelor este din ce în ce mai utilizată în cercetarea aplicată. Scopul metodelor de planificare a experimentelor este de a studia influența anumitor factori asupra procesului studiat și de a găsi nivelurile optime de factori care determină nivelul necesar de flux al acestui proces.

Carduri de control al calității. In conditii lumea modernă Problema calității nu numai a produselor manufacturate, ci și a serviciilor oferite populației este extrem de relevantă. Bunăstarea oricărei firme, organizații sau instituții depinde în mare măsură de soluționarea cu succes a acestei probleme importante. Calitatea produselor si serviciilor se formeaza in procesul de cercetare stiintifica, proiectare si dezvoltare tehnologica, si este asigurata de o buna organizare a productiei si serviciilor. Dar fabricarea produselor și prestarea serviciilor, indiferent de tipul lor, este întotdeauna asociată cu o anumită variabilitate a condițiilor de producție și prestare. Acest lucru duce la o oarecare variabilitate în caracteristicile calității lor. Prin urmare, problemele dezvoltării metodelor de control al calității care vor permite detectarea în timp util a semnelor de încălcare sunt relevante. proces tehnologic sau furnizarea de servicii. Totodată, pentru atingerea și menținerea unui nivel ridicat de calitate care să mulțumească consumatorul, sunt necesare metode care să vizeze nu eliminarea defectelor produselor finite și a neconcordanțelor în servicii, ci prevenirea și anticiparea cauzelor apariției acestora. Diagrama de control este un instrument care vă permite să urmăriți progresul procesului și să îl influențați (folosind programul corespunzător părere), prevenind abaterile acestuia de la cerintele prezentate procesului. Instrumentul grafic de control al calității folosește pe scară largă metodele statistice bazate pe teoria probabilității și statisticile matematice. Utilizarea metodelor statistice face posibilă, cu volume limitate de produse analizate, să se judece starea calității produselor cu un anumit grad de acuratețe și fiabilitate. Oferă previzionarea, reglarea optimă a problemelor din domeniul calității, luând deciziile corecte de management nu pe baza intuiției, ci cu ajutorul studiului științific și al identificării tiparelor în rețelele acumulate de informații numerice. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>

10.2. Exploatarea datelor ( Date Minerit )

Sfera regularităților diferă de cele două anterioare prin faptul că informațiile acumulate în ea sunt generalizate automat la informații, care poate fi caracterizat CA CUNOAȘTERE.

Tehnologia data mining (DM) și-a luat locul în ultimul deceniu, câștigând un rol central în multe domenii de afaceri.

    Cu toții suntem supuși aplicațiilor Data Mining de zeci de ori pe zi - de la primirea de liste de corespondență, concursuri în magazine, ziare gratuite pe stradăși terminând cu aplicația algoritmi de detectare a fraudei, analizând orice achiziție prin card de credit .

    Motivul pentru utilizarea pe scară largă a metodelor de data mining: dau rezultate bune. Tehnologia poate crește semnificativ capacitatea unei organizații de a-și atinge obiectivele.

    Popularitatea sa crește pe măsură ce instrumentele se îmbunătățesc, devin utilizate pe scară largă, mai ieftin și mai ușor de utilizat.

Există doi termeni traduși ca data mining (DIA) - aceștia sunt Knowledge Discovery in Databases (KDD) și Data Mining (DM).

Exploatarea datelor este procesul de căutare date neprelucrate 1) corelații, tendințe, relații, asocieri și tipare prin diverși 2) algoritmi matematici și statistici.

    Majoritatea metodelor IAD au fost dezvoltate inițial în cadrul teoriei inteligenței artificiale în anii 1970-1080. Dar s-au răspândit abia în anii 1990, când problema intelectualizării procesării unor volume mari și în creștere rapidă de date corporative a impus utilizarea lor ca supliment pentru depozitele de date.

Scopul acestei căutări(etapele IAD) –

        1) Pregătiți datele într-un mod care să reflecte în mod clar procesele de afaceri.

        2) Construiți modele care să poată fi utilizate pentru a prezice procesele care sunt critice pentru planificarea afacerii:

        • (2a) efectuează validarea și evaluarea modelului;

        3) Efectuați analiza datelor istorice pentru luarea deciziilor:

        • (3a) alegerea și aplicarea modelului;

          (3b) corectarea și actualizarea modelelor.

Clasificarea sarcinilor IAD pe tipuri de informații extrase

În cele mai multe cazuri clasificarea sarcinilor IAD se realizează în funcție de tipurile de informații produse. Sarcinile (modelele) de Data Mining sunt împărțite în 2 clase:

    (1) modele predictive cu ajutorul lor predicția valorilor atributelor numerice.

    (2) modele descriptive (descriptive)., care descriu tipare generale domeniul subiectului.

Cel mai strălucit reprezentant al primei clase este sarcina de clasificare.

1. Clasificare- aceasta este identificarea semnelor, un set de reguli care caracterizează grupul.

Cea mai comună sarcină a IAD. Permite identifica trăsăturile care caracterizează grupuri similare de obiecte(clasele), astfel încât valorile cunoscute ale acestor caracteristici să poată fi atribuite unui obiect nou unei clase.

    Un caz de utilizare tipic pentru clasificare - concurenţa între furnizorii de bunuri şi servicii pentru anumite grupuri de clienţi. Clasificarea poate ajuta la identificarea caracteristicilor clienților instabili care sunt înclinați să treacă la alt furnizor, ceea ce vă permite să găsiți cea mai bună strategie pentru a-i feri de acest pas (prin acordarea de reduceri, beneficii sau chiar prin lucru individual cu reprezentanții „grupurilor de risc” ).

Cu ajutorul modelului de clasificare sunt rezolvate următoarele sarcini:

    dacă noul client aparține uneia din setul de clase existente;

    dacă un anumit curs de tratament este potrivit pentru pacient;

    identificarea grupurilor de clienți nesiguri;

    identificarea grupurilor de clienți cărora ar trebui trimis noul catalog de produse.

Ca metode de rezolvare a problemei de clasificare se pot folosi următoarele:

      Algoritmi de învățare lenenă, inclusiv algoritmii de vecin cel mai apropiat bine-cunoscut (cel mai apropiat vecin) și k-cel mai apropiat vecin (k-cel mai apropiat vecin),

      Rețele bayesiene sau rețele neuronale.

      clasificare folosind arbori de decizie;

      clasificare după mașină vector suport;

      metode statistice, în special, regresia liniară;

      clasificare prin metoda CBR;

      clasificare folosind algoritmi genetici.

Pentru a efectua clasificarea folosind metode matematice, este necesar să aveți descrierea formală a obiectului, care poate fi operat cu ajutorul aparatului matematic de clasificare. Această descriere este de obicei Bază de date. Fiecare obiect (înregistrarea bazei de date) poartă informații despre o anumită proprietate a obiectului. Setul de date inițiale este împărțit în două seturi: antrenament și testare.

        Set de antrenament (Instruirea stabilit) - un set care include datele folosite pentru a antrena (construi) modelul.

        Test (Testa stabilit) o multime de folosit pentru a testa performanța modelului.

Împărțirea în seturi de antrenament și de testare se realizează prin împărțirea eșantionului într-o anumită proporție, de exemplu, setul de antrenament este două treimi din date și setul de testare este o treime din date.. Această metodă ar trebui utilizată pentru selecții cu un număr mare de exemple. Dacă eșantionul are volume mici, se recomandă utilizarea unor metode speciale, atunci când se folosesc probele de antrenament și de testare se pot suprapune parțial.

Procesul de clasificare constă în două etape: construcția modelului și utilizarea acestuia.

    Construcția modelului: descrierea setului de clase predefinite.

Fiecare exemplu de set de date aparține unei clase predefinite.

În această etapă, se utilizează setul de antrenament, iar modelul este construit pe acesta. Modelul rezultat este reprezentat de reguli de clasificare, un arbore de decizie sau o formulă matematică.

    Utilizarea modelului: Clasificați valorile noi sau necunoscute.

Evaluarea corectitudinii (acurateții) modelului.

        A) Valorile cunoscute din cazul de testare sunt comparate cu rezultatele utilizării modelului rezultat.

        B) Nivel de acuratețe - procentul de exemple clasificate corect în setul de testare.

        C) Set de testare, adică setul pe care este testat modelul construit nu trebuie să depindă de setul de antrenament.

Dacă precizia rezultată a modelului este acceptabilă, este posibil să se utilizeze modelul pentru a clasifica noi exemple a căror clasă este necunoscută.

Acuratețea clasificării: Estimarea nivelului de eroare

Precizia clasificării poate fi evaluată prin validare încrucișată. Validare încrucișată este o procedură de evaluare a acurateței clasificării asupra datelor dintr-un set de testare, care se mai numește și set de validare încrucișată. Precizia de clasificare a setului de testare este comparată cu precizia de clasificare a setului de antrenament. Dacă clasificarea setului de testare dă aproximativ aceleași rezultate în ceea ce privește precizia ca și clasificarea setului de antrenament, atunci modelul este considerat a fi validat încrucișat.

Cei mai străluciți reprezentanți ai clasei a doua sunt probleme de grupare, asociere, succesiune etc.

Orez. Compararea problemelor de clasificare și clustering

2. Clustering- Acest selectarea unor grupuri omogene de date.

Continuă logic ideea de clasificare în cazul mai complicat este atunci când clasele în sine nu sunt predefinite. Rezultatul utilizării metodei care realizează clustering este tocmai definirea (prin intermediul căutării libere) a împărțirii în grupuri inerente datelor studiate.

    În exemplul de mai sus„grupuri de risc” – categorii de clienți care sunt gata să plece la alt furnizor - mijloacele de grupare pot fi determinate înainte de începerea procesului de îngrijire, ceea ce va permite mai degrabă prevenirea problemei decât o corectare de urgență a situației.

Ca metode utilizate - formarea „fără profesor” a unui tip special de rețele neuronale - rețele Kohonen, precum și inducerea regulilor .

Clusteringul este conceput pentru a împărți un set de obiecte în grupuri omogene (clustere sau clase). Dacă datele eșantionului sunt prezentate ca puncte în spațiul caracteristicilor, atunci problema grupării se reduce la definiția „clusterelor de puncte”.

Scopul grupării este de a căuta structuri existente. Clusteringul este o procedură descriptivă, nu face inferențe statistice, dar face posibilă efectuarea unei analize exploratorii și studierea „structurii datelor”.

Însuși conceptul de „cluster” este definit ambiguu: fiecare studiu are propriile „clustere”. Conceptul de cluster (cluster) este tradus ca „cluster”, „buch”.

Un cluster poate fi descris ca un grup de obiecte care au proprietăți comune.

Există două caracteristici ale unui cluster:

        omogenitate internă;

        izolare externă.

Clusterele pot fi nesuprapune sau exclusiv (nesuprapunere, exclusivă) și intersectare (suprapunere).

Evaluarea calității grupării poate fi efectuată pe baza următoarelor proceduri:

    verificare manuală;

    stabilirea punctelor de control și verificarea pe clusterele rezultate;

    determinarea stabilității grupării prin adăugarea de noi variabile la model;

    crearea și compararea clusterelor folosind diverse metode. Metode diverse clustering-ul poate crea diferite clustere, iar acesta este un fenomen normal. Cu toate acestea, crearea de clustere similare diverse metode indică gruparea corectă.

Analiza clusterelor în cercetarea de marketing

În cercetarea de marketing, analiza cluster este folosită destul de larg – atât în ​​cercetarea teoretică, cât și de către specialiștii în marketing care rezolvă problemele grupării diverselor obiecte. În același timp, se rezolvă întrebările despre grupuri de clienți, produse etc.

Una dintre cele mai importante sarcini în aplicarea analizei cluster în cercetarea de marketing este analiza comportamentului consumatorului, și anume:

    gruparea consumatorilor în clase omogene pentru a obține imaginea cât mai completă a comportamentului clientului din fiecare grup și a factorilor care influențează comportamentul acestuia.

O sarcină importantă pe care o poate rezolva analiza cluster este poziționarea, adică. determinarea nisei in care ar trebui pozitionat noul produs oferite pe piata. Ca rezultat al aplicării analizei cluster, este construită o hartă care poate fi utilizată pentru a determina nivelul concurenței pe diferite segmente de piațăși caracteristicile relevante ale produsului pentru posibilitatea de a intra în acest segment. Analizând o astfel de hartă, este posibil identificarea unor nișe noi, neocupate de pe piață unde puteți oferi produse existente sau puteți dezvolta altele noi.

Analiza clusterului poate fi, de asemenea, utilă, de exemplu, pentru a analiza clienții companiei. Pentru a face acest lucru, toți clienții sunt grupați în clustere și este dezvoltată o politică individuală pentru fiecare cluster. Această abordare vă permite să reduceți semnificativ obiectele de analiză și, în același timp, să abordați fiecare grup de clienți în mod individual.

3. Regulile de asociere– căutați evenimente conexe.

O asociere nu este definită pe baza valorilor proprietăților unui singur obiect sau eveniment, dar are loc între două sau mai multe evenimente simultane. În același timp, regulile produse indică faptul că atunci când are loc un eveniment, altul are loc cu diferite grade de probabilitate. Cantitativ, puterea de asociere este determinată de mai multe mărimi; de exemplu, pot fi utilizate următoarele trei caracteristici:

    A) predictibilitate) determină cât de des apar evenimentele X și Y împreună, ca procent din numărul total de evenimente X;

Deci, în cazul achiziționării unui televizor (X), un VCR este cumpărat în același timp în 65% din cazuri (Y);

    b) prevalență (prevalență) arată cât de des apare apariția simultană a evenimentelor X și Y în raport cu numărul total de momente ale evenimentelor înregistrate;

Cu alte cuvinte, cât de des este achiziționarea simultană a unui televizor și VCR între toate achizițiile efectuate;

    c) predictibilitatea aşteptată arată predictibilitatea care s-ar fi dezvoltat în absența unei relații între evenimente;

De exemplu, cât de des ar fi cumpărat un VCR, indiferent dacă a fost cumpărat un televizor.

4. Detectarea secvenței– căutarea lanțurilor de evenimente conectate în timp.

La fel ca asocierile, secvențele au loc între evenimente, dar nu au loc simultan, ci cu o anumită pauză în timp. Astfel, o asociere este un caz special al unei secvențe cu decalaj de timp zero.

Dacă VCR-ul nu a fost achiziționat împreună cu televizorul, atunci în termen de o lună de la achiziționarea unui nou televizor, achiziționarea unui VCR se face în 51% din cazuri.

5. Prognoza– o încercare de a găsi modele care să reflecte în mod adecvat dinamica comportamentului sistemului, de ex. predicția comportamentului sistemului în viitor pe baza informațiilor istorice .

O formă de predicție care, pe baza comportamentului datelor actuale și istorice, estimează valorile viitoare ale anumitor indicatori numerici.

În probleme de acest tip, metodele tradiționale de statistică matematică, precum și rețelele neuronale, sunt cel mai des folosite.

Prognoza (din grecescul Prognosis),în sensul cel mai larg al cuvântului, este definită ca o reflectare principală a viitorului. Scopul prognozei este de a prezice evenimente viitoare.

Rezolvarea problemei de prognoză se reduce la rezolvarea următoarelor subsarcini:

    alegerea modelului de prognoză;

    analiza adecvării și acurateței prognozei construite.

Sarcini de clasificare și prognoză - asemănări și diferențe.

Deci, care este asemănarea dintre problemele de prognoză și de clasificare??

Ambele probleme folosesc un proces în doi pași de construire a unui model din setul de antrenament și de utilizare pentru a prezice valori necunoscute ale variabilei dependente.

Diferența dintre problemele de clasificare și de prognoză constă în faptul că în prima sarcină este prezisă clasa variabilei dependente, iar în a doua - valorile numerice ale variabilei dependente, omise sau necunoscute (aferente viitorului).

De exemplu, luând în considerare o agenție de turism, determinarea clasei unui client este soluția problemei de clasificare, iar estimarea veniturilor pe care acest client le va aduce în anul următor va fi soluția problemei de predicție.

Baza prognozei este informațiile istorice stocate în baza de date în formular serii de timp.

Două diferențe fundamentale între o serie de timp și o succesiune simplă de observații:

    Membrii unei serii cronologice, spre deosebire de membrii unui eșantion aleatoriu, nu sunt independente statistic.

    Membrii seriilor temporale nu sunt distribuite în mod egal.

Tendință, sezonalitate și ciclu

Principalele componente ale seriei temporale sunt tendința și componenta sezonieră.

O tendință este o componentă sistematică a unei serii de timp care se poate modifica în timp. O tendință este o funcție non-aleatorie, care se formează sub influența tendințelor generale sau pe termen lung care afectează seriile de timp.

Componenta sezonieră a unei serii de timp este o componentă care se repetă periodic a serii de timp. Proprietatea de sezonalitate înseamnă că la intervale de timp aproximativ egale forma curbei care descrie comportamentul variabilei dependente își repetă forma caracteristică.

Proprietatea de sezonalitate este importantă în determinarea cantității de date istorice care trebuie utilizate pentru prognoză.

Este important să nu confundați conceptele componentei sezoniere a seriei și anotimpurile naturii.. În ciuda gradului de apropiere a sunetului lor, aceste concepte diferă. Așa că, de exemplu, vânzările de înghețată vara sunt mult mai mari decât în ​​alte sezoane, dar aceasta este o tendință în cerere pentru acest produs!!!

Fragment din seria temporală pentru perioada sezonieră

Fragment din seria temporală pentru 12 perioade sezoniere

Perioada de prognoză- unitatea de bază de timp pentru care se face prognoza.

    De exemplu, vrem să știm veniturile companiei într-o lună. Perioada de prognoză pentru această sarcină este de o lună.

Orizontul prognozei este numărul de perioade din viitor pe care le acoperă prognoza.

    Dacă prognoza este cu 12 luni înainte, cu date pentru fiecare lună, atunci perioada de prognoză în această problemă este o lună, orizontul de prognoză este de 12 luni.

Interval de predicție- frecventa cu care se face o noua prognoza.

    Intervalul de predicție poate fi același cu perioada de predicție.

Precizia prognozei este caracterizată de eroare de prognoză.

Cele mai frecvente tipuri de erori:

    Eroare medie (SD). Se calculează prin simpla medie a erorilor la fiecare pas. Dezavantajul acestui tip de eroare este că erorile pozitive și negative se anulează reciproc.

    Eroare absolută medie (MAE). Se calculează ca medie a erorilor absolute. Dacă este egal cu zero, atunci avem o prognoză perfectă. În comparație cu eroarea standard, această măsură „nu acordă prea multă importanță” valorii aberante.

    Suma erorilor pătratice (SSE), eroarea pătratică medie. Se calculează ca suma (sau media) erorilor pătrate. Aceasta este cea mai utilizată măsură de precizie a prognozei.

    Eroare relativă (RO). Măsurile anterioare au folosit valori reale de eroare. Eroarea relativă exprimă calitatea potrivirii în termeni de erori relative.

6. Anomalii– detectarea valorilor anormale în date.

Identificarea lor face posibilă identificarea - 1) erori în date, 2) apariția unui nou model necunoscut anterior sau 3) clarificarea modelelor cunoscute.

Acasă > Prelegere

Subiectul 7.ANALIZA CLASIFICARE

Prelegerea nr. 9

1. Analiza exploratorie a datelor. Cântare de măsurare

2. Arbori de clasificare

3. Analiză discriminantă (clasificare instruită)

4. Analiza cluster (clasificare fără pregătire)

5. Corelații canonice

1. Analiza exploratorie a datelor. Cântare de măsurare

În prezența unui număr mare de variabile și a absenței informațiilor despre relații și tipare, una dintre primele etape în analiza datelor disponibile este așa-numita analiză exploratorie a datelor. De regulă, analiza exploratorie ia în considerare și compară un număr mare de variabile, iar pentru căutarea, clasificarea și scalarea variabilelor se efectuează. Variabilele diferă în ceea ce privește cât de bine pot fi măsurate sau, cu alte cuvinte, cât de multe informații măsurabile oferă scala lor de măsurare. Un alt factor care determină cantitatea de informații este tipul de scară pe care se face măsurarea. De obicei se folosesc următoarele tipuri de scale de măsurare: nominală, ordinală, intervalală și relativă. Variabile nominale folosit doar pentru clasificarea calitativă. Aceasta înseamnă că aceste variabile pot fi măsurate doar în ceea ce privește apartenența la niște clase semnificativ diferite. Un exemplu tipic de variabile nominale este producătorul, tipul de produs, semnul adecvării acestuia etc. Adesea variabilele nominale sunt numite categorice. Variabile ordinale permite ierarhizarea obiectelor, dacă se indică care dintre ele au calitatea exprimată de această variabilă într-o măsură mai mare sau mai mică. Cu toate acestea, ele nu permit cuiva să judece cât de mult sau cât mai puțin dintr-o anumită calitate este conținută într-o variabilă. Un exemplu tipic este sortarea mărfurilor: cel mai mare, primul, al doilea, al treilea. Același produs diferă calitativ, dar este imposibil de spus că diferența dintre ele este de 25%. Variabilele categoriale și ordinale sunt deosebit de frecvente atunci când se pune întrebări, de exemplu, se schimbă și se compară diferențele dintre ele. Un exemplu - temperatura, măsurată în grade, formează o scară de interval, deoarece este posibil să se evalueze diferența de variabile deja sub formă numerică (40 de grade mai mult de 30 cu 10). Scala intervalului poate fi tradusă cu ușurință într-o scară ordinală dacă luăm unele valori ale variabilelor ca limite ale diferitelor clase (de exemplu, este cald sau cald afară timp de o lună, luând granița dintre clasele „cald” și „fierbinte” în valoarea variabilei, dar caracteristica lor este prezența unui anumit punct zero absolut. De regulă, acestea sunt variabile continue. 2. Arbori de clasificare Arbori de clasificare este o metodă care permite prezicerea apartenenței unor observații sau obiecte la una sau la alta clasă a unei variabile dependente categorice, în funcție de valorile corespunzătoare ale uneia sau mai multor variabile predictoare. Clădire arbori de clasificare- unul dintre dispozitivele ierarhice de sortare a monedelor. Să facem monedele să se rostogolească de-a lungul unui jgheab îngust, în care este tăiată o fantă de dimensiunea unei monede de un copeck. Dacă moneda a căzut în slot, atunci acesta este 1 copeck; în caz contrar, continuă să se rostogolească mai departe de-a lungul jgheabului și dă peste un slot pentru o monedă de doi copecii; dacă eșuează acolo, atunci sunt 2 copeici, dacă nu (ceea ce înseamnă că sunt 3 sau 5 copeici), se va rostogoli mai departe și așa mai departe. Astfel, am construit un arbore de clasificare. regula de decizie, implementat în acest arbore de clasificare, permite sortarea eficientă a unui număr mic de monede și este, în general, aplicabil unei game largi de probleme de clasificare. Arborii de clasificare sunt ideali pentru reprezentarea grafică și, prin urmare, concluziile desprinse din ei sunt mult mai ușor de interpretat decât dacă ar fi prezentate doar în formă numerică. Structura ierarhica arborele de clasificare- unul din procesul de construire arborele de clasificare constă din patru pași principali:

    Selectarea criteriului de precizie a prognozei

    Selectarea tipului de ramură

    Stabilirea când să se oprească ramificarea

    Determinarea dimensiunilor „adecvate” a arborelui

În cele din urmă, scopul analizei cu arbori de clasificare este de a obține cea mai precisă predicție posibilă. Cele mai multe clasificări.

3. Analiză discriminantă (clasificare instruită)

Analiza discriminantă este utilizată pentru a decide cărei clase (grup) să îi atribuiți acest sau acel obiect (proces) pe baza studiului parametrilor sau caracteristicilor acestuia.) a produsului, iar sarcina este de a stabili care dintre parametri contribuie la diferență ( discriminare) între agregate (grade) de bunuri grupate separat care formează populația generală. După aceea, se ia o decizie dacă acest produs aparține unui anumit grup. Prin urmare, acest tip de analiză statistică este multivariată, iar ideea principală a analizei discriminante este de a determina dacă populațiile diferă în media unui parametru (variabilă) și apoi de a utiliza această variabilă pentru a prezice noi membri ai domeniilor lor. Fiecare dintre zone diferă de cealaltă prin valoarea unui anumit parametru (sau mai degrabă prin valoarea mediei acestuia) sau prin seturi de parametri luați ca caracteristică de clasificare. Regula discriminării se alege conform un anumit principiu optimitatea, de exemplu, probabilitatea minimă de clasificare falsă. În calculele practice, diferențele trec de la vectorul trăsăturilor la o funcție liniară (funcția discriminantă), care pentru două grupuri (clase) are forma unei ecuații de regresie multiplă liniară, în care trăsăturile codificate ale diferențelor în grupuri acționează ca dependente. variabile. Dacă există mai mult de două grupuri, atunci pot fi compuse mai multe funcții discriminante. De exemplu, atunci când există trei populații, se pot evalua: (1) - Caracteristica pentru sensul discriminării este foarte asemănătoare cu analiza multivariată a varianței. Când se obțin funcții discriminante, se pune întrebarea cât de bine pot ele prezice, cărei populații îi aparține un anumit eșantion? Pentru aceasta se determină indicatori de clasificare sau funcții de clasificare și se atribuie următoarea observație sau un eșantion specific grupului pentru care grupul de clasificare are cea mai mare valoare. 4. Analiza cluster (clasificare fără pregătire) Analiza cluster este o metodă statistică care include un set de diverși algoritmi, pentru distribuirea obiectelor în clustere (cluster - bunch, cluster). Partiționarea obiectelor H într-un număr întreg de clustere K, astfel încât fiecare obiect să aparțină unuia și numai unui subset al partiției. În același timp, obiectele aparținând aceluiași cluster trebuie să fie similare, iar obiectele aparținând unor clustere diferite trebuie să fie eterogene. Soluția problemei analizei cluster sunt partițiile care îndeplinesc criteriul optimității. Acest criteriu se numește funcție obiectiv, care, de exemplu, poate fi minimul sumei abaterilor pătrate ale caracteristicilor obiectelor grupului de la valoarea medie.

min Σ(x i – x cf) 2

Asemănarea și eterogenitatea obiectelor în grupuri vor fi caracterizate de o anumită valoare, care a primit numele - funcția de distanță. Cu cât funcția de distanță dintre obiecte este mai mare, cu atât acestea sunt mai eterogene. Este clar că dacă această funcție depășește o anumită limită, atunci obiectele ar trebui să fie atribuite diferitelor grupuri (clustere). În funcție de algoritmul de clustering utilizat, se disting următoarele funcții de distanță: - metrica euclidiană (Σx i – xj) 2) 1/2 ; - distanta Manhattan Σ|x i – x j |; - distanța Chebyshev max|x i – x j | etc. sunt considerate ca clustere separate. În plus, la fiecare pas al algoritmului, cele două grupuri cele mai apropiate sunt combinate și, ținând cont de funcția de distanță adoptată, toate distanțele sunt recalculate conform formulei. Când funcția obiectiv este atinsă, iterațiile se opresc. 5. Corelații canonice Analiza clasică de corelație vă permite să găsiți relații statistice între două variabile, așa-numitele seturi duale de variabile folosesc metodele analizei canonice. Analiza canonică, fiind o generalizare a corelației multiple ca măsură a conexiunii dintre o variabilă aleatoare și multe alte variabile aleatoare, are în vedere conexiunile dintre seturi de variabile aleatoare. În același timp, se limitează la a lua în considerare un număr mic de combinații liniare cele mai corelate din fiecare set. Analiza corelației canonice se bazează pe utilizarea rădăcinilor canonice sau a variabilelor canonice, care sunt considerate variabile „ascunse” care caracterizează fenomenele observate. Numărul de rădăcini canonice este egal cu numărul de variabile din mulțimea mai mică. În practică, la determinarea corelației canonice, se construiește o matrice de corelație separată, care este produsul matricelor de corelație standard care caracterizează dependențele dintre două variabile individuale. Apoi, se calculează atâtea valori proprii ale matricei rezultate câte rădăcini canonice există. Dacă luăm rădăcina pătrată a valorilor proprii obținute, obținem un set de numere care pot fi interpretate ca coeficienți de corelație. Deoarece sunt variabile canonice, ele sunt numite și corelații canonice. Lucrările de analiză discriminantă, cluster și canonică ar trebui evaluate folosind pachete statistice speciale care implementează acești algoritmi pe un computer.

Prevederi derivate din pur
mijloace logice, la comparare
cu realitatea rezulta
complet gol.
A. Einstein

Cum se analizează și clasifică corect datele? De ce avem nevoie de grafice și diagrame?

Lecția de atelier

Scopul lucrării. Învață să clasifice și să analizeze datele obținute din text.

Plan de muncă. 1. Analizați textul pentru a determina proprietățile esențiale ale subiectului la care se face referire. 2. Structurarea conținutului textului pentru a evidenția clasele de obiecte despre care se discută. 3. Înțelegerea rolului diagramelor logice, graficelor, diagramelor pentru înțelegerea materialului studiat, stabilirea legăturilor logice, sistematizarea.

Analizați textul. Pentru a face acest lucru, trebuie să definiți mental subiectul în text - esențial. Selectați, împărțiți-l în părțile sale componente pentru a găsi elemente individuale, semne, aspecte ale acestui subiect.

Ivan Kramskoy. D. I. Mendeleev

Ale cui portrete ale oamenilor de știință sistematizați le-ați adăuga la această serie?

PORTRET AL FULGERULUI BILULUI. „Un portret al unui fenomen natural misterios - fulgerul cu minge a fost realizat de specialiștii de la principalul observator geofizic care poartă numele. A. I. Voeikov, folosind serviciile unui calculator și., Metode criminalistice. Schița străinului misterios a fost întocmită pe baza datelor publicate în presă de-a lungul a trei secole, a rezultatelor anchetelor de cercetare și a rapoartelor de la martori oculari din diferite țări.

Ce secrete le-a spus oamenilor de știință cheagul de energie în creștere?

observă-l în majoritatea cazurilorîn timpul furtunilor. În orice moment au existat patru forme de fulger cu bile: sferă, ovală, disc, tijă. Generarea de electricitate atmosferică, în mod natural, a apărut în mare parte în aer. Cu toate acestea, conform sondajelor americane, fulgerele pot fi văzute cu frecvență egală și așezate pe diverse obiecte - stâlpi de telegraf, copaci, case. Dimensiunile uimitorului însoțitor al furtunilor sunt de la 15 la 40 cm. Culoare? Trei sferturi dintre martorii oculari au urmărit bilele strălucitoare de roșu, galben și roz.

Viața unui cheag de plasmă electrică este cu adevărat o molie, de regulă, în cinci secunde. Mai lungă decât această perioadă, dar nu mai mult de 30 de secunde, a fost văzută de până la 36% dintre martorii oculari. Aproape întotdeauna, moartea ei a fost aceeași - ea a explodat în mod spontan, ciocnind uneori de diverse obstacole. „Portretele colective” realizate de observatori din timpuri și popoare diferite au coincis.

Dacă, după ce ai citit textul, ai reușit să răspunzi la întrebările despre ce spune textul, care sunt principalele trăsături, elemente, laturi, proprietăți ale subiectului raționamentului, atunci l-ai analizat. În acest caz, subiectul, conținutul principal al textului este ideea fulgerului cu minge. Proprietățile fulgerului cu minge - sale aspect: dimensiune, formă, culoare, precum și durata de viață, caracteristici comportamentale.

Pe baza analizei textului, determinați structura lui logică. Sugerați forme de lucru cu acest text pentru asimilarea, memorarea lui, folosiți-l ca material interesant, neobișnuit în activitatea dumneavoastră educațională ulterioară - în discuții, discursuri.

CHEIE. Puteți întocmi un plan pentru acest text, rezumatul lui, teze (generalizări și concluzii pe care le considerați a fi principalele gânduri ale textului). Este util să evidențiezi ceea ce este nou pentru tine, necunoscut în material. De asemenea, puteți crea o diagramă logică a materialului. Pentru a face acest lucru, după ce ați analizat textul, evidențiați informațiile care sunt semnificative pentru dvs., încercați să le combinați în grupuri, arătați legăturile dintre aceste grupuri.

Utilizarea tabelelor, graficelor, diagramelor ne ajută să organizăm studiul disciplinelor de științe naturale. Să presupunem că avem date despre temperaturile medii lunare zilnice pentru un an pentru Sankt Petersburg și Soci. Este necesară analizarea și sistematizarea acestui material pentru a identifica orice tipare.

Să prezentăm un set de date disparate sub forma unui tabel, apoi sub forma unui grafic și diagramă (Fig. 5, 6). Găsiți modele în distribuția temperaturii. Răspunde la întrebările:

  1. Care sunt caracteristicile distribuției temperaturii pe luni în diferite orașe? Cum diferă aceste distribuții?
  2. Care este motivul proceselor care duc la o astfel de distribuție?
  3. Sistematizarea materialului cu ajutorul unui grafic, diagramă v-a ajutat să finalizați sarcina?

Temperaturile medii lunare zilnice timp de un an pentru Sankt Petersburg și Soci

Orez. 5. Graficul cursului temperaturilor medii lunare zilnice timp de un an pentru Sankt Petersburg și Soci

Orez. 6. Diagrama: temperaturi medii lunare zilnice timp de un an în orașele Sankt Petersburg și Soci

Pașii importanți pentru stăpânirea metodelor de cunoaștere științifică sunt:

  1. Analiza logică a textului.
  2. Întocmirea unui plan, diagrame, evidențierea structurii materialului.
  3. Notarea textului sau redactarea tezelor.
  4. Izolarea noilor cunoștințe și utilizarea lor în discuții, discursuri, în rezolvarea de noi sarcini și probleme.

Literatură pentru lectură suplimentară

  1. Einstein A. Fără formule / A. Einstein; comp. K. Kedrov; pe. din engleza. - M.: Gând. 2003.
  2. Metodologia științei și progresul științific. - Novosibirsk: Știință. 1981.
  3. Feirabend P. Lucrări alese despre metodologia științei / P. Feirabend. - M.: Progres, 1986

Deși „procesul de analiză a informațiilor” este mai mult termen tehnic, dar conținutul său este asociat în proporție de 90% cu activitățile umane.

Înțelegerea nevoilor din centrul oricărei sarcini de analiză a informațiilor este strâns legată de înțelegerea afacerii companiei. Colectarea datelor din surse adecvate necesită experiență în colectarea datelor, indiferent cât de automat ar fi procesul final de colectare a datelor. Sunt necesare cunoștințe aprofundate ale proceselor de afaceri și abilități de consultanță pentru a transforma datele colectate în perspective și pentru a le aplica efectiv în practică.

Procesul de analiză a informațiilor este un flux ciclic de evenimente care începe cu o analiză a nevoilor din zona luată în considerare. Urmează colectarea informațiilor din surse secundare și (sau) primare, analiza acesteia și pregătirea unui raport pentru factorii de decizie care le vor folosi, precum și oferirea feedback-ului și pregătirea propunerilor.

La nivel internațional, procesul de analiză a informațiilor se caracterizează astfel:

  • În primul rând, pașii de decizie sunt definiți în procesele cheie de afaceri și mapați la rezultatele standard ale analizei informațiilor.
  • Procesul de analiză a informațiilor începe cu o evaluare a nevoilor la nivel internațional, adică cu identificarea viitoarelor nevoi decizionale și verificarea acestora.
  • Etapa de colectare a informațiilor este automatizată, ceea ce vă permite să alocați timp și resurse pentru analiza primară a informațiilor și, în consecință, să creșteți valoarea informațiilor secundare existente.
  • O parte semnificativă din timp și resurse este cheltuită pentru analiza informațiilor, concluzii și interpretare.
  • Perspectivele rezultate sunt comunicate fiecărui factor de decizie în individual urmărirea procesului de utilizare ulterioară a acestuia.
  • Membrii grupului de analiză a informațiilor au o mentalitate pentru îmbunătățirea continuă.

Introducere: ciclul de analiză a informaţiei

Termenul „proces de analiză a informațiilor” se referă la un proces continuu, iterativ, care începe cu identificarea nevoilor de informații ale factorilor de decizie și se termină cu furnizarea cantității de informații care satisface aceste nevoi. În acest sens, este necesar să se facă imediat distincția între cantitatea de informații și procesul de analiză a informațiilor. Definirea domeniului de aplicare a informațiilor are ca scop identificarea scopurilor și nevoilor pentru resurse informaționale pentru întregul program de analiză a informațiilor, în timp ce procesul de analiză a informațiilor începe cu identificarea nevoilor pentru unul, chiar dacă nesemnificativ, rezultat final al unei astfel de analize.

Procesul de analiză a informațiilor ar trebui să fie întotdeauna legat de procesele existente în companie, adică planificare strategica vanzari, marketing sau management de produs pentru care vor fi folosite aceste informatii. În practică, utilizarea informațiilor obținute la ieșire ar trebui fie să fie direct legată de situațiile de luare a deciziilor, fie astfel de informații ar trebui să contribuie la creșterea nivelului de conștientizare a organizației în acele domenii de activitate operațională care sunt legate de diferite procese de afaceri. .

Pe fig. 1 prezintă etapele procesului ciclic de analiză a informațiilor (pentru mai multe detalii, vezi mai jos). La rândul său, partea dreaptă a diagramei arată rezultatele specifice ale procesului de analiză a informațiilor, atunci când deciziile sunt luate pe baza cercetării generale de piață și rezultatele procesului de analiză a informațiilor legate direct de diferite procese și proiecte de afaceri.

Click pe imagine pentru a o mari

Ciclul de analiză a informațiilor constă din șase etape. Al lor descriere detaliata de mai jos.

1. Analiza nevoilor

O evaluare amănunțită a nevoilor vă permite să determinați obiectivele și domeniul de aplicare al sarcinii de analiză a informațiilor. Chiar dacă cei care îndeplinesc o astfel de sarcină vor colecta informații pentru uzul propriu, este logic să identificăm în mod clar direcțiile cheie în rezolvarea acestei sarcini pentru a concentra resursele în zonele cele mai adecvate. Cu toate acestea, în marea majoritate a cazurilor, cei care efectuează cercetări nu sunt utilizatorii finali ai rezultatelor acesteia. Prin urmare, ei trebuie să înțeleagă pe deplin pentru ce vor fi utilizate rezultatele finale, pentru a exclude colectarea și analiza datelor care ar putea fi în cele din urmă irelevante pentru utilizatori. Pentru etapa de analiză a nevoilor au fost dezvoltate diverse șabloane și chestionare care stabilesc un standard ridicat pentru calitate în etapa inițială de rezolvare a problemei.

Cel mai important, însă, nevoile organizației de analiză a informațiilor trebuie să fie pe deplin înțelese și transformate de la extern la intern pentru ca un program de analiză a informațiilor să fie de valoare. Prin ele însele, șabloanele și chestionarele nu pot atinge acest obiectiv. Ele pot fi, desigur, de ajutor, dar au existat momente când o mare analiză a nevoilor a fost făcută pur și simplu pe baza conversațiilor informale cu directorii companiei. Acest lucru, la rândul său, necesită ca echipa de analiză a informațiilor să aibă o abordare consultativă sau cel puțin capacitatea de a comunica în mod productiv cu factorii de decizie.

2. Acoperirea surselor secundare de informare

Ca parte a ciclului de analiză a informațiilor, evidențiem separat colectarea de informații din surse secundare și primare. Există o serie de motive pentru aceasta. În primul rând, colectarea informațiilor din surse disponibile public este mai ieftină decât a merge direct la sursele primare. În al doilea rând, este mai ușor, cu condiția, desigur, ca persoanele cărora li se atribuie o astfel de sarcină să aibă suficientă experiență în studierea surselor secundare disponibile. De fapt, gestionarea surselor de informații și optimizarea costurilor asociate cu aceasta este o zonă separată de cunoaștere în sine. În al treilea rând, accesarea surselor secundare de informații înainte de efectuarea cercetării sub formă de interviuri le va oferi celor care efectuează astfel de cercetări informații generale de fond valoroase care pot fi verificate și utilizate ca răspuns la contribuțiile intervievaților. În plus, dacă la unele întrebări se poate răspunde în timpul studiului surselor secundare, acest lucru va reduce costul etapei studiilor surselor primare și, uneori, chiar va elimina necesitatea acestora.

3. Cercetarea surselor primare

Oricât de vastă ar fi cantitatea de informații disponibile publicului în prezent, nu toate informațiile pot fi accesate prin studiul surselor secundare. După examinarea surselor secundare, golurile din studiu pot fi completate prin intervievarea experților familiarizați cu subiectul de cercetare. Acest pas poate fi relativ costisitor în comparație cu studiul surselor secundare, care, desigur, depinde de amploarea sarcinii, precum și de ce resurse sunt implicate: nu este neobișnuit ca companiile să implice contractori externi în cercetarea surselor primare. .

4. Analiza

După colectarea informațiilor din diverse surse, este necesar să ne dăm seama de ce este necesar exact pentru analiza inițială a nevoilor în conformitate cu sarcina. Din nou, în funcție de sfera sarcinii în cauză, această etapă a cercetării poate fi destul de costisitoare, deoarece implică cel puțin cheltuirea de timp a resurselor interne și uneori externe și, poate, o anumită verificare suplimentară a corectitudinii analizelor. rezultate printr-un interviu suplimentar.

5. Oferirea de rezultate

Formatul pentru furnizarea rezultatelor după finalizarea sarcinii de analiză a informațiilor este de o importanță nu mică pentru utilizatorii finali. De regulă, factorii de decizie nu au timp să caute rezultatele analizei cheie într-o cantitate mare de date pe care le primesc. Conținutul principal trebuie tradus într-un format ușor de înțeles, ținând cont de cerințele acestora. În același timp, ar trebui să fie asigurat acces convenabil la date suplimentare de fundal pentru cei care sunt interesați și doresc să „sapă mai adânc”. Aceste reguli de bază se aplică indiferent de formatul în care sunt furnizate informațiile, dacă software cu baza de date, newsletter, Prezentare PowerPoint, întâlnire personală sau seminar. În plus, există un alt motiv pentru care am separat furnizarea de informații de utilizarea finală, precum și primirea de feedback și sugestii cu privire la informațiile analitice furnizate. Uneori, deciziile vor fi luate în aceeași ordine în care vor fi furnizate informațiile. Cu toate acestea, de cele mai multe ori, materialul de referință de bază va fi furnizat înainte de apariția situației reale de decizie, astfel încât formatul, canalul și modul în care sunt prezentate informațiile afectează modul în care sunt percepute.

6. Utilizarea și furnizarea de comentarii/remarci

Faza de utilizare servește ca un fel de test de turnesol pentru evaluarea succesului sarcinii de analiză a informațiilor. Vă permite să înțelegeți dacă rezultatele obținute răspund nevoilor identificate chiar la începutul procesului de analiză a informațiilor. Dacă toate răspunsurile au fost primite inițial sau nu întrebări puseÎn faza de utilizare, de regulă, apar noi întrebări și necesitatea unei noi analize a nevoilor, mai ales dacă nevoia de analiză a informațiilor este de natură continuă. În plus, ca urmare a eforturilor de colaborare de a crea materiale informative între utilizatorii finali și analiștii informaționali, în momentul în care aceștia trec la stadiul de utilizare, este posibil ca utilizatorii finali ai acestor informații să fi contribuit deja la rezultatul final așteptat. Pe de altă parte, cei care s-au implicat preponderent în analiză pot fi implicați activ în procesul de formare a concluziilor și de interpretare a rezultatelor, pe baza cărora se vor lua deciziile finale. În mod ideal, observațiile și comentariile bine gândite în timpul fazei de utilizare pot fi deja folosite ca bază pentru evaluarea nevoilor pentru următoarea sarcină de analiză a informațiilor. Astfel, ciclul procesului de analiză a informațiilor este încheiat.

Noțiuni introductive: dezvoltarea unui proces de analiză a informațiilor

Determinarea etapelor de luare a deciziilor în procesele de afaceri care necesită cercetare analitică de piață

Termenul „analitică a deciziilor” câștigă popularitate, deoarece companiile care au deja un program de analiză a informațiilor au început să caute opțiuni pentru a integra mai bine aceste programe în procesele lor de luare a deciziilor. Cât de abstracte, sau invers, vor fi măsurile concrete pentru „îmbunătățirea legăturii dintre rezultatele finale ale analizei informațiilor și procesele de afaceri”, va depinde în mare măsură de dacă aceste procese de afaceri au fost definite formal și, de asemenea, de faptul dacă grupul dispune de analiză a informațiilor. înțelegerea nevoilor specifice de informații asociate cu etapele de luare a deciziilor din cadrul acestor procese.

După cum am menționat în Capitolul 1, tehnicile și metodele discutate în această carte sunt cele mai potrivite pentru companiile care au deja implementate procese de afaceri structurate, cum ar fi un proces de strategie. Companiile cu un management mai puțin bine structurat ar putea avea nevoie să fie puțin creative în utilizarea abordărilor de analiză a pieței. nivel international luând în considerare schemele lor de management existente. Cu toate acestea, principiile de bază pe care le discutăm aici se vor aplica oricărei companii.

Evaluarea nevoilor de analiză a informațiilor: de ce este atât de importantă?

Având în vedere că înțelegerea cerințelor cheie de analiză a informațiilor la începutul acestui proces are un impact mai puternic asupra calității rezultatelor finale decât orice altă etapă a procesului, este izbitor că pasului de evaluare a nevoilor i se acordă adesea prea puțină atenție. În ciuda potențialelor constrângeri de resurse în alte etape ale procesului de analiză a informațiilor, o atenție deosebită acordată doar evaluării nevoilor ar crește, în multe cazuri, foarte mult valoarea și aplicabilitatea rezultatelor finale ale acestui proces, justificând astfel investiția de timp și resurse în sarcina de analiza a informatiilor. Mai jos luăm în considerare modalități specifice de îmbunătățire a calității evaluării nevoilor.

De multe ori se presupune automat că managementul știe de ce informații are nevoie compania. Cu toate acestea, în realitate management de top, de regulă, cunoaște doar o parte din nevoile de informații ale organizației sale și, chiar și atunci, s-ar putea să nu fie în cea mai bună poziție pentru a determina exact ce informații sunt necesare, cu atât mai puțin unde să le găsească.

Ca urmare, situația se repetă în mod constant atunci când nu există nici o idee clar articulată a problemei, nici contextul ei de afaceri pentru a efectua sarcini de analiză a informațiilor. Cei care sunt cel mai familiarizați cu sursele de informații și metodele de analiză își petrec timpul procesării aparent dezordonate a datelor și nu văd imaginea de ansamblu, precum și acele abordări care sunt cele mai semnificative pentru companie. Deloc surprinzător, rezultatul este că factorii de decizie obțin mult mai multe informații decât au nevoie, ceea ce este contraproductiv în principiu, deoarece în curând încep să ignore nu numai informații inutile, ci și importante. Ei nu au nevoie de mai multe informații, ci de informații mai bune și mai precise.

În același timp, factorii de decizie pot avea așteptări nerealiste cu privire la disponibilitatea și acuratețea informațiilor, deoarece nu au consultat analiștii informaționali înainte de a stabili sarcina. Prin urmare, în mod ideal, analiștii informaționali și factorii de decizie ar trebui să fie în contact constant unul cu celălalt și să lucreze împreună pentru a se asigura că ambele părți au aceeași înțelegere a nevoilor primare de informații. Capacitatea de a gestiona acest proces va necesita analiștilor care lucrează în această direcție, o serie de abilități:

  • Analistul trebuie să înțeleagă cum să identifice și să determine nevoile de informații ale persoanelor responsabile cu luarea deciziilor.
  • Analistul trebuie să-și dezvolte abilitățile comunicare efectiva, realizând interviuri și prezentări.
  • În mod ideal, analistul ar trebui să înțeleagă tipurile psihologice de personalitate pentru a le ține cont orientare diferită persoane responsabile cu luarea deciziilor.
  • Analistul trebuie să știe structura organizationala, cultură și mediu și intervievați cheie.
  • Analistul trebuie să rămână obiectiv.

Lucrați în cadrul ciclului de analiză a informațiilor și eliminați blocajele din proces

În etapele inițiale de implementare a unui program de analiză a informațiilor, grupul țintă pentru activități este de obicei limitat, precum și rezultatele finale pe care le oferă programul. În mod similar, la procesarea rezultatelor finale, apar adesea diverse dificultăți (așa-numitele „gâte de sticlă”): chiar și o simplă colecție de date disparate din surse secundare și primare poate necesita cunoștințe și experiență pe care compania nu le are, iar după colectare de informații este finalizată, se poate dovedi că timpul respectiv și nu există suficiente resurse pentru a efectua o analiză detaliată a datelor colectate, cu atât mai puțin pentru a pregăti prezentări informative și bine elaborate care ar putea fi folosite de factorii de decizie. Mai mult, în fazele inițiale ale dezvoltării unui program de analiză a informațiilor, aproape nicio companie nu are instrumente speciale pentru stocarea și distribuirea rezultatelor unei astfel de analize. De regulă, rezultatele sunt furnizate în cele din urmă grupurilor țintă sub formă de atașamente obișnuite la e-mail.

Complexitatea efectuării unei sarcini analitice în cadrul ciclului de analiză a informațiilor poate fi descrisă folosind triunghiul standard de management al proiectului, adică este necesar să se finalizeze sarcina și să se producă un rezultat sub trei constrângeri principale: buget, calendar și sfera de activitate. În multe cazuri, aceste trei constrângeri concurează între ele: într-o sarcină standard de analiză a informațiilor, o creștere a volumului de muncă va necesita o creștere a timpului și a bugetului; o constrângere de timp dificil este probabil să însemne o creștere a bugetului, reducând în același timp domeniul de activitate, iar un buget restrâns este probabil să însemne atât un domeniu de aplicare limitat, cât și un timp redus al proiectului.

Apariția „gâturilor de sticlă” în procesul de analiză a informațiilor duce de obicei la frecare semnificativă în îndeplinirea unei sarcini de cercetare în cadrul ciclului de analiză a informațiilor în etapele inițiale ale dezvoltării unui program pentru o astfel de analiză. Deoarece resursele sunt limitate, cele mai critice blocaje ar trebui eliminate mai întâi. Echipa de revizuire a informațiilor are capacitatea suficientă pentru a le conduce? Este necesar educație suplimentară? Sau este mai probabil ca analiștii să nu aibă informații valoroase cu care să lucreze - cu alte cuvinte, cel mai critic blocaj este strângerea de informații? Sau poate că echipa de analiză a informațiilor pur și simplu nu are suficient timp, adică grupul nu este capabil să răspundă la solicitările urgente în timp util?

Există două moduri de a crește eficiența efectuării unei sarcini analitice în cadrul ciclului de analiză a informațiilor. „productivitatea” ciclului, adică minuțiozitatea cu care echipa de analiză a informațiilor poate procesa sarcini analitice în fiecare etapă și viteza cu care se răspunde la întrebare. Pe fig. Figura 2 arată diferența dintre aceste abordări și, în general, diferența dintre sarcinile de analiză strategică și solicitările de cercetare care necesită un răspuns rapid.

Deși ambele abordări implică trecerea sarcinii analitice prin toate etapele ciclului de analiză a informațiilor, echipa de analiză a informațiilor, însărcinată cu efectuarea rapidă a cercetărilor, va lucra la studierea surselor secundare și primare în paralel (uneori un singur apel telefonic la un specialist poate oferi necesarul). răspunsuri).la întrebările puse în cererea de cercetare). În plus, în multe cazuri, analiza și raportarea sunt combinate, de exemplu în rezumat, pe care analistul o trimite managerului care a solicitat aceste informații.

Performanța ciclului de analiză a informațiilor poate fi îmbunătățită prin adăugarea de resurse fie interne (angajate), fie externe (achiziționate), acolo unde sunt necesare, rezultând rezultate mai bune și o capacitate mai mare de a servi tot mai multe grupuri de utilizatori în cadrul organizației.

Același principiu se aplică răspunsului la fluxul de lucru, adică cât de repede trece o sarcină de cercetare urgentă prin diferitele etape ale ciclului. În mod tradițional, companiile s-au concentrat în principal pe furnizarea de produse durabile lățime de bandă prin scheme de planificare a resurselor pe termen lung și prin formarea personalului. Cu toate acestea, pe măsură ce domeniul de specialitate al analizei informațiilor se dezvoltă și disponibilitatea resurselor profesionale globale din exterior devine mai comună, schemele temporare implementate de la caz la caz și care oferă flexibilitatea necesară devin tot mai comune.

Pe fig. Figura 3 prezintă două tipuri de rezultate ale ciclului de analiză a informațiilor, și anume analiza strategică și cercetarea care necesită un răspuns rapid (a se vedea graficul rezultatelor analizei informațiilor). În ciuda faptului că sarcinile de realizare a cercetărilor care necesită răspuns prompt sunt de obicei legate de procesele de afaceri, nivelul analizei acestora nu este foarte ridicat din cauza lipsei banale de timp pentru o astfel de analiză. Pe de altă parte, sarcinile de analiză strategică sunt de obicei legate de nivel inalt co-crearea în stadiul de analiză și furnizare a informațiilor, ceea ce îi plasează aproape în vârful triunghiului, unde se realizează interpretarea și aplicarea informațiilor primite.

Dezvoltare continuă: eforturi pentru analiza informațiilor la nivel internațional

Netezimea procesului de analiză a informațiilor poate fi vizualizată sub forma unui grafic ciclului de grosime uniformă (Fig. 2), în sensul că un proces matur de analiză a informațiilor nu are „legături slabe” sau „bloc-uri” semnificative în organizarea succesiunea operațiilor. Această uniformitate necesită o planificare adecvată a resurselor în fiecare etapă, care, la rândul său, se realizează prin parcurgerea ciclului de mai multe ori, luând în considerare toate detaliile. De exemplu, evaluarea inițială a nevoilor poate fi îmbunătățită progresiv, permițând factorilor de decizie și beneficiarilor să observe deficiențe și discrepanțe tipice în etapele incipiente ale sarcinilor de cercetare de piață. Colaborarea dintre oamenii de știință din domeniul informațiilor și analiștii (dacă cele două funcții sunt separate) poate fi dezvoltată de-a lungul timpului, de asemenea, dacă problemele care au trecut neobservate anterior și care au fost ridicate în analiză să fie transmise oamenilor de știință în domeniul informațiilor în scopul colectării de date suplimentare. În timp, experiența va arăta ce resurse sunt necesare pentru fiecare dintre aceste etape pentru a obține rezultate optime.

Rezultatele care sunt în cele din urmă „optime” sunt determinate de cât de mult se potrivesc informațiile rezultate cu nevoile factorilor de decizie în cadrul proceselor de afaceri. Și acest lucru ne readuce la grosimea uniformă a ciclului de analiză a informațiilor: procesul de analiză a informațiilor internaționale nu începe cu o evaluare a nevoilor ca atare, ci cu o definiție clară a locului și cum vor fi aplicate informațiile de ieșire. De fapt, comunicarea dintre factorii de decizie și analiștii informaționali pe parcursul procesului analitic internațional trebuie să fie constantă, informativă și bidirecțională.

O modalitate de a consolida legăturile dintre luarea deciziilor și cercetarea de piață este să încheiem acorduri de nivel de serviciu cu părțile interesate cheie pe care le deservește programul de cercetare de piață. Acordarea nivelului necesar al serviciilor de cercetare de piață cu managerii superiori din planificarea strategică, vânzări, marketing și cercetare și dezvoltare va defini clar rezultatele finale ale unor astfel de studii și activități analitice pentru fiecare grup. părțile interesate pentru următoarele 6-12 luni, inclusiv un buget pentru cercetarea pieței, părțile interesate, reperele și interacțiunile de-a lungul procesului.

Există o serie de avantaje la încheierea unor acorduri de nivel de servicii:

  • Este nevoie de timp pentru a se așeza și a discuta principalele obiective și pașii de luare a deciziilor celor responsabili pentru procesele cheie de afaceri = echipa de cercetare de piață obține o mai bună înțelegere a ceea ce este important pentru management și, în același timp, îmbunătățește relațiile personale.
  • Riscul de exces de muncă neprevăzut pentru proiecte speciale este redus prin identificarea zonelor pentru revizuire regulată, analiza strategica informatii, etc.
  • Există un timp pentru co-creare în procesul de analiză a informațiilor: nu este neobișnuit pentru întâlniri și seminarii privind cercetarea analitică a pieței cu participarea directorilor în mod constant ocupați, care trebuie planificate cu câteva luni înainte.
  • Stabilirea clară a obiectivelor și evaluarea performanței eficientizează activitățile de cercetare de piață și măresc nivelul de analiză.
  • În general, închiderea organizației și așa-numita „fierbere în sucul propriu” sunt în scădere, iar cooperarea dintre manageri și analiștii de piață devine din ce în ce mai fructuoasă.

Cele două exemple de la sfârșit ilustrează modul în care, printr-un proces de analiză a informațiilor bine stabilit, o echipă de analiză poate răspunde diferitelor cerințe ale unei sarcini de analiză a informațiilor, în funcție de regiunea geografică care este analizată ca parte a sarcinii. În „lumea occidentală” o cantitate mare de informații de încredere poate fi obținută din surse secundare pe aproape orice subiect. Acest lucru reduce sarcina analiștilor de informații de a găsi cele mai bune surse pentru colectarea rentabilă a informațiilor pentru analiza și raportarea ulterioară.

Pe de altă parte, pe piețele emergente există adesea o lipsă de surse secundare de încredere sau lipsa datelor necesare privind Limba engleză. Prin urmare, analiștii informaționali trebuie să apeleze rapid la sursele primare și să efectueze interviuri, de obicei în limba locală. În această situație, este important să ne bazăm pe un număr suficient de mare de surse pentru a evalua corectitudinea rezultatelor cercetării înainte de a trece la analiza acestora.

Exemplu. Studierea ciclului de afaceri pentru o întreprindere din industria chimică

O companie care activează în industria chimică avea nevoie de o mulțime de informații despre ciclurile economice trecute, actuale și viitoare în mai multe domenii ale producției de produse chimice de pe piață America de Nord. Aceste informații trebuiau utilizate pentru a estima creșterea viitoare în anumite domenii de producție. produse chimice, precum și pentru planificarea dezvoltării afacerii bazată pe înțelegerea ciclurilor de afaceri din industrie.

Analiza a fost efectuată folosind metode statistice, inclusiv regresie și analiză vizuală. Analiza ciclurilor economice a fost realizată atât cantitativ, cât și calitativ, ținând cont de opiniile experților din industrie cu privire la creșterea pe termen lung. La îndeplinirea sarcinii, s-au folosit doar surse secundare de informații, iar pentru analiză s-au folosit metode statistice, inclusiv regresie și analiză vizuală. Ca urmare, a fost prezentat un raport analitic detaliat care descrie durata și natura ciclurilor de afaceri, precum și o evaluare a perspectivelor viitoare pentru liniile cheie de produse ale companiei (etilenă, polietilenă, stiren, amoniac și cauciuc butilic).

Exemplu. Evaluarea pieței de bifluorura de amoniu și acid fluorhidric din Rusia și CSI

Unul dintre cele mai mari centre nucleare din lume a fost însărcinat să studieze piața acestor două produse secundare ale producției sale, și anume bifluorura de amoniu și acidul fluorhidric, în Rusia și CSI. Cu o capacitate insuficientă a acestei piețe, aceștia ar trebui să investească în construcția de instalații pentru eliminarea acestor produse.

Studiile surselor secundare au fost efectuate atât la nivelul Rusiei și CSI, cât și la nivel global. Datorită naturii foarte specializate a pieței și a consumului intern ridicat de produse secundare, accentul s-a pus pe cercetarea surselor primare. În pregătirea analizei ulterioare, au fost realizate 50 de interviuri aprofundate cu potențiali clienți, concurenți și experți din industrie.

Raportul final a furnizat o estimare a dimensiunii pieței excluzând consumul intern, o analiză de segment, o analiză a importurilor, o analiză a lanțului valoric, o analiză a tehnologiilor și produselor de înlocuire pentru fiecare segment industrial, o prognoză de dezvoltare a pieței, o analiză a prețurilor și, în final , o evaluare a potențialelor oportunități de piață din Rusia și CSI.

Exemplu. Proces eficient de analiză a informațiilor bazat pe evaluarea tendințelor predominante pentru prezentarea managerilor sub formă de rapoarte

O companie lider în energie și petrochimie și-a îmbunătățit cu succes procesul de analiză a informațiilor prin adoptarea unei analize strategice de scenarii pentru a colecta, analiza și furniza informații.

Prin integrarea activităților de analiză a informațiilor în procesele cheie ale afacerii în timpul fazei de planificare, adevăratele nevoi strategice ale organizației au fost clar identificate și comunicate echipei de analiză, care în consecință a reușit să organizeze procesul de analiză în așa fel încât accentul să fie pus pe strategie și actiuni. Procesul de analiză a informațiilor într-o companie începe cu studiul tendințelor predominante și se termină cu exemple ilustrative de răspuns la risc cu recomandări pentru management.

Cheia îmbunătățirii eficacității programului de analiză a informațiilor a fost evaluarea cu succes a nevoilor în ceea ce privește obiectivele strategice ale companiei. În același timp, persoanele responsabile cu luarea deciziilor au participat la procesul de analiză a informațiilor aflate deja în faza inițială (discuții, întâlniri, seminarii). Acest lucru a contribuit la stabilirea unui dialog bilateral și la o integrare mai completă a programului de analiză a informațiilor în alte domenii de activitate ale companiei.

Exemplu. Compania globală de biotehnologie a dezvoltat un ciclu de analiză a informațiilor pentru a oferi perspective în timp util și luarea deciziilor proactive.

Scopul programului de analiză a informațiilor a fost acela de a oferi informații în scop de avertizare timpurie și avertizare, care să permită implementarea de strategii implementabile și fezabile pe toate piețele în care își desfășoară activitatea compania. A fost pus în aplicare un ciclu de analiză a informațiilor, implicând mai multe părți interesate în analiza informațiilor (atât de intrare, cât și de ieșire) și surse multiple de informații.

Persoanele interesate de analiza informațiilor au reprezentat patru caracteristici cheieîn companie (grup de strategie, marketing și vânzări, finanțe, relații cu investitorii și directori). Cea mai activă activitate a fost desfășurată în etapele de planificare și implementare. Implementarea cu succes a ciclului de analiză a informațiilor, care a reunit părțile interesate interne (pentru evaluarea nevoilor) și multiple surse de informații într-un proces bine definit de furnizare a rezultatelor analizei, a însemnat că programul de analiză implementat a avut un impact asupra dezvoltării strategiei și asupra deciziei proactive. realizarea.

airsoft-unity.ru - Portal minier - Tipuri de afaceri. Instrucțiuni. Companii. Marketing. taxe