Revizuirea metodelor de analiză a datelor statistice. Planetele sunt giganți

Vă rugăm să trimiteți informații extinse despre analiza ABC, avem o bază de date uriașă de contrapărți în 1C. Cum să faci analiza ABC corect și competent?

Răspuns

Pavel Borovkov,

Director general al firmei de consultanță „Partenerii și Borovkov”

Conform experienței noastre în implementarea sistemelor de analiză ABC, bazele de date contabile ale multor companii sunt slab pregătite pentru asta. implementare eficientă. De exemplu, cum arată directorul „obișnuit” „Contrapărți” în bazele de date contabile 1C sau operaționale?

În el puteți vedea următoarele:

Cel mai bun articol al lunii

Am pregătit un articol care:

✩va arăta cum programele de urmărire ajută la protejarea unei companii de furt;

✩ vă va spune ce fac de fapt managerii în timpul programului de lucru;

✩ explică modul de organizare a supravegherii angajaților pentru a nu încălca legea.

Cu ajutorul instrumentelor propuse, vei putea controla managerii fără a reduce motivația.

  1. Contrapartidele nu sunt grupate clar pe tipuri: Clienți, Furnizori, Bănci, Agenții Guvernamentale etc., dar sunt aranjate în dosare de natură arbitrară: „Vechi” și „Nou”, „Clienți ai managerului Petrov”, „NU ștergeți”. !”, „Furnizori” Romashka LLC etc.
  2. Contrapărțile, care acționează atât ca cumpărători, cât și ca furnizori, sunt duplicate (uneori repetate chiar și de mai mult de două ori).
  3. Unele persoane juridice au fost înființate de mai multe ori, unele au aceleași nume, altele diferă prin mai multe litere, pe alocuri sunt indicate TIN-ul și KPP, dar în alte locuri nu.

Situația descrisă este agravată în cazurile în care:

  1. Vorbim despre o bază de date consolidată (mai corect vorbind, „consolidată”) a unui grup de companii care își păstrează înregistrările în baze de date și directoare separate, apoi le îmbină într-un singur depozit.
  2. A existat o tranziție de la o bază de date cu o versiune la una mai avansată, iar regulile de stocare a datelor în vechiul depozit au fost stratificate cu regulile noii baze de date.
  3. Contabilitatea expedițiilor se ține în baza de date contabilă operațională, iar plățile și datoriile reciproce se țin în baza de date contabilă, între care există schimb, dar incomplet.
  4. Plus, desigur, combinații ale tuturor cazurilor descrise mai sus. Drept urmare, este aproape imposibil să obțineți un raport vizual de analiză ABC în care clienții și vânzările sunt clasate corect.

Să luăm în considerare pas cu pas ce trebuie făcut pentru a ne asigura că bazele de date 1C vă permit să efectuați eficient analiza ABC:

  1. Implementați reguli uniforme pentru menținerea directorului „Contrapărți” în toate entitati legaleși toate bazele de date ale acestora (operaționale, contabile, bugetare și CRM - dacă sunt separate). Sunt necesare următoarele reguli: a. Grupați contrapărțile în tipuri clare, separând toți clienții într-un singur grup. b. Dacă contrapartea este atât un cumpărător, cât și un furnizor, determinați care dintre tranzacții (vânzări sau achiziții) sunt mai semnificative pentru dvs. și atribuiți-o grupului corespunzător. Nu dublați! c. Nu este permisă introducerea unei anumite contrapărți în baza de date de mai multe ori - doar intrări unice.
  2. Faceți o reconciliere similară pentru directoarele aferente: „Acorduri ale contractanților”, „Ordine ale contrapărților”, „Proiecte”, „Persoane de contact ale contrapărților”, deoarece analiza poate fi efectuată și în contextul acestora.
  3. Decideți asupra metodei de analiză ABC. În primul rând: a. La plată sau expediere, contați vânzările în scopul acestei analize. Poate că aceștia vor fi niște indicatori specifici: numărul (nu suma) vânzărilor, conturile medii de încasat sau altceva; b. Definiția analizei (Contrapărți, Contracte, Ordine etc.) va fi cheia analizei. c. Determinați ce praguri vor fi utilizate pentru segmentare. Cele clasice sunt 80% (A), 15% (B) și 5% (C), dar îți poți stabili propriile limite. În acest caz, ar fi bine să înțelegem rațiunea - de ce exact acesta este cazul. După structurarea datelor sursă și clarificarea metodei de analiză, se poate trece la tehnică - obținerea unui raport într-o configurație specifică 1C.

Următoarele opțiuni sunt posibile aici:

  1. Dacă vă bazați pe datele contabile operaționale (de exemplu, în configurația „1C: Managementul comerțului”), atunci astfel de produse au propriul raport standard „Analiza vânzărilor ABC”, în care puteți ajusta valorile pragului și o serie de alte parametrii și apoi obțineți un rezultat gata făcut.
  2. Dacă utilizați o bază de date contabilă (de exemplu, configurația „1C: Enterprise Accounting”), este mai bine să obțineți un bilanţ pentru contul 51 (când se analizează „prin plată”) sau 90 (când se analizează „prin expediere”), încărcați rezultatul în Excel și apoi în acesta este posibilă efectuarea unei analize folosind mijloacele sale.
  3. Dacă aveți o configurație avansată de management (de exemplu, „Intalev: Corporate Management”), atunci puteți configura în mod flexibil analiza ABC de orice tip, ținând cont de specificul afacerii dvs.: în funcție de orice analist, cu diferite valori de prag, grafice si diagrame. Aceasta completează pregătirea analizei și primirea formularului de raportare. În continuare, este necesar să se ia decizii cu privire la continuarea afacerilor cu fiecare client, în funcție de domeniul în care se încadrează: cu cine să dezvolte cooperarea, cu cine să fie transferat în „modul de așteptare” și cu cine, poate, să înceteze cooperarea.

Serghei Koryakin,

Director al departamentului de instalare sisteme contabile la Alliance Consulting

Pentru a spune simplu, analiza ABC/XYZ vă permite să clasificați resursele unei companii în funcție de importanța lor. Mai ales acest tip analiza și clasificarea se aplică listei de produse și contrapărților. Caracteristicile acestei analize implică o împărțire mare a matricei de date în categorii, așa că nu este atât de important dacă lista de produse și contractori a companiei este mare sau mică.

Majoritatea sistemelor de contabilitate operaționale ale companiei 1C oferă capacitatea de a efectua clasificarea și analiza ABC/XYZ. Cel mai simplu mod de a descrie principiul acestei clasificări este folosirea exemplului de nomenclatură.

Utilizarea clasificării ABC/XYZ a articolelor pentru o companie vă permite să rezolvați următoarele probleme:

  • analizarea cifrei de afaceri a mărfurilor, stabilitatea cheltuielilor;
  • îmbunătățirea indicatorilor de rotație a mărfurilor;
  • eliminarea deficitului de resurse materiale;
  • evaluarea inventarului de bunuri;
  • reducerea costurilor companiei pentru achiziționarea și depozitarea mărfurilor;
  • reduce nevoia de capital de lucru;
  • prezice achiziții suplimentare.

Clasificarea ABC vă permite să împărțiți toate mărfurile în trei categorii: mărfuri clasa A - cu un volum mare de vânzări; marfuri clasa B - cu un volum de vanzari mai moderat; Bunurile din clasa C sunt cele mai puțin populare.

Ideea principală a analizei XYZ este gruparea obiectelor în funcție de omogenitatea parametrilor analizați (după coeficientul de variație). Pentru această metodă, trebuie să selectați parametrul prin care va fi efectuată analiza (de exemplu, cantitatea de mărfuri vândute), să determinați perioada și numărul de perioade de studiat. Este important ca cu cât este mai mare numărul de perioade, cu atât rezultatele vor fi mai indicative. În acest caz, perioada în sine nu trebuie să fie mai mică decât orizontul de planificare adoptat de companie.

Ca rezultat al analizei, toate bunurile vor fi clasificate în funcție de parametrul selectat într-una dintre cele trei clase: clasa X, clasa Y, clasa Z. Dacă indicatorul cantității de mărfuri vândute a fost ales ca parametru, atunci clasificarea poate fi interpretată astfel: Clasa X - sunt mărfuri vândute consecvent în perioadele de timp analizate; Clasa Y sunt bunuri cu mai puțină stabilitate a vânzărilor, clasa Z sunt bunuri vândute rar.

Dacă rezultatele analizei ABC și XYZ sunt combinate, atunci vor fi obținute nouă grupuri de obiecte de analiză. Acestea vor fi grupate după două criterii: gradul de influență asupra rezultatului final (ABC) și stabilitatea/predictibilitatea acestui rezultat (XYZ).

Clasificarea ABC/XYZ a produselor vă permite să împărțiți produsele în următoarele grupuri:

  • AX, BX - mărfurile se caracterizează printr-o cifră de afaceri ridicată și stabilitate. Este necesar să se asigure disponibilitatea lor constantă, dar pentru aceasta nu este nevoie să se creeze un stoc de siguranță în exces. Consumul de bunuri în aceste grupuri este stabil și bine prognozat.
  • AY, BY - mărfurile acestor grupe cu cifră de afaceri mare au o stabilitate insuficientă a consumului. În consecință, pentru a asigura o disponibilitate constantă, este necesară creșterea stocului de siguranță pentru acestea.
  • AZ, BZ - mărfurile acestor grupe, cu cifră de afaceri mare, se caracterizează printr-o predictibilitate scăzută a consumului. O încercare de a asigura disponibilitatea garantată a tuturor mărfurilor din aceste grupuri numai prin stocul de siguranță în exces va duce la faptul că media inventarîntreprinderea comercială va crește semnificativ.
  • Produsele CX din această grupă se caracterizează printr-o cifră de afaceri scăzută, dar se caracterizează printr-o stabilitate ridicată a consumului. Pentru astfel de produse, puteți utiliza un sistem de comandă cu frecvență constantă.
  • Produsele CY din acest grup se caracterizează printr-o cifră de afaceri scăzută și o stabilitate scăzută a consumului. Pentru astfel de bunuri, puteți utiliza un sistem de comandă cu o cantitate constantă (volum) de comandă, dar, în același timp, puteți crea un stoc de siguranță bazat pe capacitățile financiare ale întreprinderii comerciale.
  • CZ această grupă include toate mărfurile noi, mărfurile cu cerere variabilă, furnizate la comandă etc. Unele dintre ele pot fi îndepărtate fără durere din sortiment, iar cealaltă parte trebuie monitorizată în mod regulat, deoarece este din mărfurile din acest grup cel lipsit de lichid. sau apar acțiuni greu de vândut, din cauza cărora întreprindere comercială suferă pierderi.

Clasificarea ABC/XYZ a articolelor poate fi împărțită în următoarele etape:

  • setarea parametrilor de clasificare ABC/XYZ,
  • efectuarea clasificării ABC a articolelor,
  • efectuarea clasificării XYZ a articolelor;
  • analiza nomenclaturii ABC/XYZ.

Clasificarea ABC și XYZ a contrapărților se realizează în mod similar. De exemplu, puteți analiza pentru o anumită perioadă de timp pe baza analizei datelor privind vânzările de mărfuri către clienți: venituri, profit și numărul de documente de vânzare emise. Parametrii pentru clasificarea ABC și XYZ a clienților sunt stabiliți în setările contabile. Pentru fiecare client, puteți vedea dinamica schimbărilor în indicatorii de clasificare a clienților ABC și XYZ. Datele rezumate pot fi vizualizate în rapoartele corespunzătoare pentru a analiza baza de clienți.

În sistemele de contabilitate 1C, pe lângă instrumentele standard, puteți face o clasificare suplimentară a partenerilor folosind așa-numitele „proprietăți suplimentare”. Pentru fiecare profil de partener (clienți, furnizori, concurenți), vă puteți crea propriul set de proprietăți, detalii și informații suplimentare. În plus, pe baza acestor proprietăți suplimentare, pot fi efectuate analize ABC și XYZ.

2. Kritsman V. A., Rozen B. Ya., Dmitriev I. S. La secretele structurii materiei. – Liceu, 1983.

Descoperirile revoluționare în știința naturii au fost adesea făcute sub influența rezultatelor experimentelor efectuate de experimentatori talentați. Experimente mari în biologie, chimie și fizică au contribuit la schimbarea înțelegerii lumii în care trăim, a structurii materiei și a mecanismelor de transmitere a eredității. Pe baza rezultatelor marilor experimente s-au făcut și alte descoperiri teoretice și tehnologice.

§ 9. Metode de cercetare teoretică

Lecție-prelecție

Sunt lucruri mai importante pe lume

cele mai minunate descoperiri -

este cunoaşterea metodelor prin care

s-au făcut

Leibniz

https://pandia.ru/text/78/355/images/image014_2.gif" alt=" Semnătura: !" align="left" width="42 height=41" height="41">Метод. Классификация. Систематизация. Систематика. Индукция. Дедукция.!}

Observarea și descrierea fenomenelor fizice. Legile fizice. (Fizică, clasele 7 – 9).

Ce este o metodă . Metodăîn știință ei numesc o metodă de construire a cunoașterii, o formă de stăpânire practică și teoretică a realității. Francis Bacon a comparat metoda cu o lampă care luminează drumul unui călător în întuneric: „Chiar și un șchiop care merge pe drum este înaintea celui care merge fără drum”. Metoda aleasă corect trebuie să fie clară, logică, să conducă la un obiectiv specific și să producă rezultate. Se numește doctrina unui sistem de metode metodologie.

Metodele de cunoaștere care sunt utilizate în activitățile științifice sunt empiric ( metode practice, experimentale): observare, experimentȘi teoretic ( metode logice, raționale): analiză, sinteză, comparaţie, clasificare, sistematizare, abstractizare, generalizare, modelare, inducţie, deducere. În cunoștințele științifice reale, aceste metode sunt întotdeauna folosite în unitate. De exemplu, la elaborarea unui experiment, este necesară o înțelegere teoretică preliminară a problemei, formularea unei ipoteze de cercetare, iar după experiment este necesară procesarea rezultatelor folosind metode matematice. Să luăm în considerare caracteristicile unor metode teoretice de cunoaștere.

Clasificare și sistematizare. Clasificarea vă permite să organizați materialul studiat prin gruparea unui set (clasă) de obiecte studiate în subseturi (subclase) în conformitate cu caracteristica selectată.

De exemplu, toți elevii pot fi împărțiți în subclase - „fete” și „băieți”. Puteți alege o altă caracteristică, cum ar fi înălțimea. În acest caz, clasificarea poate fi efectuată în diferite moduri. De exemplu, evidențiați limita de înălțime de 160 cm și clasificați elevii în subclase „scurt” și „înalt”, sau împărțiți scala de înălțime în segmente de 10 cm, apoi clasificarea va fi mai detaliată. Dacă comparăm rezultatele unei astfel de clasificări pe mai mulți ani, acest lucru ne va permite să stabilim empiric tendințe în dezvoltarea fizică a elevilor. În consecință, clasificarea ca metodă poate fi folosită pentru a obține noi cunoștințe și chiar poate servi drept bază pentru construirea de noi teorii științifice.

În știință, de obicei folosesc clasificări ale acelorași obiecte în funcție de criterii diferite, în funcție de obiectivele lor. Cu toate acestea, atributul (baza clasificării) este întotdeauna ales. De exemplu, chimiștii împart clasa „acizi” în subclase în funcție de gradul de disociere (puternic și slab) și în funcție de prezența oxigenului (conținând oxigen și fără oxigen) și în funcție de proprietățile fizice (volatil - non -volatil; solubil - insolubil) și alte caracteristici.

Clasificarea se poate schimba pe măsură ce știința se dezvoltă.

La mijlocul secolului al XX-lea. cercetare de diverse reactii nucleare a condus la descoperirea particulelor elementare (nefisile). Inițial, au început să fie clasificate după masă, așa că au apărut leptonii (mici), mezonii (intermediari), barionii (mari) și hiperonii (supermari). Dezvoltare în continuare fizica a arătat că clasificarea după masă are puțină semnificație fizică, dar termenii au fost păstrați, rezultând apariția leptonilor, mult mai masivi decât barionii.

Este convenabil să afișați clasificarea sub formă de tabele sau diagrame (grafice). De exemplu, clasificarea planetelor din Sistemul Solar, reprezentată printr-o diagramă - un grafic, poate arăta astfel:

PLANETELE MAJORE

SISTEM SOLAR

PLANETELE TERESTRE

PLANETE - UIGANTI

PLUTON

MĂSURA-

VIENA-

MARTE

JUPITER

SATURN

URANUS

Vă rugăm să rețineți că planeta Pluto din această clasificare reprezintă o subclasă separată și nu aparține niciunei planete grup terestru, nici planetelor gigantice. Oamenii de știință notează că proprietățile lui Pluto sunt similare cu un asteroid, dintre care ar putea fi mulți la periferia sistemului solar.

Când studiem sisteme naturale complexe, clasificarea servește de fapt ca prim pas către construirea unei teorii științifice naturale. Mai departe nivel inalt este sistematizare (sistematizare). Sistematizarea se realizează pe baza clasificării unui volum suficient de mare de material. În același timp, sunt identificate cele mai esențiale trăsături care fac posibilă prezentarea materialului acumulat ca un sistem în care se reflectă toate relațiile variate dintre obiecte. Este necesar în cazurile în care există o varietate de obiecte și obiectele în sine sunt sisteme complexe. Rezultatul sistematizării datelor științifice este taxonomie sau altfel – taxonomie. Sistematica ca domeniu al științei dezvoltat în domenii precum biologia, geologia, lingvistica și etnografia.

Unitatea de taxonomie se numește taxon. În biologie, taxonii sunt, de exemplu, filum, clasă, familie, gen, ordine etc. Ele sunt combinate în sistem unificat taxoni de diferite ranguri după un principiu ierarhic. Un astfel de sistem include o descriere a tuturor organismelor existente și dispărute anterior și clarifică căile evoluției lor. Dacă oamenii de știință găsesc noul fel, atunci trebuie să-și confirme locul în sistemul general. De asemenea, pot fi aduse modificări sistemului în sine, care rămâne în curs de dezvoltare și dinamic. Sistematica facilitează navigarea în diversitatea organismelor - sunt cunoscute numai aproximativ 1,5 milioane de specii de animale și sunt cunoscute peste 500 de mii de specii de plante, fără a număra alte grupuri de organisme. Taxonomia biologică modernă reflectă legea lui Saint-Hilaire: „Diversitatea formelor de viață formează un sistem taxonomic natural format din grupuri ierarhice de taxoni de diferite ranguri.”

Inducția și deducția. Calea cunoașterii, în care, pe baza sistematizării informațiilor acumulate - de la particular la general - se trage o concluzie despre un model existent, se numește inducție. Această metodă ca metodă de studiu a naturii a fost dezvoltată de filozoful englez F. Bacon. El a scris: „Trebuie să luăm cât mai multe cazuri – atât cele în care fenomenul studiat este prezent, cât și cele în care este absent, dar în care s-ar aștepta să-l găsim; atunci trebuie să le aranjezi metodic... și să dai explicația cea mai probabilă; în cele din urmă, încercați să verificați această explicație prin comparație suplimentară cu faptele.”

Gând și imagine

Portrete ale lui F. Bacon și S. Holmes

De ce portretele omului de știință și ale eroului literar sunt situate unul lângă celălalt?

Inducția nu este singura modalitate de a obține cunoștințe științifice despre lume. Dacă fizica experimentală, chimia și biologia au fost construite ca științe în principal prin inducție, atunci fizica teoretică și matematica modernă s-au bazat pe un sistem axiome– consistent, speculativ, de încredere din punct de vedere al bunului simț și al nivelului dezvoltare istoricaștiința enunțurilor. Apoi cunoștințele pot fi construite pe aceste axiome prin tragerea de concluzii de la general la particular, trecând de la premise la consecințe. Această metodă se numește deducție. A fost dezvoltat

Rene Descartes, filosof și om de știință francez.

Un exemplu izbitor de dobândire a cunoștințelor despre un subiect în moduri diferite este descoperirea legilor mișcării corpurilor cerești. I. Kepler, pe baza unui volum mare de date observaționale privind mișcarea planetei Marte la începutul secolului al XVII-lea. a descoperit prin inducție legile empirice ale mișcării planetare în sistemul solar. La sfârșitul aceluiași secol, Newton a derivat în mod deductiv legile generalizate ale mișcării corpurilor cerești bazate pe legea gravitației universale.

În activitățile reale de cercetare, metodele de cercetare științifică sunt interconectate.

1. ○ Explicați ce este o metodă de cercetare, o metodologie a științelor naturii?

Toate aceste aproximări ar trebui să fie justificate și erorile introduse de fiecare dintre ele să fie evaluate numeric.

Dezvoltarea științei arată că fiecare lege științifică naturală are limite de aplicare. De exemplu, legile lui Newton se dovedesc a fi inaplicabile atunci când se studiază procesele microlumii. Pentru a descrie aceste procese se formulează legile teoriei cuantice, care devin echivalente cu legile lui Newton dacă sunt aplicate pentru a descrie mișcarea corpurilor macroscopice. Din punct de vedere al modelării, aceasta înseamnă că legile lui Newton sunt un model care urmează, sub anumite aproximări, din mai multe teorie generală. Cu toate acestea, legile teoriei cuantice nu sunt absolute și au limitări în aplicabilitate. Au fost deja formulate legi mai generale și s-au obținut ecuații mai generale, care la rândul lor au și limitări. Și nu există un sfârșit în vederea acestui lanț. Nu au fost încă obținute legi absolute care să descrie totul în natură, din care ar putea fi derivate toate legile particulare. Și nu este clar dacă astfel de legi pot fi formulate. Dar asta înseamnă că oricare dintre legile științei naturale este de fapt un fel de model. Diferența față de acele modele discutate în acest paragraf este doar că legile științifice naturale sunt un model aplicabil pentru a descrie nu un fenomen specific, ci o clasă largă de fenomene.

Analiza cluster este

O zi buna. Am respect pentru oamenii care sunt fani ai muncii lor.

Maxim, prietenul meu, face parte din această categorie. Lucrează în mod constant cu numere, le analizează și face rapoarte adecvate.

Ieri am luat prânzul împreună și timp de aproape o jumătate de oră mi-a vorbit despre analiza cluster - ce este și în ce cazuri utilizarea sa este justificată și adecvată. Ei bine, ce sunt?

Am o memorie bună, așa că vă voi oferi toate aceste date, de altfel, despre care știam deja, în forma lor originală și cea mai informativă.

Analiza clusterelor este concepută pentru a împărți un set de obiecte în grupuri omogene (clustere sau clase). Aceasta este o problemă de clasificare a datelor multidimensionale.

Există aproximativ 100 de algoritmi de grupare diferiți, dar cei mai des utilizați sunt analiza clusterului ierarhic și gruparea k-means.

Unde este utilizată analiza cluster? În marketing, aceasta este segmentarea concurenților și a consumatorilor.

În management: împărțirea personalului în grupe de diferite niveluri de motivare, clasificarea furnizorilor, identificarea situațiilor similare de producție în care apar defecte.

În medicină - clasificarea simptomelor, pacienților, medicamentelor. În sociologie, împărțirea respondenților în grupuri omogene. De fapt, analiza cluster s-a dovedit bine în toate sferele vieții umane.

Frumusețea acestei metode este că funcționează chiar și atunci când există puține date și cerințele pentru distribuția normală a variabilelor aleatoare și alte cerințe ale metodelor clasice nu sunt îndeplinite. analize statistice.

Să explicăm esența analizei cluster fără a recurge la terminologie strictă:
Să presupunem că ați efectuat un sondaj asupra angajaților și doriți să determinați cum să gestionați cel mai eficient personalul.

Adică vrei să împarți angajații în grupuri și să evidențiezi cele mai eficiente pârghii de management pentru fiecare dintre ei. În același timp, diferențele dintre grupuri ar trebui să fie evidente, iar în cadrul grupului respondenții ar trebui să fie cât mai asemănători.

Pentru rezolvarea problemei, se propune utilizarea analizei cluster ierarhice.

Ca urmare, vom obține un arbore, uitându-ne la care trebuie să decidem în câte clase (clustere) dorim să împărțim personalul.

Să presupunem că decidem să împărțim personalul în trei grupuri, apoi pentru a studia respondenții care se încadrează în fiecare grup vom obține un tabel cu aproximativ următorul conținut:


Să explicăm cum este format tabelul de mai sus. Prima coloană conține numărul clusterului - grupul, ale cărui date sunt reflectate în linie.

De exemplu, primul grup este 80% bărbați. 90% din primul cluster se încadrează în categoria de vârstă de la 30 la 50 de ani, iar 12% dintre respondenți consideră că beneficiile sunt foarte importante. Și așa mai departe.

Să încercăm să creăm portrete ale respondenților din fiecare grup:

  1. Primul grup este în mare parte bărbați varsta matura deţinând funcţii de conducere. Nu sunt interesați de pachetul social (MED, LGOTI, timp liber). Preferă să primească un salariu bun decât ajutor de la un angajator.
  2. Grupul doi, dimpotrivă, dă preferință pachetului social. Este format în principal din persoane „în vârstă” care ocupă poziții joase. Cu siguranță, salariul este important pentru ei, dar există și alte priorități.
  3. Al treilea grup este „cei mai tineri”. Spre deosebire de cele două anterioare, există un interes evident pentru oportunitățile de învățare și dezvoltare profesională. Această categorie de angajați are șanse mari să se alăture în curând primului grup.

Astfel, la planificarea unei campanii de implementare metode eficiente managementul personalului, este evident că în situația noastră este posibilă creșterea pachetului social al grupei a doua în detrimentul, de exemplu, al salariilor.

Dacă vorbim despre ce specialiști ar trebui trimiși la formare, vă putem recomanda cu siguranță să acordați atenție celui de-al treilea grup.

Sursa: http://www.nickart.spb.ru/analysis/cluster.php

Caracteristicile analizei cluster

Un cluster este prețul unui activ într-o anumită perioadă de timp în care au fost efectuate tranzacții. Volumul rezultat de achiziții și vânzări este indicat printr-un număr din interiorul clusterului.

Bara oricărui interval de timp conține de obicei mai multe clustere. Acest lucru vă permite să vedeți în detaliu volumele de achiziții, vânzări și soldul acestora în fiecare bar individual, la fiecare nivel de preț.


O modificare a prețului unui activ implică în mod inevitabil un lanț de mișcări de preț în alte instrumente.

Atenţie!

În cele mai multe cazuri, înțelegerea unei mișcări de tendință are loc deja în momentul în care aceasta se dezvoltă rapid, iar intrarea pe piață de-a lungul tendinței riscă să ajungă într-un val de corecție.

Pentru tranzacții de succes, trebuie să înțelegeți situația actuală și să fiți capabil să anticipați mișcările viitoare ale prețurilor. Acest lucru poate fi învățat analizând graficul cluster.

Folosind analiza clusterului, puteți vedea activitatea participanților pe piață chiar și în cea mai mică bară de preț. Aceasta este cea mai precisă și detaliată analiză, deoarece arată distribuția punctuală a volumelor tranzacțiilor la fiecare nivel de preț al activului.

Există un conflict constant între interesele vânzătorilor și ale cumpărătorilor de pe piață. Și fiecare cea mai mică mișcare de preț (bifă) este o mișcare către un compromis - un nivel de preț - care se potrivește în prezent ambelor părți.

Dar piața este dinamică, numărul vânzătorilor și cumpărătorilor este în continuă schimbare. Dacă la un moment dat piața a fost dominată de vânzători, atunci în momentul următor vor exista cel mai probabil cumpărători.

Numărul de tranzacții finalizate la niveluri de preț adiacente nu este, de asemenea, același. Și totuși, mai întâi situația pieței se reflectă în volumul total al tranzacțiilor și abia apoi în preț.

Dacă vedeți acțiunile participanților dominanti pe piață (vânzători sau cumpărători), atunci puteți prezice mișcarea prețului în sine.

Pentru a aplica cu succes analiza clusterului, mai întâi trebuie să înțelegeți ce sunt un cluster și delta.


Un cluster este o mișcare a prețurilor care este împărțită în niveluri la care au fost efectuate tranzacții cu volume cunoscute. Delta arată diferența dintre achizițiile și vânzările care au loc în fiecare cluster.

Fiecare cluster, sau grup de delte, vă permite să înțelegeți dacă cumpărătorii sau vânzătorii domină piața la un moment dat.

Este suficient doar să calculați delta totală însumând vânzările și achizițiile. Dacă delta este negativă, atunci piața este supravândută și există tranzacții de vânzare redundante. Când delta este pozitivă, cumpărătorii domină în mod clar piața.

Delta în sine poate lua o valoare normală sau critică. Valoarea volumului delta peste normal în cluster este evidențiată cu roșu.

Dacă delta este moderată, atunci aceasta caracterizează o stare plată pe piață. Cu o valoare delta normală, se observă o mișcare a tendinței pe piață, dar o valoare critică este întotdeauna un precursor al unei inversări de preț.

Tranzacționarea valutară folosind CA

Pentru a obține un profit maxim, trebuie să puteți determina tranziția deltei de la un nivel moderat la unul normal. Într-adevăr, în acest caz, puteți observa chiar începutul tranziției de la mișcarea plată la tendință și puteți obține cel mai mare profit.

O diagramă cu cluster este mai vizuală; puteți vedea niveluri semnificative de acumulare și distribuție a volumelor și puteți construi niveluri de suport și rezistență. Acest lucru permite comerciantului să găsească intrarea exactă în tranzacție.

Folosind delta, puteți judeca predominanța vânzărilor sau achizițiilor pe piață. Analiza cluster vă permite să observați tranzacțiile și să urmăriți volumele acestora în interiorul unei bare a oricărui TF.

Acest lucru este deosebit de important atunci când se apropie de niveluri semnificative de suport sau rezistență. Judecățile de grup sunt cheia înțelegerii pieței.

Sursa: http://orderflowtrading.ru/analitika-rynka/obemy/klasternyy-analiz/

Domenii și caracteristici de aplicare a analizei cluster

Termenul de analiză de cluster (inventat pentru prima dată de Tryon, 1939) include de fapt un set de diverși algoritmi clasificări.

Intrebare generala, întrebat de cercetătorii din multe domenii, este modul de organizare a datelor observate în structuri vizuale, i.e. extinde taxonomiile.

În conformitate cu sistem modern Potrivit biologiei, oamenii aparțin primatelor, mamiferelor, amnioților, vertebratelor și animalelor.

Rețineți că în această clasificare, cu cât nivelul de agregare este mai ridicat, cu atât există mai puțină similitudine între membrii clasei corespunzătoare.

Oamenii au mai multe asemănări cu alte primate (de exemplu, maimuțe) decât cu membrii „în afara” familiei de mamifere (adică, câini), etc.

Rețineți că discuția anterioară se referă la algoritmi de grupare, dar nu menționează nimic despre testarea semnificației statistice.

De fapt, analiza clusterului nu este atât o metodă statistică obișnuită, cât un „set” de diverși algoritmi pentru „distribuirea obiectelor în clustere”.

Există un punct de vedere că, spre deosebire de multe alte proceduri statistice, metodele de analiză a clusterelor sunt folosite în majoritatea cazurilor când nu aveți nicio ipoteză a priori despre clase, dar sunteți încă în stadiul descriptiv al studiului.

Atenţie!

Trebuie înțeles că analiza cluster determină „soluția cea mai probabilă semnificativă”.

Prin urmare, testarea semnificației statistice nu este cu adevărat aplicabilă aici, chiar și în cazurile în care sunt cunoscute nivelurile p (ca în metoda K-means).

Tehnicile de grupare sunt utilizate într-o mare varietate de domenii. Hartigan (1975) a oferit o revizuire excelentă a multor studii publicate care conţin rezultate obţinute folosind metodele de analiză a grupurilor.

De exemplu, în domeniul medicinei, gruparea bolilor, tratamentele pentru boli sau simptomele bolilor duce la taxonomii utilizate pe scară largă.

În domeniul psihiatriei, diagnosticarea corectă a grupurilor de simptome precum paranoia, schizofrenia etc. este crucială pentru succesul terapiei. În arheologie, folosind analiza clusterelor, cercetătorii încearcă să stabilească taxonomii ale uneltelor din piatră, ale obiectelor funerare etc.

Există aplicații pe scară largă ale analizei cluster în cercetare de piata. În general, ori de câte ori este necesară clasificarea „muntilor” de informații în grupuri adecvate pentru prelucrare ulterioară, analiza cluster se dovedește a fi foarte utilă și eficientă.

Agruparea arborilor

Exemplul dat în secțiunea Scopul principal explică scopul algoritmului de grupare a arborilor.

Scopul acestui algoritm este de a grupa obiecte (cum ar fi animalele) în grupuri suficient de mari folosind o anumită măsură a asemănării sau distanței dintre obiecte. Rezultatul tipic al unei astfel de grupări este un arbore ierarhic.

Luați în considerare o diagramă arborescentă orizontală. Diagrama începe cu fiecare obiect din clasă (în partea stângă a diagramei).

Acum imaginați-vă că treptat (în pași foarte mici) vă „relaxați” criteriul despre care obiecte sunt unice și care nu.

Cu alte cuvinte, coborâți pragul legat de decizia de a combina două sau mai multe obiecte într-un singur cluster.

Ca rezultat, legați din ce în ce mai multe obiecte împreună și agregați (combinați) din ce în ce mai multe grupuri formate din elemente din ce în ce mai diferite.

În cele din urmă, în ultimul pas, toate obiectele sunt combinate împreună. În aceste diagrame, axele orizontale reprezintă distanța de îmbinare (în diagramele arbore verticale, axele verticale reprezintă distanța de îmbinare).

Deci, pentru fiecare nod din grafic (unde este format cluster nou) puteți vedea distanța pentru care elementele corespunzătoare sunt asociate într-un singur cluster nou.

Când datele au o „structură” clară în ceea ce privește grupurile de obiecte care sunt similare între ele, atunci această structură este probabil să fie reflectată în arborele ierarhic prin diferite ramuri.

Ca rezultat al analizei cu succes folosind metoda de fuziune, devine posibil să se detecteze clustere (ramuri) și să le interpreteze.

Metoda unirii sau a grupării arborelui este utilizată pentru a forma grupuri de diferențe sau distanță între obiecte. Aceste distanțe pot fi definite în spațiu unidimensional sau multidimensional.

De exemplu, dacă ar fi să grupați tipuri de alimente într-o cafenea, ați putea lua în considerare numărul de calorii pe care le conține, prețul, evaluarea subiectivă a gustului etc.

Cel mai direct mod de a calcula distanțele dintre obiecte din spațiul multidimensional este calcularea distanțelor euclidiene.

Dacă aveți un spațiu bidimensional sau tridimensional, atunci această măsură este distanța geometrică reală dintre obiectele din spațiu (ca și cum distanțele dintre obiecte ar fi măsurate cu o bandă de măsurare).

Cu toate acestea, algoritmului de punere în comun nu îi pasă dacă distanțele „furnizate” pentru acea distanță sunt cele reale sau o altă măsură de distanță derivată, care este mai semnificativă pentru cercetător; iar provocarea pentru cercetători este să selecteze metoda potrivită pentru aplicații specifice.

Distanta euclidiana. Acesta pare a fi cel mai comun tip de distanță. Este pur și simplu o distanță geometrică în spațiul multidimensional și se calculează după cum urmează:

Rețineți că distanța euclidiană (și pătratul său) este calculată din datele originale, nu din datele standardizate.

Aceasta este o modalitate obișnuită de a-l calcula, care are anumite avantaje (de exemplu, distanța dintre două obiecte nu se modifică atunci când un nou obiect este introdus în analiză, care poate fi un outlier).

Atenţie!

Cu toate acestea, distanțele pot fi foarte influențate de diferențele dintre axele de la care se calculează distanțele. De exemplu, dacă una dintre axe este măsurată în centimetri și apoi o convertiți în milimetri (înmulțind valorile cu 10), atunci distanța euclidiană finală (sau pătratul distanței euclidiene) calculată din coordonate se va schimba foarte mult și, ca rezultat, rezultatele analizei cluster pot diferi foarte mult de cele anterioare.

Distanța euclidiană pătrată. Uneori poate doriți să pătrați distanța euclidiană standard pentru a da mai multă greutate obiectelor care sunt mai îndepărtate.

Această distanță se calculează după cum urmează:

Distanța de blocuri (distanța Manhattan). Această distanță este pur și simplu media diferențelor între coordonate.

În cele mai multe cazuri, această măsurătoare a distanței produce aceleași rezultate ca distanța euclidiană obișnuită.

Totuși, observăm că pentru această măsură influența diferențelor mari individuale (outliers) este redusă (deoarece nu sunt pătrate). Distanța Manhattan se calculează folosind formula:

distanta Cebyshev. Această distanță poate fi utilă atunci când se dorește să definească două obiecte ca „diferite” dacă diferă în orice coordonată (în orice dimensiune). Distanța Chebyshev se calculează folosind formula:

Distanța de putere. Uneori se dorește să crească sau să scadă progresiv o greutate legată de o dimensiune pentru care obiectele corespunzătoare sunt foarte diferite.

Acest lucru poate fi realizat folosind distanța putere-lege. Distanța de putere este calculată folosind formula:

unde r și p sunt parametri definiți de utilizator. Câteva exemple de calcule pot arăta cum „funcționează” această măsură.

Parametrul p este responsabil pentru ponderarea treptată a diferențelor de-a lungul coordonatelor individuale, parametrul r este responsabil pentru ponderarea progresivă a distanțelor mari dintre obiecte. Dacă ambii parametri r și p sunt egali cu doi, atunci această distanță coincide cu distanța euclidiană.

Procentul de dezacord. Această măsură este utilizată atunci când datele sunt categorice. Această distanță se calculează cu formula:

Reguli de asociere sau de conectare

La primul pas, când fiecare obiect este un grup separat, distanțele dintre aceste obiecte sunt determinate de măsura selectată.

Cu toate acestea, atunci când mai multe obiecte sunt legate între ele, se pune întrebarea cum ar trebui să fie determinate distanțele dintre clustere?

Cu alte cuvinte, este necesară o regulă de unire sau de conectare pentru cele două clustere. Există diferite posibilități aici: de exemplu, puteți lega două grupuri împreună atunci când oricare două obiecte din două grupuri sunt mai aproape unul de celălalt decât distanța de legătură corespunzătoare.

Cu alte cuvinte, utilizați „regula vecinului cel mai apropiat” pentru a determina distanța dintre clustere; această metodă se numește metoda legăturii unice.

Această regulă construiește clustere „fibroase”, de exemplu. clustere „legate între ele” doar prin elemente individuale care se întâmplă să fie cele mai apropiate unele de altele.

Alternativ, puteți folosi vecinii în grupuri care sunt cele mai îndepărtate unul de celălalt de toate celelalte perechi de obiecte. Această metodă se numește metoda legăturii complete.

Există, de asemenea, multe alte metode de combinare a clusterelor similare cu cele discutate.

Legătură unică (metoda celui mai apropiat vecin). După cum s-a descris mai sus, în această metodă, distanța dintre două grupuri este determinată de distanța dintre cele mai apropiate două obiecte (cei mai apropiati vecini) din grupuri diferite.

Această regulă trebuie, într-un fel, să însireze obiectele împreună pentru a forma grupuri, iar grupurile rezultate tind să fie reprezentate prin „lanțuri” lungi.

Legătură completă (metoda celor mai îndepărtați vecini).În această metodă, distanțele dintre grupuri sunt determinate de cea mai mare distanță dintre oricare două obiecte din grupuri diferite (adică „vecinii cei mai îndepărtați”).

Medie neponderată pe perechi.În această metodă, distanța dintre două grupuri diferite este calculată ca distanța medie dintre toate perechile de obiecte din ele.

Metoda este eficientă atunci când obiectele formează de fapt diferite „groves”, dar funcționează la fel de bine în cazul clusterelor extinse (de tip „lanț”).

Rețineți că în cartea lor, Sneath și Sokal (1973) introduc abrevierea UPGMA pentru a se referi la această metodă ca metoda grupurilor de perechi neponderate folosind medii aritmetice.

Media ponderată pe perechi. Metoda este identică cu metoda medie neponderată pe perechi, cu excepția faptului că dimensiunea clusterelor corespunzătoare (adică numărul de obiecte pe care le conțin) este utilizată ca factor de ponderare în calcule.

Prin urmare, metoda propusă ar trebui utilizată (mai degrabă decât cea anterioară) atunci când se presupun dimensiuni inegale ale clusterelor.

Cartea lui Sneath și Sokal (1973) introduce acronimul WPGMA pentru a se referi la această metodă ca metoda grupurilor de perechi ponderate folosind medii aritmetice.

Metoda centroidului neponderat. În această metodă, distanța dintre două grupuri este definită ca distanța dintre centrele lor de greutate.

Atenţie!

Sneath și Sokal (1973) folosesc acronimul UPGMC pentru a se referi la această metodă ca metoda grupurilor de perechi neponderate folosind media centroidului.

Metoda centroidului ponderat (mediană). Această metodă este identică cu cea anterioară, cu excepția faptului că calculele folosesc greutăți pentru a ține cont de diferența dintre dimensiunile clusterelor (adică, numărul de obiecte din ele).

Prin urmare, dacă există (sau sunt suspectate) diferențe semnificative în dimensiunea clusterelor, această metodă este de preferat celei anterioare.

Sneath și Sokal (1973) au folosit abrevierea WPGMC pentru a se referi la ea ca metoda grupurilor de perechi ponderate folosind media centroidului.

metoda lui Ward. Această metodă este diferită de toate celelalte metode, deoarece utilizează tehnici de analiză a varianței pentru a estima distanțele dintre clustere.

Metoda minimizează suma pătratelor (SS) pentru oricare două grupuri (ipotetice) care pot fi formate la fiecare pas.

Detalii pot fi găsite în Ward (1963). În general, metoda pare a fi foarte eficientă, dar tinde să creeze grupuri mici.

Această metodă a fost discutată anterior în ceea ce privește „obiectele” care trebuie grupate. În toate celelalte tipuri de analiză, întrebarea de interes pentru cercetător este de obicei exprimată în termeni de observații sau variabile.

Se dovedește că gruparea, atât prin observații, cât și pe variabile, poate duce la rezultate destul de interesante.

De exemplu, imaginați-vă că un cercetător medical colectează date despre diferite caracteristici (variabile) ale stărilor (cazurilor) pacienților care suferă de boli de inimă.

Un cercetător poate dori să grupeze observațiile (pacienții) pentru a identifica grupuri de pacienți cu simptome similare.

În același timp, cercetătorul poate dori să grupeze variabile pentru a identifica grupuri de variabile care sunt asociate cu condiții fizice similare.e

După această discuție cu privire la gruparea observațiilor sau variabilelor, s-ar putea întreba, de ce să nu grupați în ambele direcții?

Modulul Cluster Analysis conține o rutină eficientă de îmbinare bidirecțională care vă permite să faceți exact asta.

Cu toate acestea, gruparea în două sensuri este utilizată (relativ rar) în circumstanțe în care se așteaptă ca atât observațiile, cât și variabilele să contribuie simultan la descoperirea clusterelor semnificative.

Astfel, revenind la exemplul anterior, putem presupune că un cercetător medical trebuie să identifice grupuri de pacienți care sunt similare în raport cu anumite grupuri de caracteristici ale stării fizice.

Dificultatea de interpretare a rezultatelor obținute provine din faptul că asemănările între diferite clustere pot apărea din (sau pot fi cauza) unor diferențe în subseturi de variabile.

Prin urmare, clusterele rezultate sunt eterogene în natură. Acest lucru poate părea puțin neclar la început; de fapt, în comparație cu alte metode de analiză de cluster descrise, îmbinarea în două sensuri este probabil cea mai puțin utilizată metodă.

Cu toate acestea, unii cercetători cred că oferă un mijloc puternic de analiză exploratorie a datelor (pentru mai multe informații, vezi descrierea acestei metode de către Hartigan (1975).

K înseamnă metodă

Această metodă de grupare diferă semnificativ de metodele de aglomerare precum Unirea (gruparea arborilor) și Unirea în două sensuri. Să presupunem că aveți deja ipoteze despre numărul de clustere (pe baza observațiilor sau variabilelor).

Puteți spune sistemului să formeze exact trei grupuri, astfel încât acestea să fie cât mai distincte posibil.

Acesta este exact tipul de problemă pe care o rezolvă algoritmul K-means. În general, metoda K-means construiește exact K clustere diferite situate la distanțe cât mai mari unele de altele.

În exemplul condiției fizice, un cercetător medical ar putea avea o „bănuială” din experiența sa clinică că pacienții săi se încadrează în general în trei categorii diferite.

Atenţie!

Dacă acesta este cazul, atunci mediile diferitelor măsuri ale parametrilor fizici pentru fiecare cluster vor oferi o modalitate cantitativă de reprezentare a ipotezelor cercetătorului (de exemplu, pacienții din clusterul 1 au un parametru ridicat 1, un parametru scăzut 2 etc.) .

Din punct de vedere computațional, vă puteți gândi la această metodă ca la o analiză a varianței inversă. Programul începe cu K clustere selectate aleatoriu și apoi schimbă apartenența obiectelor în ele astfel încât:

  1. minimizați variabilitatea în cadrul clusterelor,
  2. maximizează variabilitatea între clustere.

Această metodă este similară cu ANOVA inversă prin faptul că testul de semnificație în ANOVA compară variabilitatea între grup și în interiorul grupului în testarea ipotezei că mediile grupului diferă unele de altele.

În gruparea K-means, programul mută obiecte (adică, observații) dintr-un grup (cluster) în altul pentru a obține cel mai semnificativ rezultat atunci când se efectuează o analiză a varianței (ANOVA).

În mod obișnuit, odată ce rezultatele unei analize de cluster K-medii sunt obținute, mediile pentru fiecare cluster de-a lungul fiecărei dimensiuni pot fi calculate pentru a evalua cât de diferite sunt clusterele unul de celălalt.

În mod ideal, ar trebui să obțineți medii foarte variate pentru majoritatea, dacă nu toate, măsurătorile utilizate în analiză.

Sursa: http://www.biometrica.tomsk.ru/textbook/modules/stcluan.html

Clasificarea obiectelor după caracteristicile lor

Analiza cluster este un set de metode statistice multidimensionale pentru clasificarea obiectelor în funcție de caracteristicile care le caracterizează, împărțirea unui set de obiecte în grupuri omogene care sunt similare în definirea criteriilor și identificarea obiectelor unui anumit grup.

Un cluster este un grup de obiecte identificate ca rezultat al analizei cluster bazate pe o anumită măsură a asemănării sau diferențelor dintre obiecte.

Obiect – acestea sunt obiecte specifice de cercetare care trebuie clasificate. Obiectele clasificării sunt, de regulă, observații. De exemplu, consumatorii de produse, țări sau regiuni, produse etc.

Deși este posibil să se efectueze analiza clusterului pe variabile. Clasificarea obiectelor în analiza cluster multidimensională are loc în funcție de mai multe criterii simultan.

Acestea pot fi variabile cantitative sau categoriale, în funcție de metoda de analiză a clusterelor. Asa de, obiectivul principal analiza cluster – găsirea de grupuri de obiecte similare într-un eșantion.

Setul de metode statistice multivariate de analiză a clusterului poate fi împărțit în metode ierarhice (aglomerative și divizibile) și neierarhice (metoda k-means, analiză cluster în două etape).

Cu toate acestea, nu există o clasificare general acceptată a metodelor, iar metodele de analiză a grupurilor includ uneori și metode de construire a arborilor de decizie, rețele neuronale, analiză discriminantă și regresie logistică.

Domeniul de utilizare al analizei cluster, datorită versatilității sale, este foarte larg. Analiza cluster este utilizată în economie, marketing, arheologie, medicină, psihologie, chimie, biologie, administrație publică, filologie, antropologie, sociologie și alte domenii.

Iată câteva exemple de utilizare a analizei cluster:

  • medicina – clasificarea bolilor, simptomele acestora, metodele de tratament, clasificarea grupelor de pacienti;
  • marketing – sarcini de optimizare a liniei de produse a companiei, segmentarea pietei pe grupe de bunuri sau consumatori, identificarea potentialilor consumatori;
  • sociologie – împărțirea respondenților în grupuri omogene;
  • psihiatrie – diagnosticarea corectă a grupelor de simptome este decisivă pentru succesul terapiei;
  • biologie - clasificarea organismelor pe grupe;
  • economie – clasificarea subiecților Federației Ruse în funcție de atractivitatea investițională.

Sursa: http://www.statmethods.ru/konsalting/statistics-metody/121-klasternyj-analiz.html

Înțelegerea analizei clusterelor

Analiza cluster include un set de algoritmi de clasificare diferiți. O întrebare comună adresată de cercetători din multe domenii este cum să organizăm datele observate în structuri vizuale.

De exemplu, biologii și-au stabilit un obiectiv de a împărți animalele în tipuri diferite pentru a descrie în mod semnificativ diferențele dintre ele.

Sarcina analizei cluster este de a împărți setul inițial de obiecte în grupuri de obiecte similare care sunt aproape unele de altele. Aceste grupuri se numesc clustere.

Cu alte cuvinte, analiza cluster este una dintre modalitățile de clasificare a obiectelor în funcție de caracteristicile lor. Este de dorit ca rezultatele clasificării să aibă o interpretare semnificativă.

Rezultatele obţinute prin metodele de analiză a clusterelor sunt utilizate într-o mare varietate de domenii. În marketing, aceasta este segmentarea concurenților și a consumatorilor.

În psihiatrie, diagnosticul corect al simptomelor precum paranoia, schizofrenia etc. este decisiv pentru succesul terapiei.

În management, este important să se clasifice furnizorii și să se identifice situații similare de producție în care apar defecte. În sociologie, împărțirea respondenților în grupuri omogene. În investițiile de portofoliu, este important să grupați valori mobiliare prin asemanare in trendul profitabilitatii in vederea alcatuirii, pe baza informatiilor obtinute despre bursa, a unui portofoliu optim de investitii care sa permita maximizarea profitului din investitii la un anumit grad de risc.

În general, ori de câte ori este necesar să se clasifice o cantitate mare de informații de acest fel și să le prezinte într-o formă adecvată pentru prelucrare ulterioară, analiza cluster se dovedește a fi foarte utilă și eficientă.

Analiza cluster vă permite să luați în considerare o cantitate destul de mare de informații și să comprimați foarte mult cantități mari de informații socio-economice, făcându-le compacte și vizuale.

Atenţie!

Analiza clusterelor este de mare importanță în raport cu seturile de serii cronologice care caracterizează dezvoltarea economică (de exemplu, condițiile economice generale și ale mărfurilor).

Aici puteți evidenția perioadele în care valorile indicatorilor corespunzători au fost destul de apropiate și, de asemenea, puteți determina grupuri de serii temporale a căror dinamică este cel mai asemănătoare.

În sarcinile de prognoză socio-economică, combinarea analizei cluster cu alte metode cantitative (de exemplu, analiza regresiei) este foarte promițătoare.

Avantaje și dezavantaje

Analiza cluster permite o clasificare obiectivă a oricăror obiecte care sunt caracterizate printr-un număr de caracteristici. Există o serie de beneficii care pot fi derivate din aceasta:

  1. Clusterele rezultate pot fi interpretate, adică pot descrie ce grupuri există de fapt.
  2. Grupurile individuale pot fi aruncate. Acest lucru este util în cazurile în care s-au făcut anumite erori la colectarea datelor, ca urmare a cărora valorile indicatorilor pentru obiecte individuale deviază brusc. Când se aplică analiza cluster, astfel de obiecte se încadrează într-un cluster separat.
  3. Doar acele clustere care au caracteristicile de interes pot fi selectate pentru o analiză ulterioară.

Ca orice altă metodă, analiza cluster are anumite dezavantaje și limitări. În special, compoziția și numărul de clustere depind de criteriile de partiție selectate.

La reducerea matricei de date originale la o formă mai compactă, pot apărea anumite distorsiuni, iar caracteristicile individuale ale obiectelor individuale se pot pierde din cauza înlocuirii lor cu caracteristicile valorilor generalizate ale parametrilor clusterului.

Metode

În prezent, sunt cunoscuți mai mult de o sută de algoritmi diferiți de grupare. Diversitatea lor este explicată nu numai prin diferite metode de calcul, ci și prin diferite concepte care stau la baza grupării.

Următoarele metode de grupare sunt implementate în pachetul Statistica.

  • Algoritmi ierarhici - clustering arbore. Algoritmii ierarhici se bazează pe ideea de grupare secvențială. La pasul inițial, fiecare obiect este considerat ca un grup separat. În pasul următor, unele dintre clusterele cele mai apropiate unele de altele vor fi combinate într-un cluster separat.
  • Metoda K-means. Această metodă este folosită cel mai des. Ea aparține grupului de așa-numite metode de referință de analiză a clusterelor. Numărul de clustere K este specificat de utilizator.
  • Combinație cu două intrări. Când se utilizează această metodă, gruparea se realizează simultan atât prin variabile (coloane), cât și prin observații (rânduri).

Procedura de punere în comun în două sensuri este utilizată în cazurile în care gruparea simultană între variabile și observații poate produce rezultate semnificative.

Rezultatele procedurii sunt statistici descriptive pentru variabile și observații, precum și o diagramă de culori bidimensională în care valorile datelor sunt codificate cu culori.

Pe baza distribuției culorilor, vă puteți face o idee despre grupurile omogene.

Normalizarea variabilelor

Partiționarea setului inițial de obiecte în clustere implică calcularea distanțelor dintre obiecte și selectarea obiectelor a căror distanță este cea mai mică dintre toate posibile.

Cea mai des folosită este distanța euclidiană (geometrică) care ne este familiară tuturor. Această metrică corespunde ideilor intuitive despre apropierea obiectelor în spațiu (ca și cum distanțele dintre obiecte ar fi măsurate cu o bandă de măsurare).

Dar pentru o anumită metrică, distanța dintre obiecte poate fi afectată în mare măsură de modificările scalelor (unități de măsură). De exemplu, dacă una dintre caracteristici este măsurată în milimetri și apoi valoarea ei este convertită în centimetri, distanța euclidiană dintre obiecte se va schimba foarte mult. Acest lucru va duce la faptul că rezultatele analizei cluster pot diferi semnificativ de cele anterioare.

Dacă variabilele sunt măsurate în diferite unități de măsură, atunci este necesară normalizarea lor preliminară, adică o transformare a datelor originale care le transformă în mărimi adimensionale.

Normalizarea distorsionează foarte mult geometria spațiului original, ceea ce poate modifica rezultatele grupării

În pachetul Statistica, normalizarea oricărei variabile x se realizează folosind formula:

Pentru a face acest lucru, faceți clic dreapta pe numele variabilei și selectați secvența de comenzi din meniul care se deschide: Umplere/ Standardizare bloc/ Standardizare coloane. Valorile variabilei normalizate vor deveni egale cu zero, iar varianța va deveni egală cu unu.

Metoda K-means în programul Statistica

Metoda K-means împarte un set de obiecte într-un număr dat K de grupuri diferite situate la distanțe cât mai mari unele de altele.

În mod obișnuit, odată ce rezultatele unei analize de cluster K-medii sunt obținute, mediile pentru fiecare cluster de-a lungul fiecărei dimensiuni pot fi calculate pentru a evalua cât de diferite sunt clusterele unul de celălalt.

În mod ideal, ar trebui să obțineți medii foarte variate pentru majoritatea măsurătorilor utilizate în analiză.

Valorile F-statistice obținute pentru fiecare dimensiune sunt un alt indicator al cât de bine discriminează dimensiunea corespunzătoare între clustere.

Ca exemplu, luați în considerare rezultatele unui sondaj a 17 angajați ai unei întreprinderi privind satisfacția cu indicatorii calității carierei lor. Tabelul oferă răspunsuri la întrebările sondajului pe o scară de zece puncte (1 este scorul minim, 10 este cel maxim).

Numele variabilelor corespund răspunsurilor la următoarele întrebări:

  1. SLC – o combinație de obiective personale și obiective organizaționale;
  2. OSO – simțul echității în remunerație;
  3. TBD - apropierea teritorială de domiciliu;
  4. OEB – sentiment de bunăstare economică;
  5. KR – creșterea carierei;
  6. JSR – dorinta de schimbare a locului de munca;
  7. RSD – sentiment de bunăstare socială.

Folosind aceste date, este necesară împărțirea angajaților în grupuri și identificarea celor mai eficiente pârghii de management pentru fiecare dintre ei.

În același timp, diferențele dintre grupuri ar trebui să fie evidente, iar în cadrul grupului respondenții ar trebui să fie cât mai asemănători.

Astăzi majoritatea sondaje de opinie dă doar procentul de voturi: se ia în considerare numărul principal al celor care au răspuns pozitiv, sau procentul celor nemulțumiți, dar această problemă nu este luată în considerare sistematic.

Cel mai adesea, sondajul nu arată o tendință a situației. În unele cazuri, este necesar să se numără nu numărul de oameni care sunt „pentru” sau „împotrivă”, ci distanța sau măsura asemănării, adică să se determine grupuri de oameni care gândesc aproximativ la fel.

Procedurile de analiză a clusterelor pot fi folosite pentru a identifica, pe baza datelor sondajului, unele relații cu adevărat existente între caracteristici și pentru a genera tipologia acestora pe această bază.

Atenţie!

Prezența oricăror ipoteze a priori a unui sociolog atunci când lucrează cu proceduri de analiză a clusterelor nu este o condiție necesară.

În Statistica, analiza cluster este efectuată după cum urmează.

Atunci când alegeți numărul de clustere, ghidați-vă după următoarele: numărul de clustere, dacă este posibil, nu trebuie să fie prea mare.

Distanța la care obiectele unui anumit cluster au fost unite ar trebui, dacă este posibil, să fie mult mai mică decât distanța la care altceva se alătură acestui cluster.

Atunci când alegeți numărul de clustere, cel mai adesea există mai multe soluții corecte în același timp.

Suntem interesați, de exemplu, de modul în care răspunsurile la întrebările sondajului se compară între angajații obișnuiți și conducerea întreprinderii. Prin urmare alegem K=2. Pentru o segmentare suplimentară, puteți crește numărul de clustere.

  1. selectați observațiile cu distanța maximă dintre centrele clusterului;
  2. sortați distanțele și selectați observațiile la intervale regulate (setare implicită);
  3. luați ca centre primele observații și atașați-le obiectele rămase.

Pentru scopurile noastre, opțiunea 1) este potrivită.

Mulți algoritmi de grupare „impun” adesea o structură nenaturală asupra datelor și dezorientează cercetătorul. Prin urmare, este extrem de necesar să se aplice mai mulți algoritmi de analiză a clusterelor și să se tragă concluzii pe baza unei evaluări generale a rezultatelor algoritmilor.

Rezultatele analizei pot fi vizualizate în caseta de dialog care apare:

Dacă selectați fila Grafic de medii, va fi construit un grafic al coordonatele centrelor clusterului:


Fiecare linie întreruptă din acest grafic corespunde unuia dintre grupuri. Fiecare diviziune pe axa orizontală a graficului corespunde uneia dintre variabilele incluse în analiză.

Axa verticală corespunde valorilor medii ale variabilelor pentru obiectele incluse în fiecare dintre clustere.

Se poate observa că există diferențe semnificative în atitudinea celor două grupuri de oameni față de Carieră pe aproape toate problemele. Există unanimitate totală doar cu privire la o singură problemă – sentimentul de bunăstare socială (SSW), sau mai degrabă, lipsa acestuia (2,5 puncte din 10).

Putem presupune că clusterul 1 reprezintă lucrătorii, iar clusterul 2 reprezintă managementul. Managerii sunt mai mulțumiți de creșterea carierei (CG), combinația dintre obiectivele personale și obiectivele organizaționale (CLO).

Au niveluri mai ridicate de bunăstare economică percepută (SEW) și echitate salarială percepută (SPE).

Aceștia sunt mai puțin preocupați de proximitatea teritorială față de domiciliu (TPH) decât lucrătorii, probabil din cauza mai puține probleme cu transportul. De asemenea, managerii au mai puțină dorință de a schimba locul de muncă (JSR).

În ciuda faptului că lucrătorii sunt împărțiți în două categorii, ei răspund la majoritatea întrebărilor relativ egal. Cu alte cuvinte, dacă ceva nu ți se potrivește grup general angajații, conducerea superioară nu este mulțumită de același lucru și invers.

Coordonarea programelor ne permite să tragem concluzii că bunăstarea unui grup se reflectă în bunăstarea altuia.

Clusterul 1 nu este mulțumit de apropierea teritorială de casă. Acest grup este cea mai mare parte a lucrătorilor care vin în principal la întreprindere din diferite părți ale orașului.

Prin urmare, este posibil să se propună conducerii principale să aloce o parte din profit pentru construcția de locuințe pentru angajații companiei.

Există diferențe semnificative în atitudinea celor două grupuri de oameni față de cariera lor. Acei angajați care sunt mulțumiți de creșterea în carieră, care au un nivel ridicat de acord între obiectivele lor personale și obiectivele organizației, nu au dorința de a schimba locul de muncă și se simt mulțumiți de rezultatele muncii lor.

În schimb, angajații care doresc să-și schimbe locul de muncă și sunt nemulțumiți de rezultatele muncii lor nu sunt mulțumiți de indicatorii enunțați. La conducerea superioară ar trebui abordat Atentie speciala la situația actuală.

Rezultatele analizei varianței pentru fiecare caracteristică sunt afișate făcând clic pe butonul Analiză varianței.

Sunt afișate suma abaterilor pătrate ale obiectelor de la centrele clusterului (SS Within) și suma abaterilor pătrate dintre centrele clusterului (SS Between), valorile statistice F și nivelurile de semnificație p.

Atenţie!

Pentru exemplul nostru, nivelurile de semnificație pentru două variabile sunt destul de mari, ceea ce se explică prin numărul mic de observații. În versiunea completă a studiului, care poate fi găsită în lucrare, ipoteza despre egalitatea de medii pentru centrele cluster este respinsă la niveluri de semnificație mai mici de 0,01.

Butonul Salvare clasificări și distanțe afișează numărul de obiecte incluse în fiecare grup și distanțele obiectelor până la centrul fiecărui grup.

Tabelul prezintă numerele de observație (CASE_NO), clusterele constitutive cu numere CLUSTER și distanța de la centrul fiecărui cluster (DISTANCE).

Informațiile despre obiectele aparținând clusterelor pot fi scrise într-un fișier și utilizate în analize ulterioare. În acest exemplu, o comparație a rezultatelor obținute cu chestionarele a arătat că clusterul 1 este format în principal din lucrători obișnuiți, iar clusterul 2 din manageri.

Astfel, se poate observa că la procesarea rezultatelor sondajului, analiza cluster s-a dovedit a fi o metodă puternică care ne permite să tragem concluzii la care nu se poate ajunge prin construirea unei histograme de medii sau calculând procentul de persoane mulțumite de diverși indicatori ai calitatea vieții de muncă.

Agruparea arborelui este un exemplu de algoritm ierarhic, al cărui principiu este să se combine secvenţial într-un cluster, mai întâi elementele cele mai apropiate, apoi din ce în ce mai îndepărtate unele de altele.

Majoritatea acestor algoritmi pornesc de la o matrice de similaritate (distanță), iar fiecare element individual este considerat mai întâi ca un cluster separat.

După încărcarea modulului de analiză a clusterului și selectarea Joining (tree clustering), în fereastra de introducere a parametrilor de clustering, puteți modifica următorii parametri:

  • Date inițiale (Intrare). Ele pot fi sub forma unei matrice a datelor studiate (Date brute) și sub forma unei matrice a distanțelor (Matricea distanței).
  • Clustering de observații (Cazuri (raw)) sau variabile (Variabilă (coloane)) care descriu starea unui obiect.
  • Măsurarea distanței. Aici puteți selecta următoarele măsuri: distanțe euclidiene, distanțe euclidiene pătrate, distanță City-block (Manhattan), distanță metrică Chebychev, distanță putere ...), Dezacord procentual.
  • Metoda de grupare (regula de amalgamare (legare)). Următoarele opțiuni sunt posibile aici: Legătură unică, Legătură completă, Media neponderată a grupului de perechi, Media ponderată a grupului de perechi ), centroid neponderat al grupului de perechi, centroid ponderat al grupului de perechi (mediană), metoda lui Ward.

Ca rezultat al grupării, se construiește o dendrogramă orizontală sau verticală - un grafic pe care distanțele dintre obiecte și grupuri sunt determinate atunci când sunt combinate secvenţial.

Structura arborescentă a graficului vă permite să definiți clustere în funcție de pragul selectat - o distanță specificată între clustere.

În plus, este afișată o matrice a distanțelor dintre obiectele originale (Matricea distanțelor); abaterile medii și standard pentru fiecare obiect sursă (statistici distiptive).

Pentru exemplul luat în considerare, vom efectua o analiză cluster a variabilelor cu setări implicite. Dendrograma rezultată este prezentată în figură.


Axa verticală a dendrogramei arată distanțele dintre obiecte și dintre obiecte și clustere. Astfel, distanța dintre variabilele OEB și OSD este de cinci. La primul pas, aceste variabile sunt combinate într-un singur cluster.

Segmentele orizontale ale dendrogramei sunt desenate la niveluri corespunzătoare valorilor distanței de prag selectate pentru un anumit pas de grupare.

Graficul arată că întrebarea „dorința de a schimba locul de muncă” (WSW) formează un grup separat. În general, dorința de a merge oriunde îi vizitează pe toată lumea în mod egal. În continuare, un grup separat este problema proximității teritoriale față de casă (TDP).

Din punct de vedere al importanței, se află pe locul doi, ceea ce confirmă concluzia despre necesitatea construcției de locuințe făcută pe baza rezultatelor studiului folosind metoda K-means.

Percepția bunăstării economice (SEW) și echitatea salarială (WFE) sunt combinate - acesta este un bloc de probleme economice. Dezvoltarea carierei (CR) și combinația de obiective personale și organizaționale (LOG) sunt, de asemenea, combinate.

Alte metode de grupare, precum și alegerea altor tipuri de distanțe, nu duc la o modificare semnificativă a dendrogramei.

Rezultate:

  1. Analiza cluster este un instrument puternic pentru analiza exploratorie a datelor și cercetarea statistică în orice domeniu.
  2. Programul Statistica implementează atât ierarhice cât și metode structurale analiza grupului. Avantajele acestui pachet statistic provin din capacitățile lor grafice. Sunt oferite afișări grafice bidimensionale și tridimensionale ale clusterelor rezultate în spațiul variabilelor studiate, precum și rezultatele procedurii ierarhice de grupare a obiectelor.
  3. Este necesar să se aplice mai mulți algoritmi de analiză a clusterelor și să se tragă concluzii pe baza unei evaluări generale a rezultatelor algoritmilor.
  4. Analiza cluster poate fi considerată reușită dacă este finalizată căi diferite, rezultatele au fost comparate și s-au găsit modele generale și au fost găsite clustere stabile indiferent de metoda de grupare.
  5. Analiza cluster vă permite să identificați situațiile problemă și să schițați modalități de rezolvare a acestora. În consecință, această metodă de statistică neparametrică poate fi considerată ca parte integrantă a analizei sistemului.

Utilizarea metodelor practice moderne de analiză și recunoaștere a datelor este solicitată în domeniile tehnic și umanitar, în știință și producție, afaceri și finanțe. Această descriere prezintă esența algoritmică de bază, a cărei înțelegere este utilă pentru mai multe utilizare eficientă metode de recunoaștere și clasificare în analiza datelor.

1. Problema recunoașterii (clasificarea supravegheată) și stadiul actual al tehnicii în domeniul metodelor practice de rezolvare a acesteia. Principalele etape ale dezvoltării teoriei și practicii recunoașterii: crearea de algoritmi euristici, modele de recunoaștere și optimizare a modelului, abordarea algebrică a corecției modelului. Principalele abordări se bazează pe construcția suprafețelor divizoare, funcții potențiale, modele statistice și de rețele neuronale, arbori de decizie și altele.

Principalele abordări și algoritmi ai metodelor de recunoaștere combinatorială-logică (modele de calculare a estimărilor sau algoritmi bazați pe principiul precedenței parțiale), dezvoltați la Centrul de calcul al Academiei Ruse de Științe numit după. A.A. Dorodnitsyna. Aceste modele se bazează pe ideea căutării unor precedente parțiale importante în descrierile caracteristicilor datelor sursă (fragmente informative ale valorilor caracteristicilor sau seturi reprezentative). Pentru caracteristici reale, se găsesc vecinătăți optime de fragmente informative. În altă terminologie, aceste precedente parțiale sunt numite cunoștințe sau modele logice care conectează valorile caracteristicilor inițiale cu o valoare recunoscută sau prezisă. Cunoștințele găsite sunt informații importante despre clasele (imaginile) de obiecte studiate. Ele sunt utilizate direct în rezolvarea problemelor de recunoaștere sau predicție, oferă o reprezentare vizuală a interdependențelor existente în date, care are valoare independentă pentru cercetători și poate servi drept bază pentru crearea ulterioară a modelelor precise ale obiectelor, situațiilor, fenomene sau procese studiate. Pe baza cunoștințelor găsite, se calculează și valorile unor astfel de cantități utile, cum ar fi gradul de importanță (conținutul de informații) al caracteristicilor și obiectelor, corelațiile logice ale caracteristicilor și descrierile logice ale claselor de obiecte și problema minimizării. spațiul de caracteristici este rezolvat.

2. Metode de rezolvare a problemei principale a analizei cluster (clasificare nesupravegheată) - găsirea grupărilor de obiecte (clustere) într-un eșantion dat de date multidimensionale. Dat scurtă recenzie principalele abordări pentru rezolvarea problemei analizei cluster și o descriere a metodei comitetului de sinteză a soluțiilor colective.

3. Sistem software analiză inteligentă a datelor, recunoaștere și prognoză RECUNOAȘTERE. Cerințele pentru sistem se bazează pe ideile de universalitate și inteligență. Universalitatea sistemului înseamnă posibilitatea aplicării lui la o gamă cât mai largă de probleme (pe dimensiuni, după tip, calitate și structura datelor, prin valori calculate). Inteligența este înțeleasă ca prezența elementelor de auto-ajustare și capacitatea de a rezolva cu succes în mod automat problemele de către un utilizator necalificat. În cadrul Sistemului RECUNOAȘTERE a fost dezvoltată o bibliotecă de programe care implementează metode liniare, combinatorii-logice, statistice, neuronale, metode hibride de prognoză, clasificare și extragere a cunoștințelor din precedente, precum și metode colective de prognoză și clasificare.


1. Algoritmi de recunoaștere bazați pe calculul scorurilor. Recunoașterea se realizează pe baza comparării obiectului recunoscut cu obiectele de referință bazate pe diferite seturi de caracteristici și prin utilizarea procedurilor de vot. Parametri optimi regula decisiva iar procedurile de vot se găsesc din rezolvarea problemei de optimizare a modelului de recunoaștere - se determină astfel de valori ale parametrilor la care acuratețea recunoașterii (numărul de răspunsuri corecte pe eșantionul de antrenament) este maximă.

2. Algoritmi de vot pentru testele de blocaj. Compararea obiectului recunoscut cu cele de referință se realizează folosind diferite subseturi „informative” de caracteristici. Ca astfel de subsisteme de caracteristici, sunt utilizate teste de capăt (sau analogi ai testelor de capăt pentru caracteristici cu valoare reală) ale diferitelor subtabele aleatorii ale tabelului original de standarde.

Pe baza eșantionului de antrenament, se calculează seturi de modele logice ale fiecărei clase - seturi de caracteristici și intervale ale valorilor lor caracteristice fiecărei clase. La recunoașterea unui nou obiect, se calculează numărul de modele logice ale fiecărei clase care sunt executate pe obiectul recunoscut. Fiecare „performanță” individuală este considerată un „vot” în favoarea clasei corespunzătoare. Obiectul aparține clasei pentru care suma normalizată de „voturi” este maximă. Această metodă vă permite să estimați ponderile caracteristicilor, corelațiile logice ale caracteristicilor, să construiți descrieri logice ale claselor și să găsiți subspații minime ale caracteristicilor.

4. Algoritmi pentru votul ponderat statistic.

Pe baza datelor eșantionului de instruire, se găsesc modele logice ale claselor fundamentate statistic. La recunoașterea unor obiecte noi, se calculează o estimare a probabilității ca obiectul să aparțină fiecăreia dintre clase, care este o sumă ponderată de „voturi”.

5. Mașină liniară.

Pentru fiecare clasă de obiecte se găsește o anumită funcție liniară. Obiectul recunoscut aparține clasei a cărei funcție ia valoarea maximă pe acest obiect. Funcțiile de clasă liniare optime se găsesc ca urmare a rezolvării problemei găsirii subsistemului comun maxim al unui sistem de inegalități liniare, care se formează din eșantionul de antrenament. Ca rezultat, se găsește o suprafață liniară specială în bucăți care împarte corect numărul maxim de elemente ale setului de antrenament.

6. Discriminant liniar Fisher.

O metodă statistică clasică pentru construirea de suprafețe liniare pe bucăți care separă clase. Condiții favorabile pentru aplicabilitatea discriminantului liniar al lui Fisher sunt următorii factori: separabilitatea liniară a claselor, dihotomia, „structura simplă” a claselor, nedegenerarea matricelor de covarianță, absența valorilor aberante. Modificarea creată a discriminantului liniar Fisher îi permite să fie utilizat cu succes în cazuri „nefavorabile”.

7. Metoda K-cele mai apropiate vecini.

Metoda statistică clasică. Obiectul recunoscut aparține clasei din care are numărul maxim de vecini. Numărul optim de vecini și probabilitățile de clasă anterioară sunt estimate din setul de antrenament.

8. Model de rețea neuronală de recunoaștere a retropropagarii

A fost creată o modificare a metodei binecunoscute de antrenare a unei rețele neuronale pentru recunoașterea modelelor (metoda de propagare inversă). Ca criteriu pentru calitatea parametrilor actuali ai unei rețele neuronale, este utilizat un criteriu hibrid, care ia în considerare atât suma abaterilor pătrate a valorilor semnalului de ieșire de la valorile necesare, cât și numărul de clasificări eronate. pe platoul de antrenament.

9.Suport mașină vectorială.

Metodă de construire a unei suprafețe divizoare neliniare folosind vectori suport. În noul spațiu de caracteristici (spațiul de rectificare), se construiește o suprafață divizoare apropiată de liniar. Construcția acestei suprafețe se reduce la rezolvarea unei probleme de programare pătratică.

10. Algoritmi pentru rezolvarea problemelor de recunoaștere de către echipe de diverși algoritmi de recunoaștere.

Problema recunoașterii este rezolvată în două etape. În primul rând, diverși algoritmi de sistem sunt aplicați independent. În continuare, soluția colectivă optimă este găsită automat folosind metode speciale „corectore”. Diferite abordări sunt utilizate ca metode corective.

11. Metode de analiză a clusterelor (clasificare automată sau învățare nesupravegheată).

Sunt utilizate următoarele abordări cunoscute:

Algoritmi de grupare ierarhică;

Clustering cu criteriul minimizării sumei abaterilor pătrate;

Metoda K-means.

Este posibil să se rezolve problema de clasificare atât cu un număr dat, cât și cu un număr necunoscut de clase.

12. Algoritm pentru construirea de soluții colective la problema de clasificare.

Problema de clasificare este rezolvată în două etape. Mai întâi există un set diverse solutii(sub formă de acoperiri sau partiții) cu un număr fix de clase folosind diverși algoritmi de sistem. În continuare, clasificarea colectivă optimă este găsită ca rezultat al rezolvării unei probleme speciale de optimizare discretă.

10.2. Exploatarea datelor ( Date Minerit )

Sfera tiparelor diferă de cele două anterioare prin faptul că conține informații acumulate rezumat automat la informații, care poate fi caracterizat CUM SĂ CUNOAȘTI.

Tehnologia de extragere a datelor (DM) a devenit proprie în ultimul deceniu, jucând un rol central în multe domenii de afaceri.

    Cu toții suntem supuși exploatării datelor de zeci de ori pe zi - începând de la primirea de liste de corespondență, concursuri în magazine, ziare gratuite pe stradăși terminând cu aplicarea algoritmi de detectare a fraudei, analizând orice achiziție cu cardul de credit .

    Motivul pentru utilizarea pe scară largă a metodelor de data mining: dau rezultate bune. Tehnologia poate îmbunătăți semnificativ capacitatea unei organizații de a-și atinge obiectivele.

    Popularitatea sa este în creștere pe măsură ce instrumentele sunt îmbunătățite și utilizate pe scară largă, devin mai ieftine și mai ușor de utilizat.

Există doi termeni traduși ca data mining (IDA) - aceștia sunt Knowledge Discovery in Databases (KDD) și Data Mining (DM).

Exploatarea datelor este procesul de căutare date neprelucrate 1) corelații, tendințe, relații, asocieri și tipare prin diverși 2) algoritmi matematici și statistici.

    Majoritatea metodelor IDA au fost dezvoltate inițial în cadrul teoriei inteligenței artificiale în anii 1970 și 1080. Dar s-au răspândit abia în anii 1990, când problema intelectualizării prelucrării unor volume mari și în creștere rapidă de date corporative a impus utilizarea lor ca supliment pentru depozitele de date.

Scopul acestei căutări(etapele IAD) –

        1) Pregătiți datele într-o formă care să reflecte în mod clar procesele de afaceri.

        2) Construiți modele cu ajutorul cărora puteți anticipa procesele care sunt critice pentru planificarea afacerii:

        • (2a) efectuează validarea și evaluarea modelului;

        3) Efectuați analiza datelor istorice pentru a lua decizii:

        • (3a) selectarea și aplicarea modelului;

          (3b) corectarea și actualizarea modelelor.

Clasificarea sarcinilor IAD pe tipuri de informații preluate

În cele mai multe cazuri Sarcinile IAD sunt clasificate în funcție de tipurile de informații produse. Sarcinile (modelele) de data mining sunt împărțite în 2 clase:

    (1) modele predictive cu ajutorul lor se realizează predicția valorilor atributelor numerice.

    (2) modele descriptive (descriptive)., care descriu tipare generale domeniul subiectului.

Cel mai frapant reprezentant al primei clase este problema de clasificare.

1. Clasificare- aceasta este identificarea semnelor, un set de reguli care caracterizează grupul.

Cea mai comună sarcină IAD. Ea permite identifica trăsăturile care caracterizează grupuri similare de obiecte(clase), astfel încât, pe baza valorilor cunoscute ale acestor caracteristici, un nou obiect poate fi clasificat într-o singură clasă.

    Utilizarea tipică a clasificării - concurenţa între furnizorii de bunuri şi servicii pentru anumite grupuri de clienţi. Clasificarea poate ajuta la determinarea caracteristicilor clienților instabili care sunt înclinați să treacă la alt furnizor, ceea ce ne permite să găsim strategia optimă pentru a-i păstra de la acest pas (prin acordarea de reduceri, stimulente sau chiar prin munca individuala cu reprezentanți ai „grupurilor de risc” ).

Folosind modelul de clasificare, sunt rezolvate următoarele sarcini:

    dacă noul client aparține uneia dintr-un set de clase existente;

    dacă un anumit curs de tratament este potrivit pentru pacient;

    identificarea grupurilor de clienți nesiguri;

    identificarea grupurilor de clienți cărora să le fie trimis un catalog cu produse noi.

Pentru rezolvarea problemei de clasificare pot fi utilizate următoarele metode:

      Algoritmi de tip Lazy-Learning, inclusiv binecunoscutii algoritmi Nearest Neighbor și k-Nearest Neighbor,

      Rețele bayesiene sau rețele neuronale.

      clasificare folosind arbori de decizie;

      clasificare a mașinii vectoriale de suport;

      metode statistice, în special regresia liniară;

      clasificare folosind metoda CBR;

      clasificare folosind algoritmi genetici.

Pentru a efectua clasificarea folosind metode matematice, trebuie să aveți descrierea formală a unui obiect, care poate fi operată cu ajutorul aparatului de clasificare matematică. Această descriere este de obicei Bază de date. Fiecare obiect (înregistrarea bazei de date) poartă informații despre o anumită proprietate a obiectului. Setul de date sursă este împărțit în două seturi: antrenament și testare.

        Set de antrenament (Instruirea stabilit) - un set care include date folosite pentru a antrena (construi) modelul.

        Test (Testa stabilit) o multime de folosit pentru a verifica funcționalitatea modelului.

Împărțirea în seturi de antrenament și de testare se realizează prin împărțirea eșantionului într-o anumită proporție, de exemplu, setul de antrenament este două treimi din date și setul de testare este o treime din date. Această metodă ar trebui utilizată pentru mostre cu un număr mare de exemple. Dacă dimensiunea eșantionului este mică, se recomandă utilizarea unor metode speciale, în care probele de antrenament și de testare se pot suprapune parțial

Procesul de clasificare constă în două etape: construirea modelului și utilizarea acestuia.

    Construcția modelului: descrierea unui set de clase predefinite.

Fiecare exemplu de set de date aparține unei clase predefinite.

În această etapă, se utilizează setul de antrenament și se construiește modelul. Modelul rezultat este reprezentat de reguli de clasificare, un arbore de decizie sau o formulă matematică.

    Utilizarea modelului: clasificarea valorilor noi sau necunoscute.

Evaluarea corectitudinii (acurateții) modelului.

        A) Valorile cunoscute din cazul de testare sunt comparate cu rezultatele utilizării modelului rezultat.

        B) Nivel de acuratețe - procentul de exemple clasificate corect în setul de testare.

        C) Set de testare, adică setul pe care este testat modelul construit nu trebuie să depindă de setul de antrenament.

Dacă acuratețea modelului obținut este acceptabilă, este posibil să se utilizeze modelul pentru a clasifica noi exemple a căror clasă este necunoscută.

Acuratețea clasificării: estimarea ratei de eroare

Precizia clasificării poate fi evaluată prin validare încrucișată. Validare încrucișată este o procedură de evaluare a acurateței clasificării asupra datelor dintr-un set de testare, care se mai numește și set de validare încrucișată. Precizia de clasificare a setului de testare este comparată cu precizia de clasificare a setului de antrenament. Dacă clasificarea setului de testare oferă aproximativ aceleași rezultate de precizie ca și clasificarea setului de antrenament, se consideră că modelul a trecut de validarea încrucișată.

Cei mai proeminenți reprezentanți ai clasei a doua sunt problemele de grupare, asociere, succesiune etc.

Orez. Compararea problemelor de clasificare și clustering

2. Clustering- Acest identificarea grupurilor omogene de date.

Continuă logic ideea de clasificare în un caz mai complex este atunci când clasele în sine nu sunt predefinite. Rezultatul utilizării unei metode care realizează clustering este tocmai determinarea (printr-o căutare liberă) a împărțirii inerente în grupuri a datelor studiate.

    În exemplul de mai sus„grupuri de risc” - categorii de clienți care sunt gata să treacă la alt furnizor - mijloacele de grupare pot fi determinate înainte de începerea procesului de îngrijire, ceea ce va permite mai degrabă prevenirea problemelor decât corectarea de urgență.

Metodele folosite sunt: antrenament „nesupravegheat” a unui tip special de rețele neuronale - rețele Kohonen, precum și inducerea regulilor .

Clusteringul este conceput pentru a împărți o colecție de obiecte în grupuri omogene (clustere sau clase). Dacă datele eșantionului sunt reprezentate ca puncte în spațiul caracteristicilor, atunci problema grupării se reduce la determinarea „concentrațiilor de puncte”.

Scopul grupării este de a căuta structuri existente. Clusteringul este o procedură descriptivă și nu face inferențe statistice, dar face posibilă efectuarea unei analize exploratorii și studierea „structurii datelor”.

Însuși conceptul de „cluster” este definit ambiguu: fiecare studiu are propriile „clustere”. Conceptul de cluster este tradus ca „cluster”, „bunch”.

Un cluster poate fi caracterizat ca un grup de obiecte care au proprietăți comune.

Caracteristicile unui cluster pot fi descrise ca două:

        omogenitate internă;

        izolare externă.

Clusterele pot fi nesuprapune sau exclusiv (nesuprapunere, exclusivă) și intersectare (suprapunere).

Calitatea grupării poate fi evaluată pe baza următoarelor proceduri:

    verificare manuală;

    stabilirea punctelor de control și verificarea clusterelor rezultate;

    determinarea stabilității grupării prin adăugarea de noi variabile la model;

    crearea și compararea clusterelor folosind diferite metode. Metode diferite clustering-urile pot crea diferite clustere, iar acest lucru este normal. Cu toate acestea, creând clustere similare diverse metode indică corectitudinea grupării.

Analiza clusterelor în cercetarea de marketing

În cercetarea de marketing, analiza cluster este folosită destul de larg - atât în ​​cercetarea teoretică, cât și de către specialiștii în marketing care rezolvă probleme de grupare a diverselor obiecte. În același timp, se rezolvă întrebările despre grupuri de clienți, produse etc.

Una dintre cele mai importante sarcini atunci când se aplică analiza cluster în cercetarea de marketing este analiza comportamentului consumatorului, și anume:

    gruparea consumatorilor în clase omogene pentru a obține cea mai completă imagine a comportamentului unui client din fiecare grup și a factorilor care îi influențează comportamentul.

O problemă importantă pe care o poate rezolva analiza cluster este poziționarea, adică. determinarea nisei in care ar trebui pozitionat noul produs oferite pe piata. Ca rezultat al aplicării analizei cluster, se construiește o hartă din care se poate determina nivelul concurenței pe diferite segmente de piață si caracteristicile corespunzatoare ale produsului pentru posibilitatea intrarii in acest segment. Analizând o astfel de hartă este posibil identificarea unor nișe noi, neocupate de pe piață, în care puteți oferi produse existente sau dezvolta altele noi.

Analiza cluster poate fi, de asemenea, utilă, de ex. pentru a analiza clienții companiei. Pentru a face acest lucru, toți clienții sunt grupați în clustere și este dezvoltată o politică individuală pentru fiecare cluster. Această abordare vă permite să reduceți semnificativ obiectele de analiză și, în același timp, să luați o abordare individuală a fiecărui grup de clienți.

3. Regulile de asociere– căutarea evenimentelor legate între ele.

O asociere nu este determinată pe baza valorilor proprietăților unui singur obiect sau eveniment, dar are loc între două sau mai multe evenimente care au loc simultan. În același timp, regulile produse indică faptul că atunci când are loc un eveniment, altul are loc cu diferite grade de probabilitate. Puterea asocierii este cuantificată prin mai multe cantități; de exemplu, pot fi utilizate următoarele trei caracteristici:

    A) predictibilitatea) determină cât de des apar evenimentele X și Y împreună, ca proporție din numărul total de evenimente X;

Deci, în cazul achiziționării unui televizor (X), se cumpără și un VCR în 65% din cazuri (Y);

    b) prevalenţă arată cât de des apare apariția simultană a evenimentelor X și Y în raport cu numărul total de momente ale evenimentelor înregistrate;

Cu alte cuvinte, cât de des se face achiziția simultană a unui televizor și a unui VCR dintre toate achizițiile efectuate;

    c) predictibilitatea aşteptată arată predictibilitatea care s-ar fi dezvoltat în absența unei relații între evenimente;

De exemplu, cât de des ar fi achiziționat un VCR, indiferent dacă a fost achiziționat un televizor?

4. Detectarea secvenței– căutarea lanțurilor de evenimente legate în timp.

La fel ca asocierile, secvențele au loc între evenimente, dar nu au loc simultan, ci cu un anumit interval de timp. Astfel, asocierea este un caz special al unei secvențe cu un decalaj de timp zero.

Dacă VCR-ul nu a fost achiziționat împreună cu televizorul, în termen de o lună de la achiziționarea unui televizor nou, un VCR este achiziționat în 51% din cazuri.

5. Prognoza– o încercare de a găsi modele care să reflecte în mod adecvat dinamica comportamentului sistemului, de ex. prezicerea comportamentului unui sistem în viitor pe baza informațiilor istorice .

O formă de predicție care, pe baza comportamentului datelor actuale și istorice, estimează valorile viitoare ale anumitor indicatori numerici.

În probleme de acest tip, metodele tradiționale de statistică matematică, precum și rețelele neuronale, sunt cel mai des folosite.

Prognoza (din grecescul Prognosis),în sensul larg al cuvântului, este definită ca o reflectare avansată a viitorului. Scopul prognozei este de a prezice evenimente viitoare.

Rezolvarea problemei de prognoză se rezumă la rezolvarea următoarelor subsarcini:

    selectarea unui model de prognoză;

    analiza adecvării și acurateței prognozei construite.

Probleme de clasificare și predicție - asemănări și diferențe.

Deci, care sunt asemănările dintre problemele de predicție și de clasificare??

Ambele probleme implică un proces în doi pași de construire a unui model dintr-un set de antrenament și de utilizare pentru a prezice valori necunoscute ale variabilei dependente.

Diferența dintre problemele de clasificare și predicție constă în faptul că în prima sarcină se prezică clasa variabilei dependente, iar în a doua - valorile numerice ale variabilei dependente, lipsă sau necunoscută (referitoare la viitor).

De exemplu, luând în considerare o agenție de turism, determinarea clasei unui client este o soluție la problema clasificării, iar anticiparea veniturilor pe care clientul îl va aduce în anul următor este o soluție la problema de previziune.

Baza prognozei este informațiile istorice stocate în baza de date în formular serii de timp.

Există două diferențe fundamentale între o serie de timp și o succesiune simplă de observații:

    Membrii unei serii temporale, spre deosebire de elementele unui eșantion aleatoriu, nu sunt independente statistic.

    Termeni de serie temporală nu sunt distribuite în mod egal.

Tendință, sezonalitate și ciclu

Componentele principale ale unei serii temporale sunt tendința și componenta sezonieră.

O tendință este o componentă sistematică a unei serii cronologice care se poate modifica în timp. O tendință este o funcție non-aleatorie, care se formează sub influența tendințelor generale sau pe termen lung care afectează seriile de timp.

Componenta sezonieră a unei serii de timp este o componentă periodică recurentă a unei serii de timp. Proprietatea de sezonalitate înseamnă că la intervale de timp aproximativ egale forma curbei care descrie comportamentul variabilei dependente își repetă contururile caracteristice.

Proprietatea de sezonalitate este importantă în determinarea cantității de date istorice care trebuie utilizate pentru prognoză.

Este important să nu confundați conceptele de componentă sezonieră a unei serii și anotimpurile naturii. În ciuda asemănării sunetului lor, aceste concepte sunt diferite. De exemplu, volumele de vânzări de înghețată vara sunt mult mai mari decât în ​​alte sezoane, dar aceasta este o tendință în cererea pentru acest produs!!!

Fragment dintr-o serie temporală pentru o perioadă sezonieră

Fragment dintr-o serie temporală pentru 12 perioade sezoniere

Perioada de prognoză- unitatea de bază de timp pentru care se face prognoza.

    De exemplu, vrem să știm veniturile companiei într-o lună. Perioada de prognoză pentru această problemă este de o lună.

Orizontul de prognoză este numărul de perioade din viitor pe care le acoperă prognoza.

    Dacă prognoza este cu 12 luni în avans, cu date pentru fiecare lună, atunci perioada de prognoză în această problemă este de o lună, orizontul de prognoză este de 12 luni.

Interval de predicție- frecventa cu care se face o noua prognoza.

    Intervalul de prognoză poate coincide cu perioada de prognoză.

Precizia prognozei este caracterizată de eroare de prognoză.

Cele mai frecvente tipuri de erori:

    Eroare medie (SE). Se calculează prin simpla medie a erorilor la fiecare pas. Dezavantajul acestui tip de eroare este că erorile pozitive și negative se anulează reciproc.

    Eroare absolută medie (MAE). Se calculează ca medie a erorilor absolute. Dacă este zero, atunci avem o prognoză perfectă. În comparație cu eroarea pătratică medie, această măsură „nu acordă prea multă greutate” valorilor aberante.

    Suma erorilor pătratice (SSE), eroarea pătratică medie. Se calculează ca suma (sau media) erorilor pătrate. Aceasta este cea mai utilizată estimare a preciziei prognozei.

    Eroare relativă (RO). Măsurile anterioare au folosit valori reale de eroare. Eroarea relativă exprimă calitatea potrivirii în termeni de erori relative.

6. Anomalii– identificarea valorilor anormale în date.

Identificarea lor face posibilă identificarea - 1) erori în date, 2) apariția unui nou model necunoscut anterior sau 3) clarificarea modelelor cunoscute.

airsoft-unity.ru - Portal minier - Tipuri de afaceri. Instrucțiuni. Companii. Marketing. Impozite