Analiza și detectarea anexelor într-o afacere de telecomunicații

Bitcoin este un roi de orners cyber Servirea zeiței înțelepciunii, hrănindu-se pe focul adevărului, în creștere exponențial mai inteligent, mai rapid și mai puternic în spatele unui zid de energie criptată

II.6 Tehnicile Dataming

În spatele acestor analize sunt unelte poziționate pe diferite tehnici. Vă oferim o prezentare a celor mai importante tehnici.

– Analiza coșului de gospodină

– raționament bazat pe memoria

– Detectarea automată a clusterelor

– Analiza legăturilor

– Arbori de decizie

– Rețele neuronale

– Descoperirea regulilor

– semnal de procesare

– Fractali

II.6.1 Analiza coșului de lămpi

Analiza casei casnice este un mediu pentru a găsi grupurile de „articole care merg împreună în timpul unui a tranzacție. Aceasta este o tehnică de descoperire a cunoștințelor neprelucrate (analiza tipului de clustere) care generează reguli Etsupporting Analiza seriei temporale (dacă tranzacțiile nu sunt anonime). Regulile generate sunt simple, ușor de înțeles și însoțite de o probabilitate, care este infectată cu un instrument plăcut și exploatabil direct de către utilizator.

Exemplu: Clientul care cumpără de la pictura unei perie

Clientul care cumpără ceai cumpără Dusucre

II.6.2 Analiza legăturilor

Analiza legăturilor este o tehnică de descriere care inspiră și se bazează pe teoria graficului. Se compune din entitățile dintre ele (clienți, companii, …) de către Deslox. La fiecare legătură este afectată o greutate, definită de analiză, care cuantifică puterea acestei relații. Această tehnică poate fi utilizată pentru predicție sau clasificare, dar o simplă observație a graficului face posibilă efectuarea analizei.

II.6.3 Decizia copacilor

Decizia copacilor sunt utilizate în lecadrul descoperirii cunoașterii direcționate. Acestea sunt instrumente foarte puternice utilizate în principal pentru laclasificare, descriere sau estimare. Principiul de funcționare este după cum urmează: Pentru a explica o variabilă, sistemul de cercetare cel mai decisiv și reduce populația populațiilor elementale cu aceeași entitate de CeceriTenere. Fiecare sub-populație este apoi analizată ca o ciocnire inițială. Modelul redat este ușor de înțeles și regulile găsite sunt foarte explicite. Cesystem este, prin urmare, foarte apreciat.

Scopul acestei tehnici este de a crea un arbore de dedicație care trece la o analiză a criteriilor. Determinarea acestor criterii semnificative se face în funcție de greutățile statistice ale valorilor. Instrumentul de vaparcururi de date Diferitele criterii posibile, care vor fi găsiți legături între căile care au una dintre problemele date.

Dăm un set X de N, ale cărui elemente sunt notate xi și ale căror atribute sunt cantitativ. Fiecare element al lui X este etichetat, adică este asociat cu acesta o clasă sau un atribut țintă pe care îl denotăm aparținând lui Y.

Din cele de mai sus, construim Unarbre a spus „decizia” astfel încât:

– Fiecare nod corespunde unui test privind valoarea unui atribute multiple;

– Fiecare ramură care pornește de la un nod corespunde unei valori Oussee ale acestui test;

Decizia sunt pentru laclasificare și predicție.

Operațiunea lor se bazează pe o înlănțuire a regulilor exprimate în limba actuală.

Un arbore de decizie este o structură care permite un rezultat de la rezultatul deciziilor. Pentru a răsfoi un arbore de decizie și pentru a găsi o soluție de la rădăcină. Fiecare nod este o decizie atomică. Un răspuns posibil este luat în considerare și vă permite să vă îndreptați spre un fiu al nodului. În apropiere, mergem în jos în copacul pentru a cădea pe o foaie. Foaia reprezintă copacul pe care ar trebui să-l aducă în cazul în care tocmai am testat.

– Începeți la rădăcina copacului

– mergeți în jos în copacul din copac care trece prin Nodurile de testare

– Foaia de capăt la capăt vă permite să clasificați instanța testat.

Foarte des Considerăm că un nod care se află o variabilă, valoarea acestei variabile Este posibil să știți despre care se prăbușește. Pentru variabilele enumerate, uneori este posibil să aveți un fiu cu valoare, se poate decide, de asemenea, că mai multe variabile diferite conduc la același sub copac.Pentru variabilele continue nu este imaginabil să creați un nod potențial îndemnat o serie de fire infinite, domeniul continuu (rotunjit, apropierea) trebuie să fie deconectat, deci decideți să segmentați domeniul în seturi. Cu cât copacul este simplu, cu atât mai mult se pare că este rapid de utilizat. De fapt, este mai interesant să obțineți un copac adaptat probabilităților variabilelor pentru a testa. De cele mai multe ori, un copac echilibrat va fi rezultatul comportamentului. Dacă un copac poate duce doar la o soluție, atunci toate aceste subțire pot fi reduse la concluzia Sasimple, simplifică tratamentul și nu schimbă nimic final.

Algoritmul ID3 a fost propus de Quinlan în 1979 pentru a genera decizii de la Dedo. Imaginați-vă că avem la dispoziție un set de înregistrare. Toate înregistrările au aceeași structură, și anume un număr de perechi de atribute sau valoare. Unul dintre sesattributs reprezintă categoria de înregistrare. Leproblem este de a construi un arbore de decizie că baza răspunsurilor la întrebările cu atributele nevizate poate prezice în mod corespunzător valoarea atributului. Adesea, atributul țintă are doar valori adevărate, false Ouechec, succes Atributul țintă și fiecare arc la o posibilă atribut de valoare Decet. O foaie a arborelui oferă valoarea așteptată a atributului țintă pentru înregistrarea testată descrisă de calea rădăcinii arborelui de decizie până la foaie.

În arborele de decizie, la fiecare nod trebuie să fie asociat cu atributul non-țintă care furnizează informațiile din alte atribute care nu sunt încă utilizate în calea rădăcinii. (Criteriul unui copac de dedicare bun)

Entropia este utilizată pentru a măsura informațiile mașinilor furnizate de un nod. (Această noțiune noționată a fost introdusă de Claude Shannon în timpul cercetării sale, teoria informațiilor care servește drept bază de bază a metodelor de extragere a datelor.)

Un arbore de decizie poate fi exploatat Diddore Manners:

Ø Prin clasificarea datelor noi (un noddracin prin care între înregistrări),

Ø prin Estimarea atributului,

Ø prin extragerea unui set de declasificare a normelor privind atributul țintă,

Ø prin interpretarea relevanței atributelor de frunze desoead care corespund unui clasament.

Fig. 4 Decizia copacii

a. Coșul

Acest algoritm a fost publicat în 1984 parl.bremen. Acesta este folosit în multe instrumente de piață.

Procesul

Ø Găsiți prima bifurcație,

Ø Dezvoltarea arborelui complet,

Ø Măsurați rata de eroare la fiecare nod,

Ø calculați întreaga rată de eroare a copacului,

Ø Elaguer,

Ø Identificați subtratele,

Evaluarea subtretelor,

Ø Evaluați cea mai bună subtera.

Prima bifurcație este cea care împarte înregistrările mai bune în grupuri. Astfel, pentru a determina criteriul care va face cea mai bună partajare între elemente, se calculează un indice de diversitate, în conformitate cu următoarea formulă:

max. De la: diversitate (înainte de diviziune) – (Diversity Stânga Fiul + diversitate Sârmă dreaptă)

Există diferite moduri de calcul pentru indicele de dediere:

Ø min. (Probabilitate (C1), probabilitate (C2)),

Ø probabilitate (C2),

Ø (probabilitate (C1) Logpabilitate (C1)) + probabilitate (C2) logprobabilitate (C2))

Odată ce prima bifurcație este stabilită, avem nodul rădăcină care separă în jumătate. Prin urmare, formatorul este de a dezvolta copacul complet prin împărțirea noilor noduri create din Lamême, astfel încât rezultatul diviziei are o valoare semnificativă. Nodul Lenner fiind nodul de foaie care oferă clasamentul final al unei înregistrări.

Arborele rezultat nu este neapărat același, următorul pas este de a calcula rata de eroare pentru nod. Dacă presupunem că 11 înregistrări pe 15 se bazează corect pe Adunarea de învățare, explorarea acestui nod este de 11/15 sau 0,7333. Rata de eroare este de 1 – 0,7333 = 0,2667.Calculul ratei de eroare a fiecărui nod este realizat, este posibil să se calculeze rata de eroare a întregului copac fie:

T: Rata de eroare a unui nod

P: probabilitate Pentru a merge la nodul

rata de eroare a arborelui = (t * p)

fie în exemplul, cu o rată de eroare de (15/17) pentru Masculin Lenoeud

((11/15) * 0,80) + ((15/17) * 0,20) = 0,763

Pericolul arborelui de decizie, așa cum este descris la sfârșitul primului pasaj, Este că anumite noduri nu conțin suficiente înregistrări pentru informativ informativ. Trebuie să fie tăiată, cea mai complexă fiind să găsească limita bună de aplicat.

Alegerea ramurilor care urmează să fie șterse, se face prin intermediar al ratei de eroare ajustate a unui arbore care, pe fiecare Sub posibile copac, după cum urmează:

Frunza frunzelor

Rata de eroare ajustată = rata de eroare + numărătoarea feuloasă

Primul sub copac este candidat când Rata de eroare a ratei de eroare devine mai mică sau egală cu rata de eroare ajustată întregul copac. Toate ramurile, care nu fac parte din ea, păduri și procesul începe din nou până la rădăcină până atunci.

așa că trebuie să alegi din toate tremurul. Pentru aceasta, fiecare sub copac va fi rulat cu un test complet, cel care va avea cea mai mică rată de eroare va fi cea mai bună.

În cele din urmă pentru a controla eficiența sub tremur, un set de evaluare merge către el. Rata de eroare obținută va oferi o estimare a performanței copacului.

În primul rând, Chaid utilizează pentru a alege cele mai multe bifurcații Chi-2, care nu vor detalia aici.

și În cele din urmă, spre deosebire de celelalte, nu se dezvoltă copacul complet și apoi a tăiat-o, dar încearcă de la tranziția de la limitarea creșterii sale.

b. Algoritmul ID3

Principiul algoritmului ID3 pentru determinarea atributului de a pune la punctul de vedere al copacului de decizie poate fi acum exprimat: pentru a căuta atributul care aplică câștigul de informații maxime, locul în rădăcină , de la fiecare fiu, adică pentru fiecare valoare a atributului. Acestea fiind spuse, putem da algoritmeidicul3.

intrări: set de atribute A; eșantion e; Clasa C

START

Inițializați la arborele gol;

Dacă toate exemplele de e au lamême clasa C

apoi etichetați parc Rădăcină; în caz contrar, dacă toate atributele sunt goale

apoi eticheta loracină de către clasa majoritară în e;

Alter Fii cel mai bun atribut ales în A;

etichetă Para-

pentru orice valoare VDE A

Construiți o tavă de bandă de către V;

Fie AEV L set de exemple cum ar fi e (A) = V ;

Adăugați arborele construit parid3 (A- {a}, EAV, C);

finsinon

finsinon

finsinon

rădăcină de întoarcere;

capăt

prevstemasomairesuctant

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *