Analisi e rilevamento di Attrizione in un business di telecomunicazioni

Bitcoin è uno sciame di corridoi cyber Servire la dea della saggezza, alimentando il fuoco della verità, in modo esponenziale che diventa sempre più intelligente, più veloce, e più forte dietro un muro di energia crittografata

ii.6 tecniche DATAMINING

Dietro queste analisi sono strumenti posizionati su tecniche diverse. Ti offriamo una presentazione delle tecniche più importanti.

– Analisi del carrello della casalinga

– Ragionamento basato sulla memoria

– Rilevamento automatico di cluster

– Analisi dei collegamenti

– Treghi decisionali

– Nevel Networks

– Scoperta delle regole

– Segnale di elaborazione

– frattali

ii.6.1 Analisi del cestello della lampada

L’analisi della casalinga è un mezzo per trovare i gruppi di “articoli che vanno insieme durante un Transazione. Questa è una tecnica di scoperta di conoscenze non trasformate (tipo analisi dei cluster) che genera regole Etsupporting l’analisi della serie temporale (se le transazioni non sono anonime). Le regole generate sono semplici, facili da capire e accompagnate da una probabilità, che è infettata da uno strumento piacevole e direttamente sfruttato dall’utente.

Esempio: il cliente che compra dalla pittura di un pennello

Il cliente che compra il tè compra DUSUCRE

II.6.2 Analisi dei collegamenti

L’analisi dei collegamenti è una tecnica di descrizione che ispira e si basa sulla teoria del grafico. Consiste nelle entità tra loro (clienti, aziende, …) di DESLOX. Ad ogni collegamento è influenzato un peso, definito dall’analisi, che quantifica la forza di questa relazione. Questa tecnica può essere utilizzata per la previsione o la classificazione, ma una semplice osservazione del grafico consente di effettuare l’analisi.

II.6.3 Gli alberi decisionali

Gli alberi decisionali sono usati nella lecadre della scoperta della conoscenza diretta. Questi sono strumenti molto potenti principalmente utilizzati per la laclassificazione, la descrizione o la stima. Il principio di funzionamento è il seguente: per spiegare una variabile, il sistema ricerchiva il più decisivo e riduce le popolazioni di popolazione della popolazione con la stessa entità di Cecueritere. Ogni sub-popolazione viene quindi analizzata come urto iniziale. Il modello reso è facile da capire e le regole trovate sono molto esplicite. Il cesystem è quindi molto apprezzato.

Lo scopo di questa tecnica è creare un albero di dedizione che procede a un’analisi del criterio. La determinazione di questi criteri significativi è effettuata in base ai pesi statistici dei valori. Lo strumento VAPARCURRY DATA MINING VAPARCURRY I diversi criteri possibili, che saranno per trovare collegamenti tra i percorsi che hanno uno dei problemi indicati.

Diamo un set X dei cui elementi sono annotati XI e i cui attributi sono quantitativo. Ogni elemento di X è etichettato, cioè, è associato ad esso una classe o un attributo di destinazione che indichiamo per appartenere a y.

Da quanto sopra, costruiamo l’irrubismo ha detto “Decisione” tale che:

– Ogni nodo corrisponde a un test sul valore di un attributo multiplo;

– ogni ramo che inizia da un nodo corrisponde a valori Oussee di questo test;

Gli alberi decisionali sono per laclassificazione e previsione.

La loro operazione si basa su una catena di regole espresse nella lingua corrente.

Un albero decisionale è una struttura che consente un risultato da un risultato da decisioni. Per sfogliare un albero decisionale e trovare una soluzione dalla radice. Ogni nodo è una decisione atomica.appare la risposta possibile è presa in considerazione e ti permette di dirigersi verso un figlio del nodo. Nelle vicinanze nel vicino, andiamo giù nel treejust per cadere su un foglio. Il foglio rappresenta l’albero che l’albero porta al caso che abbiamo appena provato.

– Inizia alla radice dell’albero

– Scendi nell’albero nell’albero che passa I nodi di prova

– Il foglio end-to-end consente di classificare l’istanza testata.

Molto spesso consideriamo che un nodo che posa una variabile, il valore che questa variabile fa È possibile sapere su quale cavi verso il basso. Per le variabili enumerate è a volte possibile avere un figlio per valore, si può anche decidere che diverse variabili conducano allo stesso albero sotto l’albero.Per le variabili continue non è immaginabile creare un nodo potenzialmente sollecitato un numero di fili infiniti, il dominio continuo (arrotondato, approssimazione) deve essere discretato, quindi decidi di segmentare il dominio in set. Più facile l’albero è semplice, e più apparentemente è sempre veloce da usare. In effetti, è più interessante ottenere un albero adattato alle probabilità delle variabili da testare. La maggior parte delle volte un albero equilibrato sarà il risultato del comportamento. Se un albero può portare a una soluzione, quindi tutto questo sottopree può essere ridotto alla conclusione sasimple, semplifica il trattamento e non cambia nulla di finale.

L’algoritmo ID3 è stato proposto da Quinlan nel 1979 per generare Decisioni da Dedo. Immagina di avere a nostra disposizione una serie di registrazione. Tutti i record hanno la stessa struttura, vale a dire un numero di coppie o valore di attributi. Uno dei sesattributi rappresenta la categoria della registrazione. LeProblem è quello di costruire un albero decisionale che la base delle risposte alle domande sugli attributi non target può prevedere correttamente il valore dell’attributo. Spesso l’attributo target prende solo valori veri, falso ouechec, successo.

Le idee principali su cui il riposo ID3 sono gli utenti:

nella voce decisionale ogni nodo corrisponde a un non- Attributo target e ciascun arco in un possibile attributo del deceto del valore. Un foglio dell’albero fornisce il valore atteso dell’attributo target per il record testato descritto dal percorso della radice dell’albero decisionale fino al foglio.

Nell’albero della decisione, a ciascun nodo deve essere associato all’attributo non target che fornisce le informazioni da altri attributi non ancora utilizzati nel percorso dalla radice. (Criterio di un buon albero di dedizione)

L’entropia viene utilizzata per misurare le informazioni della macchina fornite da un nodo. (Questa nozione integrata introdotta da Claude Shannon durante la sua ricercata la teoria delle informazioni che funge da base di base dei metodi di data mining.)

Un albero decisionale può essere sfruttato Diddore Manners:

Ø Classando nuovi dati (una noddracin mediante la quale tra i record),

Ø rendendo la stima dell’attributo,

Ø estraendo un insieme di declassificazione delle regole relative all’attributo di destinazione,

Ø interpretando la rilevanza degli attributi del desono delle foglie che corrispondono a una classifica.

fig. 4 Gli alberi decisionali

a. Il carrello

Questo algoritmo è stato pubblicato nel 1984 Parl.bremen. È usato in molti strumenti di mercato.

Processo

Ø Trova la prima biforcazione,

Ø Sviluppa l’albero completo,

Ø Misurare la velocità di errore a ciascun nodo,

Ø calcolare l’intera velocità di errore dell’albero,

Ø Elaguer,

Ø identificare le sottotraces,

Ø Valutare i sottosuolo,

Ø Valutare il miglior sottosuolo.

La prima biforcazione è quella che divide i registri migliori in gruppi. Pertanto, per determinare il criterio che farà la migliore condivisione tra gli elementi, viene calcolato un indice di diversità, in base alla seguente formula:

max. Da: Diversità (prima della divisione) – (Diversità sinistra figlio + diversità filo dritto)

Ci sono diverse modalità di calcolo per l’indice di dedicazione:

Ø min. (Probabilità (C1), Probabilità (C2)),

Ø 2 Probabilità (C1) Probabilità (C2),

Ø (Probabilità (C1) Logprobability (C1)) + Probabilità (C2) Logprobability (C2))

Figa: 5 L’algoritmo Decart

Una volta stabilita la prima biforcazione, quindi abbiamo il nodo radice che separa a metà. Il formatore è quindi quello di sviluppare l’albero completo dividendo i nuovi nodi creati da Lamême, e quindi il risultato della divisione ha un valore significativo. Il nodo Lenner è il nodo foglio che fornisce la classifica finale di una registrazione.

L’albero risultante non è necessariamente uguale, il passo successivo è quello di calcolare la velocità di errore per il nodo. Se assumiamo che 11 registrazioni su 15 siano correttamente basate sul gruppo di apprendimento, l’esplorazione per questo nodo è 11/15 o 0,7333. Il tasso di errore è 1 – 0,7333 = 0,2667.Il calcolo della velocità di errore di ciascun nodo viene eseguito, è possibile calcolare la velocità di errore dell’intero albero:

t: tasso di errore di un nodo

P: Probabilità per andare al nodo

tasso di errore dell’albero = (t * p)

nell’esempio, con un tasso di errore di (15/7/17) per Lenoeud maschile

((11/15) * 0.80) + ((15/17) * 0.20) = 0,763

Il pericolo dell’albero decisionale, come descritto alla fine del primo passaggio, È che alcuni nodifouls non contengono abbastanza registrazioni per gli esseri informativi. Deve essere potato, l’essere più complesso per trovare il buon limite da applicare.

La scelta dei rami da eliminare, viene effettuata mediante intermedio del tasso di errore regolato di un albero che è secolari, su ciascuno Albero sub possibile, come segue:

o il congedo delle foglie

rate di errore regolato = tasso di errore + conteggio feuil

un primo sotto l’albero è candidato quando La sua velocità di errore regolata diventa più piccola o uguale alla velocità di errore regolata l’intero albero. Tutti i rami, che non fanno parte di esso, sovels e il processo ricomincia quindi fino alla radice fino ad allora.

Quindi devi scegliere da tutto il tremore. Per questo, ognuno degli alberi verrà eseguito con un intero test, quello che avrà il più piccolo tasso di errore sarà il migliore.

Infine per controllare l’efficienza del sotto tremore, un insieme di valutazione a lui. Il suo tasso di errore ottenuto darà una stima della prestazione dell’albero.

Prima, Chaid utilizza per scegliere le biforcazioni mutest di CHI-2, che non verranno i dettagli qui.

E Infine, a differenza degli altri non sviluppa l’albero completo, e poi potandolo, ma cerca dalla transizione dal limitare la sua crescita.

b. L’algoritmo ID3

Il principio del principio dell’algoritmo ID3 per determinare l’attributo da posizionare alla radice dell’albero decisionale può ora essere espresso: per cercare l’attributo che appendeva il guadagno delle informazioni massime, il luogo in root , Eiting per ogni figlio, vale a dire per ogni valore di attributo. Detto questo, possiamo dare l’algoritmeid3.

ingressi: set di attributi A; campione E; Classe C

Start

Inizializza all’albero vuoto;

Se tutti gli esempi di E hanno la classe LAMêME C

quindi etichetta il parco radice; altrimenti se tutti gli attributi sono vuoti

quindi etichettare laracine dalla classe di maggioranza in E;

altrimenti essere il miglior attributo scelto in A;

Etichetta il para –

per qualsiasi valore VDE A

Costruisci un vassoio di striscia di V;

Lascia AEV L insieme di esempi come E (A) = V ;

Aggiungere l’albero edificato PARID3 (A- {A}, EAV, C);

Finpour

Finsinon

Finsinon

return root;

fine

precedenteSomaireSututtant

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *