Análise de desgaste e detección nun negocio de telecomunicacións

Bitcoin é un enxame de cyber horners Servindo a deusa da sabedoría, alimentándose do incendio da verdade, crecendo exponencialmente cada vez máis intelixente, máis rápido e máis forte detrás dunha parede de enerxía cifrada

II.6 Técnicas de datamining

Detrás destas análises sitúanse ferramentas en diferentes técnicas. Ofrecémoslle unha presentación das técnicas máis importantes.

– Análise da cesta da ama de casa

– Razoamento baseado na memoria

– Detección automática de clusters

– Análise de ligazóns

– Trees de decisión

– Redes neuronais

– Descubrimento das regras

– sinal de procesamento

– fractales

II.6.1 Análise da cesta da lámpada

A análise da ama de casa é un medio para atopar os grupos de “artigos que van xuntos durante un transacción. Esta é unha técnica de descubrimento de coñecemento non procesado (tipo de análise de clusters) que xera regras de Etsupporting a análise da serie temporal (se as transaccións non son anónimas). As regras xeradas son sinxelas, fáciles de entender e acompañadas por unha probabilidade, que está infectada cunha ferramenta agradable e directamente explotable polo usuario.

Exemplo: o cliente que compra de pintar un pincel

o cliente que compra té compra DUSUCRE

II.6.2 Análise de ligazóns

A análise das ligazóns é unha técnica de descrición que inspira e depende da teoría de grafos. Consiste nas entidades entre eles (clientes, empresas …) por Deslox. En cada ligazón aféctase un peso, definido pola análise, que cuantifica a forza desta relación. Esta técnica pode usarse para a predición ou a clasificación, pero unha simple observación do gráfico fai posible realizar a análise.

II.6.3 As árbores de decisión

As árbores de decisión úsanse na Lecadre do descubrimento do coñecemento dirixido. Estas son ferramentas moi poderosas utilizadas principalmente para laclassificación, descrición ou estimación. O principio de operación é a seguinte: explicar unha variable, a investigación do sistema o máis decisivo e corta as poboacións de poboación poboación coa mesma entidade de ceceriteère. Cada sub-poboación é entón analizada como colisión inicial. O modelo renderizado é fácil de entender e as regras atopadas son moi explícitas. O cesistema é, polo tanto, moi apreciado.

O obxectivo desta técnica é crear un eixe de dedicación que procuren unha análise de criterios. A determinación destes criterios significativos faise de acordo cos pesos estatísticos dos valores. A ferramenta de VaParcurry minería de datos Os diferentes criterios posibles, que serán para atopar enlaces entre os camiños que teñen un dos problemas dados.

Damos un conxunto X de n cuxos elementos destacan XI e cuxos atributos son cuantitativo. Cada elemento de X está etiquetado, é dicir, está asociado a unha clase ou un atributo obxectivo que denotar por pertencer a y.

Dende o anterior, construímos unarbre dixo “decisión” tal que:

– Cada nodo corresponde a unha proba sobre o valor dun atributo múltiple;

– Cada rama a partir dun nodo corresponde a un oussee valores desta proba;

As árbores de decisión son para a laclassificación e predición.

A súa operación está baseada nunha cadea de regras expresadas na linguaxe actual.

Unha árbore de decisión é unha estrutura que permite un resultado a partir dun resultado das decisións. Para navegar por unha árbore de decisión e atopar unha solución desde a raíz. Cada nodo é unha decisión atómica. Cada unha resposta posible tense en conta e permítelle dirixirse a un fillo do nodo. Moi preto no próximo, baixamos na trineo a caer nunha folla. A folla representa a árbore que a árbore trae ao caso de que acabamos de probar.

– Comezar na raíz da árbore

– Ir á árbore da árbore pasando Os nodos de proba

– a folla de punta a punta permítelle clasificar a instancia probada.

Moitas veces consideramos que un nodo que se atopa sobre unha variable, o valor fai que esta variable fai É posible saber que os fíos baixan. Para as variables enumeradas ás veces é posible ter un fillo por valor, tamén se pode decidir que varias variables diferentes levan á mesma árbore.Para as variables continuas non se pode imaxinar crear un nodo potencialmente instado a unha serie de fíos infinitos, o dominio continuo (redondeado, a aproximación) debe ser discreta, polo que decida segmentar o dominio en conxuntos. Canto máis fácil sexa a árbore é sinxela e máis que aparentemente é rápido de usar. De feito, é máis interesante obter unha árbore que está adaptada ás probabilidades de variables a proba. A maior parte do tempo comportarase unha árbore equilibrada. Se unha árbore só pode levar a unha solución, entón todo este subárbol pode reducirse á conclusión de Sasimple, simplifica o tratamento e non cambia nada final.

O algoritmo ID3 foi proposto por Quinlan en 1979 para xerar Decisións de DO dedo. Imaxina que temos á nosa disposición un conxunto de rexistro. Todos os rexistros teñen a mesma estrutura, é dicir, unha serie de pares de atributo ou valor. Un dos sesattributs representa a categoría de gravación. O leproblem é construír unha árbore de decisión que a base das respostas ás preguntas sobre atributos non obxecto de aprendizaxe pode prever correctamente o valor do atributo. Moitas veces o atributo obxectivo só leva valores verdadeiros, falso ouechec, éxito.

As ideas principais sobre as que o descanso ID3 son os usuarios:

Na árbore de decisión cada nodo corresponde a un non atributo obxectivo e cada arco a un posible atributo de decet de valor. Unha folla do eixe dá o valor esperado do atributo obxectivo para o rexistro probado descrito polo camiño da raíz da árbore de decisión ata a folla.

Na árbore de decisión, en cada nodo debe estar asociado co atributo non obxectivo que proporciona a información doutros atributos aínda non se usa no camiño desde a raíz. (Criterio dunha boa árbore de dedicación)

A entropía úsase para medir a información da máquina proporcionada por un nodo. (Esta noción notionada introducida por Claude Shannon durante a súa investigación a teoría da información que serve de base de base de métodos de minería de datos.)

Unha árbore de decisión pode ser explotada Diddore Manners:

Ø Ao clasificar novos datos (unha noddracina pola cal entre os rexistros),

ø facendo a estimación do atributo,

ø extraendo un conxunto de regras desclasificando sobre o atributo obxectivo,

ø Ao interpretar a relevancia dos atributos desoad dos follas que corresponden a un ranking.

Fig. 4 As árbores de decisión

a. O carro

Este algoritmo foi publicado en 1984 Parl.Bremen. Utilízase en moitas ferramentas de mercado.

Proceso

ø Atopar a primeira bifurcación,

ø Desenvolver o eixe completo,

ø Mida a taxa de erro en cada nodo,

ø Calcular a taxa de erro da árbore enteira,

ø Elaguer,

ø Identificar os subretos,

ø Avaliar os subárboles,

ø avaliar o mellor subárbol.

A primeira bifurcación é a que divide mellores rexistros en grupos. Así, para determinar o criterio que fará que o mellor compartición entre os elementos, calcúlase un índice de diversidade, de acordo coa seguinte fórmula:

max. A partir de: Diversidade (antes da división) – (Diversidade deixou a diversidade Fío recto)

Existen diferentes modos de cálculo para o índice de dedución:

ø min. (Probabilidade (C1), probabilidade (C2)),

ø 2 Probabilidade (C1) Probabilidade (C2),

ø (Probabilidade (C1) Logprobabilidade (C1) + Probabilidade (C2) Logprobability (C2))

Fig: 5 O algoritmo de compart

Unha vez establecida a primeira bifurcación, polo que temos o nodo raíz que se separa á metade. O adestrador é, polo tanto, desenvolver a árbore completa dividindo os novos nodos creados a partir de Lamême, polo que o resultado da división ten un valor significativo. O nodo de Lenner é o nodo de folla que dá a clasificación final dun rexistro.

A árbore resultante non é necesariamente o mesmo, o seguinte paso é calcular a taxa de erro para o nodo. Se asumimos que as 11 gravacións en 15 están correctamente en función da montaxe de aprendizaxe, a exploración deste nodo é de 11/15 ou 0,7333. A taxa de erro é de 1 – 0.7333 = 0.2667.O cálculo da taxa de erro de cada nodo que se está a facer, é posible calcular a taxa de erro de toda a árbore:

t: taxa de erro dun nodo

p: probabilidade para ir ao nodo

taxa de erro do eixe = (t * p)

xa sexa no exemplo, cunha taxa de erro de (15/17) para o lenoeud masculino

((11/15) * 0.80) + ((15/17) * 0.20) = 0.763

O perigo da árbore de decisión, como se describe ao final do primeiro paso, É que certos nodesfouls non conteñen gravacións suficientes para ser informativos. Debe ser podado, o ser máis complexo para atopar o bo límite para aplicar.

A elección das ramas a eliminar, está feita por intermediario da taxa de erro axustada dun eixe que secale, en cada un Sub posibles árbore, como segue:

Ou a licenza das follas

taxa de erro axustada = taxa de erro + conta de feuil

A primeira árbore é candidato cando A súa taxa de erro axustada faise menor ou igual á taxa de erro axustada a árbore enteira. Todas as ramas, que non forman parte dela, sovielos e así o proceso comeza de novo ata a raíz ata entón.

Así que ten que escoller todo o tremor. Para iso, cada unha baixo árbore será executada con toda unha proba, a que terá a menor taxa de erro será a mellor.

Finalmente para controlar a eficiencia do en tremor, un conxunto de avaliación vai a el. A súa taxa de erro obtida dará unha estimación do desempeño da árbore.

Primeiro, ela usa usos para escoller as bifurcacións de chi-2, que non detallarán aquí.

e Finalmente, a diferenza dos demais, non se desenvolve árbore cheo, e logo podándoo, pero trata da transición de limitar o seu crecemento.

b. O algoritmo ID3

O principio do algoritmo ID3 para determinar o atributo a colocar na raíz da árbore de decisión agora pode expresarse: buscar o atributo que inicie a ganancia da máxima información, o lugar en raíz , Eiting para cada fillo, é dicir, por cada valor de atributo. Dito isto, podemos dar o algoritmeid3.

Entradas: Conxunto de atributos A; mostra E; Clase C

Inicio

Inicializar ao eixe baleiro;

Se todos os exemplos de E teñen clase Lamême C

entón etiqueta o parque raíz; doutro xeito, se todos os atributos están baleiros

entón a etiqueta laracina pola clase maioritaria en E;

doutro xeito ser o mellor atributo escollido nunha etiqueta;

o para –

para calquera valor VDE a

Construír unha bandexa de strip by v;

Deixe AEV l conxunto de exemplos como E (a) = V ;

Engadir o eixo construído Parid3 (A- {A}, EEV, C);

Finpour

Finsinon

Finsinon

Raízase a raíz;

final

AnteriorSomairosTUTUT

Deixa unha resposta

O teu enderezo electrónico non se publicará Os campos obrigatorios están marcados con *