Página 1 de 1

Extração de dados específicos em textos pouco padronizados

Enviado: 17 Fev 2017 às 23:42
por RonaldoFlag
Caros,
Possuo um BD numa planilha, com mais de 30000 descrições de mercadorias diversas.
Preciso do seguinte:
1) Extrair dados específicos (de tamanhos variáveis, com uma ou mais palavras cada dado) destas descrições, e colocar cada dado extraído numa coluna diferente na frente de cada linha, com os títulos: Descrição básica; Função; Material; Aplicação; Resto (mas a ordem dos dados dentro das descrições pode variar, e ser também Descrição básica; Material; Função; Aplicação; Resto). Um detalhe: tenho um outro BD contendo listas de diversas palavras possíveis para os Materiais, Funções e Aplicações, em que cada dado a ser extraído da descrição poderia ser buscado. Caso a fórmula não ache a palavra nestas listas, o campo seria preenchido com "nihil";
2) Suponho que o padrão básico para um texto de descrição seja por ex.: "[DDDD de MMMM para FFFF, para AAAA, RRRR", onde DDDD = Descrição básica; FFFF = Função; MMMM = Material; AAAA = Aplicação; RRRR = Resto, ou numa outra ordem um pouco diferente, mas com um padrão que pode ser detectado pelas palavras chave "de" e "para" e sua localização no texto.
Deverá haver uma única função em cada coluna e linha acima, para extrair estes dados de cada linha do BD.

Exemplos de descrições a serem trabalhadas pelas fórmulas:
Parafuso (DDDD) para fixação, (FFFF) de aço inox, (MMMM) para torno (AAAA), 2 pol. (RRRR)
Eixo flexível (DDDD) de aço (MMMM) para transmissão (FFFF), para pulverizador aéreo (AAAA)
Motor elétrico, corrente contínua (DDDD), para acionamento da bomba (FFFF), 45 HP (RRRR)
Arruela plana (DDDD) de aço (MMMM), revestida de zinco (RRRR)

Agradeço muito,

Ronaldo

Extração de dados específicos em textos pouco padronizados

Enviado: 18 Fev 2017 às 09:51
por mdiego
Se você anexar um exemplo ficará mais fácil alguém solucionar Ronaldo.
vá em "resposta rápida"; "+ resposta"; "editor completo"; adicionar um anexo.
Sds,

Re: Extração de dados específicos em textos pouco padroniza

Enviado: 18 Fev 2017 às 12:03
por Deciog
RonaldoFlag

Para que possamos fazer a formula correta principalmente de texto é preciso postar um modelo com alguns exemplo REAIS pois você colocou "Parafuso (DDDD) para fixação, (FFFF) de aço inox, (MMMM) para torno (AAAA), 2 pol. (RRRR)" , sera que no texto original tem esses parentese??, nota também dependendo tem que ver o tamanha do texto.

Resumindo faça um modelo mais próximo da realidade

Decio

Re: Extração de dados específicos em textos pouco padroniza

Enviado: 18 Fev 2017 às 14:45
por RonaldoFlag
Os exemplos que dei são reais (apenas inclui os termos entre parêntesis, para facilitar a visualização e apresentação (nos exemplos reais, não há os termos entre (), claro).

Re: Extração de dados específicos em textos pouco padroniza

Enviado: 18 Fev 2017 às 16:34
por RonaldoFlag
O tamanho dos textos com as descrições é imprevisível.

A tabela de Materiais, Funções e Aplicações são semelhantes aos abaixo (uma coluna é independente da outra):
MATERIAL FUNÇÃO APLICAÇÃO
camurça fixação torno
etoxi plaina plaina
fósforo limpar aparelho
aço branquear industrial
inox tecer manual
alumínio tear tear
bronze clarear nuclear
óxido medição pesquisa
madeira testar têxtil
ácido movimentar medição

Extração de dados específicos em textos pouco padronizados

Enviado: 19 Fev 2017 às 20:16
por RonaldoFlag
Caros,

Sei que é complicado, mas seria possível bolar funções para as células em cinza (veja anexo), sem programação em VB?

Vejam anexo uma descrição mais detalhada e com alguns exemplos reais.

Se fosse fácil, eu não teria consultado os mestres!!!

Muito grato

Ronaldo

Extração de dados específicos em textos pouco padronizados

Enviado: 20 Fev 2017 às 08:52
por FelipeMGarcia
Ronaldo, anexa um excel que fica mais fácil das pessoas ajudarem, se puder tb, anexa a lista dos produtos que tem para poder identificar nas linhas.

Abs

Re: Extração de dados específicos em textos pouco padroniza

Enviado: 20 Fev 2017 às 18:06
por RonaldoFlag
Vejam anexo.