Projetando chatbots: extraindo informações de canais de atendimento

Lemes, Jonatan de Sá

REPOSITORIO PUCSP Teses e Dissertações dos Programas de Pós-Graduação da PUC-SP Programa de Pós-Graduação em Tecnologias da Inteligência e Design Digital

Use este identificador para citar ou linkar para este item: https://repositorio.pucsp.br/jspui/handle/handle/23285

Tipo:	Dissertação
Título:	Projetando chatbots: extraindo informações de canais de atendimento
Autor(es):	Lemes, Jonatan de Sá
Primeiro Orientador:	Bastos, Marcus Vinicius Fainer
Resumo:	Com o aumento da interação entre clientes e plataformas digitais surge a necessidade de se produzir soluções cada vez mais sofisticadas, visando reduzir custos e suprir uma demanda crescente por atendimento ao público, presente em diversos nichos de negócio. Nesse contexto emergem programas de computadores chamados Chatbots, que de certo modo, se propõem a suprir essa necessidade. A construção de Chatbots em plataformas mais modernas requer dos projetistas uma série de inserções de conhecimento prévio para que possam se tornar funcionais, porém, levanta-se uma questão: qual conteúdo deve ser previsto como base de conhecimento? Quais Entidades, Intenções e Diálogos são esperados para o negócio? Busca-se, nessa pesquisa, quantificar e explorar métodos de extração de informação de fontes de dados conhecidas em canais de atendimento. O principal objetivo da pesquisa é dar suporte ao projetista de Chatbot na criação dos roteiros de atendimento sem depender de sua experiência empírica e informações difusas sobre o negócio. Nessa pesquisa são consideradas técnicas estatísticas e probabilísticas para se extrair informação de fontes de dados, sejam elas estruturadas ou não. É descrita a abordagem mais comum de construção de Chatbots baseando-se nos conceitos de: Entidade, Intenção e Diálogo, assim como, uma abordagem alternativa baseada em Cadeias de Markov; Um estudo de caso é proposto; Para a extração de informação foram consideradas técnicas de conversão de áudio em texto (TTS) que demonstrou perda leve a moderada quanto a sua forma; Geração e pré processamento de Corpus Linguístico e Computacional (Tokenization, Steeming, Lemmatization, Filters); Aplicação de técnicas de cálculo de frequência (TF), considerada satisfatória, por revelar o vocabulário do negócio; Relevância de termos (TF-IDF), considerada não satisfatória, por exibir termos comuns e irrelevantes para o negócio; Técnicas de etiquetamento (POS Tagging), considerada satisfatória, porém, com limitações de processamento; Extração de Entidades (NER), considerada satisfatória, com restrições de acurácia ligado ao conjunto de treinamento utilizado; Extração de Intenções e Diálogos utilizando etiquetamento sintático, que demostrou-se sensível do ponto de vista de análise humana devido ao volume de sentenças geradas; Clusterização de termos (KMeans) com uso de redução de dimensionalidade (PCA), considerada insatisfatória, pela esparsidade de dados apresentados; Classificação probabilística de textos (Bayes), considerada satisfatória, porém, com restrição de qualidade dependente do conjunto de treinamento; Ao final é proposta uma modelagem de software (UML), apresentando diagramas de casos de uso, classes e sequência, um modelo entidade relacionamento (MER) para persistência de dados e protótipos de telas relativo ao software de apoio esperado. Conclui-se no geral que existe a possibilidade de se extrair informações consideráveis para se projetar um Chatbot através da aplicação das técnicas descritas na pesquisa. Ressalta-se que o esforço cognitivo oferecido ao projetista pode variar dependendo do volume de dados a ser processado
Abstract:	With the increase in interaction between customers and digital platforms, there is a need to produce increasingly sophisticated solutions, aiming to reduce costs and meet a growing demand for customer service, present in various business niches. In this context, computer programs called Chatbots emerge, which in a way, aim to supply this need. The construction of Chatbots on more modern platforms requires from designers a series of inserts of prior knowledge so that they can become functional, however, a question arises: what content should be predicted as a knowledge base? Which Entities, Intentions and Dialogues are expected for the business? This research seeks to quantify and explore methods of extracting information from known data sources in service channels. The main objective of the research is to support the Chatbot designer in creating the service scripts without depending on his empirical experience and diffuse information about the business. In this research, statistical and probabilistic techniques are considered to extract information from data sources, whether structured or not. The most common approach to building Chatbots is described based on the concepts of: Entity, Intent and Dialogue, as well as an alternative approach based on Markov Chains; A case study is proposed; For the extraction of information, techniques for converting audio to text (TTS) were considered, which demonstrated a slight to moderate loss in form; Generation and pre-processing of Linguistic and Computational Corpus (Tokenization, Steeming, Lemmatization, Filters); Application of frequency calculation (TF) techniques, considered satisfactory, as it reveals the vocabulary of the business; Relevance of terms (TF-IDF), considered unsatisfactory, for displaying common and irrelevant terms for the business; Labeling techniques (POS Tagging), considered satisfactory, however, with processing limitations; Entity Extraction (NER), considered satisfactory, with accuracy restrictions linked to the training set used; Extraction of Intentions and Dialogues using syntactic labeling, which was sensitive from the point of view of human analysis due to the volume of sentences generated; Clustering of terms (KMeans) using dimensionality reduction (PCA), considered unsatisfactory, due to the sparse data presented; Probabilistic classification of texts (Bayes), considered satisfactory, however, with quality restriction depending on the training set; At the end, a software modeling (UML) is proposed, presenting diagrams of use cases, classes and sequence, an entity relationship model (MER) for data persistence and screen prototypes related to the expected support software. It is concluded in general that there is the possibility of extracting considerable information to design a Chatbot through the application of the techniques described in the research. It should be noted that the cognitive effort offered to the designer can vary depending on the volume of data to be processed
Palavras-chave:	Processamento de linguagem natural Chatbots Tradução voz texto Natural language processing Chatbot Speech to text
CNPq:	CNPQ::ENGENHARIAS
Idioma:	por
País:	Brasil
Editor:	Pontifícia Universidade Católica de São Paulo
Sigla da Instituição:	PUC-SP
metadata.dc.publisher.department:	Faculdade de Ciências Exatas e Tecnologia
metadata.dc.publisher.program:	Programa de Estudos Pós-Graduados em Tecnologias da Inteligência e Design Digital
Citação:	Lemes, Jonatan de Sá. Projetando chatbots: extraindo informações de canais de atendimento. 2020. 304 f. Dissertação (Mestrado em Tecnologias da Inteligência e Design Digital) - Programa de Estudos Pós-Graduados em Tecnologias da Inteligência e Design Digital, Pontifícia Universidade Católica de São Paulo, São Paulo, 2020.
Tipo de Acesso:	Acesso Aberto
URI:	https://tede2.pucsp.br/handle/handle/23285
Data do documento:	30-Jul-2020
Aparece nas coleções:	Programa de Pós-Graduação em Tecnologias da Inteligência e Design Digital

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Jonatan de Sá Lemes.pdf		7,47 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas