Logo
Imprimir esta página

'Spotify dos Cursos': entenda como foi desenvolver o maior acervo de audiobooks do Brasil com inteligência artificial

Por Miller Horvath

Atualmente, existem 7 milhões de pessoas cegas ou com baixa visão em nosso país, como aponta a Organização Nacional de Cegos do Brasil (ONCB). Dadas às estatísticas e pensando em ampliar o acesso dessas pessoas à educação, que iniciamos a reunião de Design Thinking com a equipe da EdTech Gran Cursos Online.

Ao final da conferência, o nosso time - composto por 2 seniors do time de desenvolvimento, 2 estagiários, 3 cientistas de dados e eu, que atuo como líder dos cientistas de dados da BRLink - estava frenético com o desafio de transformar o conteúdo de 28 mil livros em áudio. Se desse certo, seríamos os responsáveis pelo planejamento e desenvolvimento técnico do maior acervo de audiobooks do Brasil, uma espécie de “Spotify dos Cursos”!

Normalmente, audiobooks são gravados em estúdio com o auxílio de microfones unidirecionais, amplificadores, computadores e a interpretação de atores e dubladores. Segundo o CEO do Auti Books, em média, leva-se 25 horas para gravar um audiobook de 300 páginas, fora o tempo de edição, totalizando um tempo de 45 a 60 dias. A EdTech Gran Cursos Online, precisava de urgência e por isso, nos procurou.

Apesar da hesitação, sabíamos das dificuldades que esta tarefa demandaria e por isso, após um levantamento detalhado de requisitos da proposta, chegamos à conclusão de que, por se tratar de uma solução completa, e em produção, o melhor a fazer era utilizar diferentes serviços da AWS, proporcionando alta qualidade para o projeto.

Iniciamos a parte prática com uma prova de conceito (PoC) para provar a qualidade dos áudios gerados pelo Amazon Polly, sobretudo utilizando a engine Neural do serviço, que entrega uma voz muito mais natural. Depois, foi necessário desenvolver algoritmos em Python implementados em funções Lambda - serviço para computação Serverless da AWS -, para a extração e formatação dos textos das aulas em PDF.

O algoritmo elaborado também foi o responsável pela conversão do conteúdo para o formato Speech Synthesis Markup Language (SSML), que permite a customização dos áudios gerados, e pela limpeza dos textos para a remoção de dados pouco relevantes para os audiobooks como, por exemplo, textos do cabeçalho e rodapé, detecção e formatação de textos em tabelas.

A próxima etapa foi um extenso processo de revisão dos audiobooks gerados e exigiu muito empenho dos especialistas de língua portuguesa da EdTech Gran Cursos Online, que ouviram mais de 700 horas de áudios para identificar problemas de pronúncia de palavras, que podem ser corrigidos no Amazon Polly através dos Lexicons e de tags SSML.

Por último, mas não menos importante, fizemos a implantação da arquitetura em produção e geramos os audiobooks para todo o catálogo de aulas em PDF da EdTech Gran Cursos Online.

Em apenas dois meses transformamos o conteúdo de 28 mil livros em áudio. Como profissional que atuou desde a ideação até a implantação do projeto, posso afirmar que isso só foi possível devido ao alto comprometimento e qualidade técnica no time da BRLink, além da cooperação extensiva da EdTech Gran Cursos Online. Graças à assertividade no planejamento do projeto e à nossa eficiência operacional, todos os audiobooks foram gerados com menos de 1 semana de processamento. Com isso, pudemos alocar em torno de 7 semanas para melhorar ao máximo a qualidade dos áudios, que além de ser o maior desafio que enfrentamos, também é o aspecto mais impactante para os alunos.

A meu ver, o principal diferencial deste projeto, além da acessibilidade proporcionada para as pessoas que possuem algum grau de deficiência visual, é a capacidade de impactar os estudos em diversas situações. E adianto que os alunos podem esperar muitas novidades dessa parceria entre BRLink e Gran Cursos Online. Estamos trabalhando continuamente para trazer cada vez mais inovação tecnológica para a plataforma.

*Miller Horvath é bacharel em Ciência da Computação e mestre em processamento de sinais e imagem pelo Centro Universitário FEI e atua como Lead Data Scientist da BRLink onde é responsável pelo gerenciamento de equipe e projetos de AI/ML, desenvolvimento de projetos de aprendizado de máquina ponta a ponta na nuvem AWS, construção de arquitetura de soluções AWS usando Sagemaker, serviços gerenciados de AI/ML e diversos outros serviços AWS, como Lambda, DynamoDB, RDS, SQS, Elasticsearch, S3, Glue, Athena, Kinesis Firehose, API Gateway, entre muitos outros.


Compartilhe:: Participe do GRUPO SEGS - PORTAL NACIONAL no FACEBOOK...:
 
https://www.facebook.com/groups/portalnacional/

<::::::::::::::::::::>
IMPORTANTE.: Voce pode replicar este artigo. desde que respeite a Autoria integralmente e a Fonte...  www.segs.com.br
<::::::::::::::::::::>
No Segs, sempre todos tem seu direito de resposta, basta nos contatar e sera atendido. -  Importante sobre Autoria ou Fonte..: - O Segs atua como intermediario na divulgacao de resumos de noticias (Clipping), atraves de materias, artigos, entrevistas e opinioes. - O conteudo aqui divulgado de forma gratuita, decorrem de informacoes advindas das fontes mencionadas, jamais cabera a responsabilidade pelo seu conteudo ao Segs, tudo que e divulgado e de exclusiva responsabilidade do autor e ou da fonte redatora. - "Acredito que a palavra existe para ser usada em favor do bem. E a inteligencia para nos permitir interpretar os fatos, sem paixao". (Autoria de Lucio Araujo da Cunha) - O Segs, jamais assumira responsabilidade pelo teor, exatidao ou veracidade do conteudo do material divulgado. pois trata-se de uma opiniao exclusiva do autor ou fonte mencionada. - Em caso de controversia, as partes elegem o Foro da Comarca de Santos-SP-Brasil, local oficial da empresa proprietaria do Segs e desde ja renunciam expressamente qualquer outro Foro, por mais privilegiado que seja. O Segs trata-se de uma Ferramenta automatizada e controlada por IP. - "Leia e use esta ferramenta, somente se concordar com todos os TERMOS E CONDICOES DE USO".
<::::::::::::::::::::>

Copyright Clipping ©2002-2024 - SEGS Portal Nacional de Seguros, Saúde, Veículos, Informática, Info, Ti, Educação, Eventos, Agronegócio, Economia, Turismo, Viagens, Vagas, Agro e Entretenimento. - Todos os direitos reservados.- www.SEGS.com.br - IMPORTANTE:: Antes de Usar o Segs, Leia Todos os Termos de Uso.
SEGS é compatível com Browsers Google Chrome, Firefox, Opera, Psafe, Safari, Edge, Internet Explorer 11 - (At: Não use Internet Explorer 10 ou anteriores, além de não ter segurança em seu PC, o SEGS é incompatível)
Por Maior Velocidade e Mais Segurança, ABRA - AQUI E ATUALIZE o seu NAVEGADOR(Browser) é Gratuíto