Aplicando o aprendizado de máquina no front end dos locais de bitcoin da hpc

Mas como um aparte: falamos com a Turek sobre o CORAL2 em junho no ISC18, logo após os lances pelos sistemas terem sido entregues ao departamento de energia, e ele não pôde dizer muito, exceto que a IBM deveria obter crédito por isso. entregar cimeira e serra mais ou menos como planejado e que isso deve significar muito quando se trata das propostas CORAL2. Mas talvez não, porque a cada geração de máquinas, os principais laboratórios precisam fazer uma pesquisa de arquitetura e levar em consideração quaisquer novos desenvolvimentos – ou a falta deles – que possam oferecer melhor desempenho, suporte mais amplo a aplicativos, preços mais baixos ou qualquer combinação do acima. De certo modo, está sempre de volta à estaca zero nesses negócios de grandes sistemas, o que é bom para impulsionar a inovação, mas talvez seja algo para deixar os principais fornecedores um pouco irritados até que eles ganhem os negócios.


Parece inconcebível que a combinação do chip IBM power10 com uma futura GPU nvidia e possivelmente com 400 gb / s NDR ou 800 gb / s XDR infiniband não vença os lances CORAL2, mas com o cray de volta ao jogo com sua própria interconexão slingshot existe a possibilidade de ganhar pelo menos uma das três máquinas CORAL2. Se a IBM não ganhar pelo menos um desses acordos, isso tirará muito do desenvolvimento de suas velas power10, o que não é uma coisa boa, considerando que a IBM precisa encontrar um novo parceiro de fabricação de chips desde que a globalfoundries abandonou sua Fabricação de chips de 7 nanômetros. (as chances são de que seja samsung, não taiwan semiconductor manufacturing corp.) A hewlett packard enterprise provavelmente também está no exascale, com algumas das tecnologias que criou para a máquina, e apesar de todos os seus problemas, você simplesmente não consegue conte a Intel mais do que você pode contar com a IBM. Se o governo dos EUA tivesse dinheiro suficiente – chame-o de US $ 2 bilhões -, poderia construir quatro máquinas exascale e ter um a mais do que a China está planejando e dar a cada um desses quatro uma corrida pelo dinheiro.

Se você pensar em conjuntos de simulações, que eu conceituo como um espaço de solução de escala potencialmente enorme, é uma questão de criar um caminho através das simulações que são executadas da maneira mais parcimoniosa para preservar a maioria das informações e chegar ao resultados finais. Se você olhar para o possível conjunto de simulações que qualquer um poderia executar, bem, ninguém faz isso. E a maneira que eles escolhem não fazer certas simulações é pela experiência. Mineração Bitcoin amazônica que está inferindo, na linguagem da IA, e que vai ser bastante dependente do indivíduo, e as pessoas estão sujeitas a preconceitos e know-how, mas elas vão aparecer com alguma coisa porque, praticamente falando, você pode Não tenho uma resposta sobre como você reduz o escopo desse problema. O que queremos fazer é aplicar abordagens para ajudar as pessoas de forma mais sistemática, e talvez mais eficazmente, a tomar essas decisões.

Um exemplo clássico é aquele em formulação que executamos, e isso foi feito com clientes reais com dados reais e problemas reais. Nesse caso em particular, o cliente estava em produtos de consumo e estava procurando explorar mudanças baseadas em fases em produtos químicos à medida que eram combinados – eles permanecem separados ou misturam, esses tipos de parâmetros. Se você olhar para esse problema, que em um nível não era nada mais do que tentar descobrir a melhor mistura de água, metanol, tolueno e algumas outras coisas. Você poderia conjurar um espaço de solução quase infinito para isso, mas você tem que reduzi-lo de alguma forma. Mas então você fica com o problema do que você simula mesmo depois de reduzir o espaço da solução, e aplicamos essa técnica de simulação inteligente a esse problema e reduzimos o número de simulações que seriam executadas em relação ao que os especialistas o pensamento precisaria ser executado por dois terços. Ele obteve um resultado ótimo e, portanto, preservou todas as informações e melhorou a fidelidade da resposta em 10.000X.

Dave turek: exatamente. Montamos um sistema onde estávamos fazendo simulações em um cluster apenas para esse fim, e isso produz um resultado que é representado por parâmetros, que são então colocados em um banco de dados compartilhado com nosso sistema, que é um par de servidores, executando este software que analisa e faz aprendizado de máquina a uma velocidade extraordinariamente rápida e, em seguida, sugere ao cluster de simulação a próxima experiência que precisa ser executada. Notícias de preço de Bitcoin hoje isto continua correndo coletivamente e iterativamente e continuamente aprende dos parâmetros que a próxima simulação deveria ser.

Dave turek: isso é o que nos leva à redução drástica no número de simulações, porque o aprendizado de máquina está orquestrando o processo de fazer essa escolha. E é um resultado fenomenal. Essa implementação da otimização bayesiana é arquiteturalmente simples, pois está apenas passando os parâmetros de um banco de dados compartilhado para frente e para trás. Ele não altera a forma como o cluster de simulação é executado, apenas fornece conjuntos cada vez melhores de parâmetros de entrada que podem resolver um problema. Ainda não temos um nome formal, mas internamente o chamamos de boa, abreviação de acelerador de otimização bayesiano. Temos python, temos anaconda, e agora temos boa, mas o marketing não me permite usar esse nome porque ele não transmite exatamente o que ele faz. Bem, na verdade isso acontece.

Dave turek: é um domínio agnóstico, mas temos que representar algo para o sistema que representa o objetivo do que você está tentando fazer com as simulações. Então, na minha linguagem deselegante – e os matemáticos me levarão à tarefa – você tem que especificar uma função descritiva ou objetiva do que você está tentando realizar. Agora, acontece que para um especialista em modelagem de tempo, elemento finito, química, é preciso um par de horas e é isso que você dá ao sistema de simulação inteligente e é nesse contexto que ele interpreta os parâmetros que são fluindo para frente e para trás.

O objetivo é evitar o primeiro modelo de princípio que é característico do HPC clássico, e você pode contemplar o deslocamento dos sistemas de equações diferenciais parciais usados ​​em tudo, desde simulações clássicas até monte financeiro em serviços financeiros e assim por diante com uma abordagem diferente. A abordagem de banco de dados é um exemplo, sobre o qual se falou durante o verão no laboratório nacional de Oak Ridge, quando as aplicações iniciais para o supercomputador do cume foram reveladas. Eles falaram sobre a incorporação de aprendizado de máquina para atacar os fluxos de trabalho, mas era uma proposta muito centrada em dados.

Vimos isso e observamos o óbvio: na maioria das instituições, os dados estão em um estado caótico ou semi-caótico do lado deles, e do outro lado do firewall também é semi-caótico. Temos pesquisa de palavras-chave graças ao google e outros, mas isso é limitado quando se trata de HPC. Por exemplo, é bastante difícil fazer uma pesquisa no Google em uma equação ou uma fórmula química ou uma tabela ou uma planilha ou um PDF. A comunidade de pessoas no HPC tem dados nesses e em outros formatos, e eles têm muitas coisas em notebooks espalhados por aí.

Dave Turek: verdade. Às vezes eles deixam para trás um caderno e você precisa descobrir como processar isso. Por isso, construímos uma ferramenta chamada serviço de criação de corpus que ingere todas essas diferentes formas de dados, as nove jardas inteiras, e automaticamente gera um gráfico de conhecimento a partir dele, e pode ser enorme. Possui processamento de linguagem natural e anotação automática, mas o objetivo é fazer a transição dos dados para o conhecimento. Nós o configuramos de tal forma que você pode fazer pesquisas profundas sobre ele – pesquisa baseada em semântica, com questões complicadas envolvendo matemática complicada ou questões científicas que produzirão resultados com base nesse gráfico de conhecimento. O sistema fornece evidências documentadas das conclusões que ele tira.

Bem, vamos nos limitar à terra por um momento. Você tem geocientistas muito bem pagos saindo e pesquisando a terra e fazendo julgamentos, ou no jargão da IA ​​eles farão uma inferência baseada em sua própria experiência. Onde gastar bitcoins eles têm acesso a pesquisas geológicas de anos passados ​​e eles vão ler através destes. Pegamos essas ferramentas de descoberta cognitiva e disponibilizamos a esses geocientistas para ajudá-los a fazer um trabalho melhor de inferência. É um ataque a um problema clássico de HPC, mas estamos indo para o front end. Se pudermos escolher o lugar certo para fazer o som sísmico, então todo o resto a jusante será beneficiado. Mas você tem que começar no começo.

Aqui está outro caso. Existe uma pequena empresa que faz rolamentos de esferas e eles acabam em turbinas eólicas. Como os contratos funcionam na indústria eólica, os fornecedores de tecnologias-chave estão expostos ao risco de que a turbina eólica não funcione. Eles têm que compensar os fornecedores de energia por tempo e perda de receita quando a turbina não está funcionando. É um grande risco financeiro anual. Essa empresa em particular gera menos de US $ 1 bilhão, mas muito mais de US $ 100 milhões, para dar a você um senso de escopo. Bitcoin preço em tempo real, eles vão correr em problemas de qualidade ao longo do tempo com seus rolamentos de esferas.

Então, a questão se torna, como você discerne o que está errado com um rolamento de esferas? Acontece que eles têm uma tonelada de dados sobre isso – seis milhões de páginas, para ser preciso. E você sabe de que forma está? Documentos escritos à mão, um arquivo aqui, uma planilha lá. Está em todo lugar. Então, se pegarmos esses dados e os ingerirmos no serviço de criação de corpus, obteremos um diagnóstico melhor para o que está causando problemas em um determinado rolamento de esferas. E ao fazê-lo, eles mitigam o risco. Demora talvez algumas semanas para juntar os dados. Eles acham que vão economizar entre US $ 20 milhões e US $ 30 milhões por ano fazendo isso.