Talend: Uma História de Inovação Contínua

Avanços do Talend de 2006 a 2019

Compartilhe este post

Desde que foi lançado, em 2006, o Talend construiu uma história crescente de inovação e evoluiu de uma simples ferramenta de Integração de Dados e ETL a uma plataforma robusta para Gestão de Dados. A passos cada vez mais largos, novas características e funcionalidades foram sendo incrementadas à solução, colocando-a muitas vezes à frente de seus concorrentes em aspectos de performance e adequação às demandas de mercado.

Avanços do Talend de 2006 a 2019
Talend e sua escalada de inovação.

Fundada na França entre 2005 e 2006, a empresa de mesmo nome, Talend, foi pioneira em lançar o primeiro produto para integração de dados em modelo open source. Outras soluções emergentes vieram posteriormente a seguir o mesmo modelo, como o Pentaho, o Apatar e o Jitterbit.

Este artigo é praticamente uma consultoria grátis que irá contar a história de inovação contínua que transformou o Talend em uma Plataforma de Gestão de Dados que ajuda empresas a se tornarem Data Driven cada vez mais rápido e com maior Governança. Ao longo desta história você terá mais clareza do que é o Talend e como cada uma de suas peças podem ajudar também a sua empresa a acelerar a jornada da Transformação Digital.

Primeiras Versões

Em 2006 foi lançado o Talend Open Studio, uma ferramenta totalmente voltada para Integração de Dados e ETL. Naquela época, já era possível notar diferenças consideráveis em relação aos concorrentes devido à imensa facilidade para implementar qualquer tipo de solução voltada para dados, efetuando a leitura ou escrita em diversos formatos de arquivos, bancos de dados, web services etc. Seu modelo de implementação era baseado em componentes, tornando possível por exemplo, em um mesmo componente, realizar a conexão com um banco de dados e realizar uma query customizada. Além disso, o design dos workflows já era extremamente intuitivo, reduzindo a curva de aprendizado e facilitando a adoção da ferramenta.

Talend Open Studio em 2006
Talend Open Studio em 2006
Fonte: Guia do Usuário

2007 foi o ano do lançamento da primeira edição comercial, que foi chamada Talend Integration Suite. Com um modelo de comercialização diferente do adotado por seus concorrentes, que se baseavam no número de cores/runtimes, a Talend inovou com um modelo baseado em número de desenvolvedores. Além disso, a solução flexibilizou também a questão da nomeação dos desenvolvedores, tornando possível cadastrar quantos usuários fossem necessários, delegando posteriormente os “assentos ativos”. Desta forma se iniciou a escalada de inovação da primeira ferramenta open source para Integração de Dados e ETL a oferecer também uma edição comercial.

Qualidade em Foco

Demonstrando sua estratégia de inovação contínua, em Junho de 2008 foi lançado o Talend Open Profiler – seu primeiro produto voltado para Data Quality. Desde então, Qualidade de Dados passou a fazer parte do conjunto de ferramentas e componentes da suíte unificando integração, ETL e enriquecimento de dados.

Sem mais "bad data in/bad data out"
Sem mais “bad data in/bad data out”.
Fonte: talend.com

O Talend Open Profiler possibilitava analisar o Perfil dos Dados e esta funcionalidade, em inglês conhecida como Data Profiling, permitia a identificação dos problemas existentes nas bases de dados a partir da definição dos metadados e regras de negócio. A partir daí ficou mais fácil criar os Jobs de integração e ETL com os componentes mais adequados para refinar a Qualidade dos Dados; em muitos casos, inclusive, de modo automatizado.

Em busca do Golden Record

Quando se trata do mundo real, na maioria das corporações precisamos integrar dados de diversos sistemas e frequentemente uma mesma entidade possui divergências entre fontes diferentes. Isso tem um grande impacto no negócio, principalmente quando estas informações são necessárias para a tomada de decisão.

Além do mais, muitas vezes não é suficiente pensar em Qualidade de Dados em uma única via de integração – geralmente os sistemas de Business Intelligence (BI) e Analytics. É necessário criar uma visão 360º de entidades frequentemente utilizadas – como por exemplo Cliente, Produto ou Fornecedor – garantindo assim maior eficiência no lado operacional, nos sistemas transacionais. É aí que entra o conceito de Master Data ManagementMDM, empregando ferramentas para criar uma visão única das entidades mais relevantes ao negócio. Estas entidades são denominadas Master Data e costumamos chamar de Golden Record aquele registro que representa a unificação dos melhores atributos de uma Entidade com origem em fontes distintas.

Em setembro de 2009 a Talend adquiriu uma solução de MDM chamada Xtentis. Rapidamente, após sua unificação ao produto, em janeiro de 2010 foi lançado o Talend MDM. A versão gratuita ficou conhecida como Talend MDM Community Edition e a comercial como Talend MDM Enterprise Edition. Novamente, a primeira solução de mercado a seguir o modelo open source.

Uma única visão 360º de "J. Reynolds" no Marketo, salesforce, netsuite e no SAP
Uma única visão de “J. Reynolds” no Marketo, salesforce, netsuite e no SAP.
Fonte: talend.com

APIs e Web Services

Até agora falamos sobre soluções de integração em forma bulk e batch, que geralmente ocorrem em horários específicos e podem movimentar grandes massas de dados (muitas vezes tomando horas para o processamento). Contudo, em um cenário que cada vez mais demanda ações e respostas online e em real-time é necessário um outro tipo de abordagem. Portanto, faz-se necessário um modelo que responda às necessidades de integração assim que elas surjam. O tipo de arquitetura que atende à estes requisitos é conhecido como SOA, de Service Oriented Architecture que, como o nome traduz, é baseado em serviços (web services ou APIs) que ficam sempre ativos, prontos para interagir através da troca de mensagens.

Associado à arquitetura SOA, vem o conceito de ESBEnterprise Service Bus – com o propósito de criar um único barramento por onde todas as integrações devem passar. Este conceito, quando implementado nas melhores práticas, tem grande benefício do ponto de vista da Governança de Dados e de TI, pois pode ajudar a criar serviços com a visão de Entidades e diminuir drasticamente o número de interfaces necessárias para a comunicação entre sistemas e aplicações ao evitar a duplicação de interfaces de integração que possuem o mesmo propósito.

ESB: Um único barramento para substituir um emaranhado de interfaces
ESB: Um único barramento (em amarelo) para substituir um emaranhado de interfaces.
Fonte: Wikipedia (en)

Assim, com o objetivo de se adequar às necessidades do mercado, em dezembro de 2010 a Talend lançou o Talend ESB. Esta ferramenta também foi conhecida por um tempo como Talend Integration Factory.

Que Bonita!

Ao longo de 2011 foi realizada a unificação de todas as ferramentas Talend e em novembro deste ano foi lançada a versão 5 do produto. Denominada Talend Unified Platform, esta foi a primeira versão a juntar todas as soluções mencionadas até aqui em uma única plataforma com uma abordagem holística para integração de dados. Esta unificação simplificava a gestão dos ativos de software desenvolvidos para integração de dados, permitindo o deploy e a manutenção em ambientes híbridos (on-premises e na Nuvem) com a gestão em uma única plataforma.

Uma grande novidade desta versão foi a introdução de uma solução de BPM – de Business Process Management. O Talend Enterprise BPM possibilitava aos usuários coordenar fluxos de negócio integrados com os de integração de dados e aplicações. Esta solução foi fruto de uma parceria OEM com a BonitaSoft.

O Advento do Big Data

Talend Unified Platform: uma plataforma de processamento de dados pronta para tudo.
Uma plataforma pronta para tudo.
Fonte: Talend

No início de 2012 a Talend lançou o primeiro conjunto de ferramentas para Integração e Qualidade de Dados voltadas para Big Data. O Talend Open Studio for Big Data abstraiu a complexidade da programação MapReduce através de sua abordagem gráfica que permitia gerar e executar código nativo diretamente no Hadoop com o máximo de escalabilidade. Essa característica possibilitava combinar o processamento Hadoop com processos tradicionais de Integração de Dados, tanto em modelo ETL quanto ELT. Ademais, o Talend Open Studio for Big Data provinha suporte nativo ao sistema de arquivos Hadoop – HDFS (Hadoop Distributed File System), Pig, HBase, Sqoop e Hive. Esta iniciativa ajudava a acelerar a adoção e implantação de soluções Big Data nas empresas.

Em novembro de 2012 foi lançada a versão 5.2, que adicionou o suporte à Data Profiling diretamente no Hadoop sem necessidade de realizar a extração dos dados. Além disso, foi extendido o suporte a bases NoSQL Cassandra, HBase e MongoDB. Logo em seguida, no início de 2013, foram incluídos o Couchbase, CouchDB e Neo4j.

Em maio de 2013 foi lançada a versão 5.3, que trouxe melhorias para tornar a implementação de integrações Big Data ainda mais amigáveis. Um exemplo foi a nova funcionalidade de mapeamento gráfico direcionada para Big Data, especialmente a linguagem Pig, permitindo que qualquer desenvolvedor crie graficamente um fluxo de dados para transformá-los usando um mapeador visual.

Avanços consideráveis também foram notados em 2013 com relação à integrações business-to-business, ou B2B, graças ao suporte aprimorado a formatos avançados de dados B2B, rich XML e conjuntos de dados semi-estruturados. Esses novos recursos são baseados na tecnologia obtida com a aquisição da Oakland Software, fornecedora de ferramentas avançadas de transformação de dados. Formatos como X12, HIPAA, EDIFACT, GS1 e FpML passaram a ser suportados nativamente. Customizações para formatos adicionais também tornaram-se possíveis.

MapReduce 2.0

No fim de 2013 foi lançada a versão 5.4, totalmente otimizada para o MapReduce 2.0, também conhecido como YARN. Tendo o YARN como motor de integrações, a Talend possibilitou que seus clientes se beneficiassem imediatamente da gestão de recursos superior que o YARN tinha a oferecer. Diferente dos engines de terceiros, que executavam sobre o Hadoop, os usuários da versão 5.4 se beneficiavam da escalabilidade e elasticidade massiva incorporadas à plataforma Hadoop com custo zero em programação, gerenciamento de tarefas ou implantação e manutenção da plataforma.

Em 2014 o Talend Big Data obteve certificação para o Cloudera Enterprise 5 e lançou o seu primeiro sandbox para Big Data, um ambiente virtual pré-configurado desenhado para acelerar o início de projetos de Big Data com casos de uso baseado em cenários reais. Desde então, este sandbox vem sendo atualizado para se adequar a novos cenários e tecnologias do momento.

Nas Nuvens

Em 2015 foi a vez de ir para a Nuvem e em março deste ano foi lançado o Talend Integration Cloud, uma plataforma de integração totalmente hospedada na Nuvem. Provida sob o modelo iPaaS (de Integration Platform as a Service), a nova plataforma dispunha de todas as características esperadas deste modelo, tais como elasticidade, alta disponibilidade e redução de custos operacionais ao eliminar tarefas de manutenção da infraestrutura.

Esta plataforma se beneficiava de todos os avanços anteriores do Talend Studio, abrangendo modelos de integração bulk, batch e real-time com suporte a inúmeras fontes e destinos. Hadoop, Amazon Redshift, diversos NoSQL, Marketo, NetSuite, Salesforce, Redshift, SAP, AWS S3, Dropbox, Google Drive, Box, email, web services/APIs e FTP são só alguns exemplos para se citar. Além disso, as funcionalidades de Data Quality permitiam padronizar dados de fontes on-premises ou na Nuvem (privadas ou públicas), assim suportando a integração de ambientes híbridos.

O Talend Integration Cloud foi também o primeiro lançamento a permitir criar Jobs e gerar código nativo não apenas para MapReduce, mas também Spark e Storm, habilitando integrações Big Data Batch e Streaming.

A Centelha do Fast Data

É comum descrever o conceito de Big Data baseando-se nos 4 V’s de volume, velocidade, variedade e veracidade. Contudo, de modo geral, parece nos primórdios do Big Data se deu maior ênfase ao volume. Era tudo muito novo para todo mundo e infraestrutura de armazenamento era necessária para posteriormente se pensar no que fazer com tantos dados. Mas logo esse momento chegou. E como lidar com tal volumetria, com tamanha variedade e em tempo real? E como garantir a Qualidade dos Dados?

A necessidade de realizar o processamento de grandes volumes de dados em tempo real provocou o que vem sendo chamado desde então como a próxima etapa do Big Data: o Fast Data. Obviamente, para atender a esta demanda crescente e gerar novas oportunidades de negócio cada vez mais rápido, era necessário uma solução de Fast Data Integration.

Ao fim de 2015 foi lançada a versão 6 do Talend, a primeira versão fora da Nuvem Talend com suporte nativo ao Apache Spark e Spark Streaming. Trazendo consigo mais de 100 componetes Spark, o Talend 6 alcançava resultados incomparáveis de velocidade no processamento de dados e portanto, habilitava as empresas a converter streaming de dados Big Data ou de sensores (IoT) em ações.

Seguindo a mesma linha de prover uma solução com grande usabilidade, a nova versão possibilitava converter os Jobs desenvolvidos com MapReduce para Spark imediatamente, tudo ao alcance de 1 click. Esta alteração possibilitava um ganho imediato de performance de cerca de 5x em relação ao MapReduce, que, comparado na versão 5.6 do Talend, já representava uma performance 53% superior a média dos concorrentes.

Comparativo do Talend 5 (MapReduce), Talend 6 (Spark) e concorrentes
Comparativo entre as versões MapReduce (Talend 5.6), Spark (Talend 6) e concorrentes.
Fonte: Talend

Entrega Contínua

Os avanços da versão 6 com relação ao Fast Data Integration não se restringiram ao Spark Streaming. Este lançamento trouxe também grande inovação ao permitir o desenvolvimento e operação de seus artefatos implantando o suporte a modelos ágeis, sob o conceito de DevOps. Adicionando suporte à Integração e Entrega Contínua (Continuous Integration/Continuous Deployment – ou CI/CD), o Talend permitiu colocar as fases de desenvolvimento, testes, implantação e operação em uma esteira automatizada. Desta forma, a TI consegue atender melhor as demandas com a velocidade que os negócios requerem. Este processo diminui riscos operacionais enquanto aumentam a agilidade e inovação.

Talend Continuous Integration/Deployment
CI/CD: Uma esteira de entrega contínua permite mais agilidade na inovação.
Fonte: Talend

Get Prepared for Data!

Embora muitas empresas tenham feito um bom progresso no caminho de se tornarem mais orientadas a dados (Data Driven), um grande obstáculo costuma aparecer na reta final da jornada. O cenário caracterizado pela explosão de dados Big Data, Cloud e IoT, além dos tradicionais silos de dados e sistemas transacionais gerou uma demanda por melhores ferramentas voltadas para a Qualidade dos Dados. O Talend já vinha se preparando para este cenário praticamente desde o seu começo com suas ferramentas de Data Profiling e componentes para o enriquecimento de dados. Mas quem melhor conhece estes dados para poder tratá-los do que os usuários de negócio?

Em fevereiro de 2016 foi lançado o Talend Data Preparation, uma ferramenta self-service extremamente intuitiva feita para explorar, limpar, enriquecer e combinar dados de diferentes fontes em minutos, ao invés de horas, usando ferramentas intuitivas de arrastar e soltar, guias inteligentes e funções de processamento automatizadas.

Talend Data Preparation
Fonte: sourceforge.net/projects/talend-data-preparation/

O propósito do Talend Data Preparation era atender um público não tão familiarizado com os aspectos técnicos presentes no Talend Studio, mas que em contrapartida era o público com maior EXPERTISE nos DADOS para apontar e corrigir as suas discrepâncias. Usuários de Marketing, Vendas, Operações, Financeiro etc. poderiam assim se tornar parte dos times de dados e agregar com seu conhecimento para transformar dados em iniciativas de negócio melhor informadas.

A Fantástica Fábrica de Dados

The biggest challenge with self-service anything is governance. Self-service data preparation has been happening for many years in ‘name your favorite spreadsheet software’, but governance issues drove a need for better solutions. Desktop self-service data preparation software is providing a better alternative to spreadsheets, but more value will be realized when centralized governance and control is applied to self-service.

Stewart Bond, IDC’s Data Integration Software Practice

Acabamos de falar sobre o lançamento do Talend Data Preparation em sua versão gratuita e standalone. Uma aplicação desktop que proporcionava muitas ferramentas de qualidade além de algumas funcionalidades para análise de dados. O próximo avanço na jornada Talend foi o aumento da sinergia entre as áreas de negócio e a TI com a versão comercial do Talend Data Preparation, adicionando mais Governança aos Dados.

Em junho de 2016 foi lançado o Talend Data Fabric, uma plataforma que conectava os esforços das áreas de negócio e TI reunindo as funcionalidades do Talend Data Preparation às do Talend Studio. O Talend Data Fabric permite integrar os conjuntos de dados e as suas “receitas de preparação” criadas no Talend Data Preparation (que agora estava disponível como uma aplicação web, semelhante a um Tableau, por exemplo) diretamente aos Jobs do Talend Studio.

Job Talend utilizando uma preparação de dados criada pelo usuário de negócio
Executando uma Preparação de Dados em um Job do Talend Studio
Fonte: Talend

O Talend Data Preparation em sua versão comercial permite compartilhar datasets, definir perfis de acesso, realizar amostragem de dados e aplicar funções de mascaramento e criptografia de dados. Mas sem dúvidas, o maior destaque é a capacidade de incorporar seus ativos (datasets e data preparations) aos Jobs do Talend Studio, como demonstrado na imagem acima. Desta forma, cada área fica responsável por aquilo que tem de melhor a oferecer. Assim, a TI pode se concentrar na Governança e no desenvolvimento das interfaces de integração, enquanto os usuários de negócio preparam e enriquecem os dados utilizando de todo o seu domínio sobre os mesmos.

Outra novidade do Talend Data Fabric é o Talend Data Mapper – uma ferramenta para auxiliar no mapeamento de formatos complexos – e a adição de componentes de machine learning, permitindo analisar facilmente conjuntos de dados massivos para ajudar a identificar padrões nos dados e convertê-los em novas oportunidades de negócios.

Assim, Data Science e suas diversas aplicações, tais como previsão de vendas, predição de churn, identificação de oportunidades e riscos em tempo real, reconhecimento de imagens, otimização de culturas e estimativa de seguros (só para nomear algumas), se tornaram possíveis através do Talend com a capacidade de processamento de grandes volumes de dados através do Spark.

Talend Data Fabric
Talend Data Fabric
Fonte: Talend

Data Stewardship

No início de 2017 foi anunciada uma nova versão do Talend Data Fabric com a inclusão de uma ferramenta self-service para Data Stewardship. Esta nova funcionalidade ajuda a contornar problemas de integração delegando decisões sobre Qualidade de Dados para os Data Stewards.

Pense no seguinte cenário, muito comum em qualquer integração de dados envolvendo Data Warehouses, Data Lakes ou quaisquer sistemas de Analytics:

Algum problema é detectado em um atributo crucial de um registro, que impede a sua integração com o destino. Dependendo de como foi implementado o ETL, este registro poderia se perder no meio da integração. Para contornar este problema, muitos desenvolvedores estão habituados a implementar técnicas para capturar estes “rejeitados” para análise posterior. O problema é que o conhecimento necessário para corrigir este dado e/ou estipular regras de qualidade geralmente não está na TI. Assim, se faz necessário compartilhar a questão com as áreas de negócio, mas muito se perde neste processo.

Em primeiro lugar há a perda de tempo, pois tudo se dá de forma manual envolvendo trocas de e-mails sem fim. Pode-se até automatizar este processo, mas aí entra a segunda perda: Governança. E esta troca desgovernada de dados pode ter muito impacto no negócio.

Com o Talend Data Stewardship, é possível incorporar a governança a qualquer fluxo de integração de dados e isolar subconjuntos de dados que exigem certificação manual. A solução organiza essas tarefas como fluxos de trabalho, atribui cada uma ao usuário de negócio (Data Steward) mais bem equipado para executar a verificação de qualidade e define regras para as quais os dados devem ser limpos e validados. A solução também utiliza machine learning para descobrir as melhores práticas dos especialistas para a curadoria de dados e automatizar a correspondência de conjuntos de dados massivos para que eles possam ser concluídos mais rapidamente e com maior inteligência. Além disso, o novo suporte ao Apache Atlas permite que os clientes tenham uma melhor compreensão da linhagem de dados no Hadoop, para gerenciar melhor os riscos e a conformidade.

Data Stewardship
Talend Data Stewardship
Fonte: talend.com

Let it REST

Por um bom tempo, a maioria dos projetos de integração partiam dos dados disponíveis para a construção das interfaces. Porém, uma nova onda de Transformação Digital influenciou de modo significativo a maneira como as interfaces de integração são desenhadas. Enquanto a Arquitetura Orientada a Serviços – ou SOA – da qual falamos na primeira parte desta história concentrava-se na disponibilização de serviços de integração de modo centralizado, esta nova onda trouxe um olhar bastante diferente ao pensar nestas interfaces como Produtos direcionados não por especificações técnicas, mas por objetivos de negócio estratégicos e relevantes. Esta abordagem orientada a ativos digitais (ou digital assets) permite democratizar o acesso aos dados, tornando mais fácil para desenvolvedores com qualquer nível de expertise integrar suas aplicações com estes ativos, pois reduz a necessidade de compreender detalhes de sistemas backend.

Ao fim de 2017 foi anunciado pela Talend a aquisição da Restlet, uma plataforma na nuvem para desenho e testes de APIs. O mesmo anúncio informava que a tecnologia do Restlet iria passar a complementar o Talend Data Fabric, adicionando suas funcionalidades de design, documentação e testes à habilidade de integração, transformação, governança e compartilhamento de dados corporativos que a plataforma Talend já possuía.

Com isso, o Talend deu um grande passo em direção à Transformação Digital ao possibilitar que seus usuários adotassem uma abordagem de design denominada API-first, tornando mais fácil monetizar e compartilhar informações de forma segura e em tempo real.

O Restlet também trouxe consigo o suporte a projetos open source como o Swagger e o RAML, além de compatibilidade com API gateways de terceiros, como o Google Apigee.

Governança, GDPR e LGPD

A onda de Transformação Digital democratizou o acesso a dados e criou novas oportunidades para as empresas gerando inúmeros negócios digitais. Porém, em contrapartida, a descentralização da Gestão de Dados provocada por esta onda, aliada ao surgimento de novas regulamentações quanto à Privacidade originou novas demandas por Governança de Dados.

Sem dúvidas, a GDPR – de General Data Protection Regulation -, uma regulamentação européia com implementação marcada para maio de 2018, era um grande impulsionador destas necessidades, ao demarcar fronteiras e formas para o uso de dados pessoais. Aqui no Brasil não é muito diferente, e a LGPD requer iniciativas semelhantes. Um bom exemplo é o direito de acesso, que determina que o titular dos dados deverá ter acesso às suas informações e dados pessoais, bem como ter conhecimento de como os mesmos estão sendo utilizados. E é aí que todo mundo começou a se perguntar: como atender a este tipo de regulamentação em um cenário de dados tão descentralizados?

Ainda em 2017, encerrando o ano com chave de ouro, foi anunciado pela Talend a sua nova solução para Gestão de Metadados. O Talend Metadata Manager coletava informações de bancos de dados, ferramentas analíticas como o Tableau ou Qlik Sense, Big Data e Plataformas na Nuvem tais como AWS, Cloudera e Microsoft Azure, ou qualquer pipeline de dados criado na plataforma do Talend Data Fabric (ou seja, Jobs do Studio) e os combinava em uma visão holística de todo o ciclo de vida do dado. Além disso, a solução também continha um glossário de negócio para ligar definições técnicas às definições e vocabulários de negócio, habilitando a busca self-service, categorização e acesso à informação.

Data Catalog

Diante do cenário retratado anteriormente, os recursos que o Talend Metadata Manager possuía já eram relevantes, mas para organizar os dados em escala era preciso dar mais um passo na Governança de Dados.

From Metadata Management to Data Catalog

Em outubro de 2018 foi anunciada a nova versão do Data Fabric, que trazia consigo a evolução da ferramenta de gestão de metadados mencionada anteriormente. O Talend Data Catalog substituiu o Metadata Manager; e não se tratava de uma mera mudança de nome. A nova solução se tornou mais orientada a dados, ao invés de apenas metadados como na solução anterior. Também se tornou mais colaborativa, criando um ambiente social que permite que todos os aqueles que utilizam os dados contribuam para a sua documentação e certificação.

O Talend Data Catalog rastreia automaticamente todos os dados e realiza o data profiling, classificando todos os dados encontrados e buscando relacionamentos entre eles. E vai muito além:

  • Descoberta automática no Data Lake e outras bases de dados
  • Linhagem dos dados (data lineage) de ponta a ponta
  • Realiza o Data Profiling e classifica todos os dados
  • Identifica PII’s (Personally identifiable information)
  • Localiza e sugere automaticamente relacionamentos entre dados
  • Fornece acesso fácil com base em pesquisa “google like”
  • Amostragem de dados e descoberta semântica
  • Social curation com atribuição de tags, comentários, revisões e certificações
  • Documentação de metadados
  • Análise de Impacto e alertas de mudanças
  • Versionamento
  • Workflows de aprovação para os dicionários de negócio
  • Interface customizável e API REST
Talend Data Catalog: 80% do trabalho de descoberta e documentação automatizados.
80% do trabalho de descoberta e documentação automatizado.
Fonte: Talend

Stitch

Ao fim de 2018 foi anunciado pela Talend a aquisição de uma solução Cloud para Integração de Dados, o Stitch, que já era considerado um dos líderes no segmento de soluções self-service. Embora possa soar redundante considerando todo o poder do Talend Studio, esta solução veio a complementar o portfólio de produtos da Talend ao trazer um pacote de funcionalidades simples para a ingestão de dados de fontes tradicionais em data warehouses e data lakes na nuvem.

O Stitch possibilita aos seus usuários a ingestão de dados em data lakes sem a “complexidade” do Talend Studio (se é que podemos dizer que há alguma). Colocando em outras palavras, o Stitch é uma ferramenta self-service ideal para analistas de negócio e cientistas de dados, pois abstrai os detalhes técnicos de integração, realizando a ingestão dos dados brutos em em seu destino (as is). Esta capacidade, sem dúvida alguma, empodera estes usuários diminuindo o tempo necessário para disponibilizar o dado para análises e identificação de novos insights.

Pipeline Designer

Em abril de 2019 foi lançada uma nova solução para o desenho de integrações em nuvem, o Talend Pipeline Designer. O produto, disponibilizado como uma interface gráfica totalmente web, permite o desenvolvimento de integrações em modelo batch ou streaming, seja em nuvem ou on-premises.

Pipeline Designer
Fonte: Talend

Disponível como uma solução self-service extremamente amigável e seguindo o modelo de iPaaS já disponibilizado na plataforma em nuvem da Talend, o Pipeline Designer tem benefícios de escalabilidade e elasticidade previstos neste tipo de solução. Além disso, é possível adotar a solução separadamente, pagando apenas pelo que é usado.


Considerações Finais

Embora longo, este é só um resumo da história do Talend, que demonstra o compromisso desta solução em agregar valor para seus clientes e usuários ao buscar sempre a inovação. O simples fato de adotar um modelo open source, não apenas corrobora esta afirmação, demonstrando o interesse em ouvir a comunidade de usuários, como também demonstra uma flexibilidade que permite customizar o produto para necessidades específicas.

Todos estes avanços colocaram o Talend nos últimos anos no Quadrante de Liderança do Gartner e o posicionaram como uma solução preparada para processar grandes volumes de dados e gerar novas oportunidades de negócio, lidando também com as novas demandas de privacidade de dados, como a GDPR e a Lei Geral de Proteção de Dados Pessoais no Brasil, a LGPD.

Pessoalmente, acredito que tive o privilégio de acompanhar boa parte desta jornada de evolução contínua. Em meados de 2011 criei um blog chamado Talend Brasil com o único propósito de espalhar esta ferramenta no nosso idioma através de alguns tutoriais. Esta iniciativa foi tomando uma proporção cada vez maior, tanto do ponto de vista de disseminação do conhecimento quanto de atender à demanda crescente de empresas interessadas em adotar o Talend para gerenciar seus projetos envolvendo dados. Outros entusiastas apaixonados por dados e resolução de problemas se juntaram a esta iniciativa e assim foi criada a Data Expertz. Hoje, tenho orgulho em dizer que esta é uma empresa formada por profissionais com Expertise em resolver problemas envolvendo Dados. Para isso é preciso de Talento, e talento com dados é Talend.

Continue acompanhando nosso site e assine nossa newsletter para ter acesso às últimas novidades relacionadas ao Talend. Para saber mais sobre a comercialização do produto, suporte, treinamentos e cursos on-line entre em contato conosco.

Referências

Assine nossa newsletter

Fique por dentro das novidades mais recentes sobre o Talend e aprenda com nossos experts

Leia outros posts do nosso blog

Talend

Acessando Web Services SOAP no Talend

A utilização de Web Services é comumente usada na integração e comunicação entre sistemas. Nesse artigo começaremos com uma breve introdução sobre Web Services, o que são, seu formato padrão e como podem ser utilizados, posteriormente, iremos aprender como realizar requisições a um Web Service utilizando o Talend com um exemplo prático usando um Web Service de captura de endereço através do CEP.

Para o desenvolvimento desse artigo iremos utilizar um Web Service pertencente ao pessoal do Byjg, que é um site que possui diversos serviços para diversas situações, dentre eles está o serviço de consulta de CEP, no qual podemos passar um CEP para ter como retorno o endereço, e vice-versa.

Quer acelerar a tomada de decisão com dados de qualidade?

Fale conosco agora mesmo!

Fale com nossos experts

O café é por nossa conta!