mais

⚙️ Código de manutenção do datalake (metadados e pacotes de acesso) | 📖 Docs: https://basedosdados.github.io/mais/

MIT License

Stars
391
Committers
41

Bot releases are visible (Hide)

mais - v1.6.11 Latest Release

Published by mfagundes over 1 year ago

  • change default & log permissions
  • minor fixes
mais - v1.6.10

Published by mfagundes almost 2 years ago

  • installs Shapely 1.x.x for compatibility with Google Colab (has Shapely 2.0.0 which is incompatible)
mais - v1.6.9

Published by mfagundes almost 2 years ago

CHANGELOG

  • updating pandas version
  • removing unused dependencies
mais - v1.6.8

Published by lucascr91 about 2 years ago

CHANGELOG

  1. Corrige bug criado no PR https://github.com/basedosdados/mais/issues/1338
mais - v1.6.7

Published by lucascr91 about 2 years ago

CHANGELOG

  1. Remove hardcode configuration path. Ver https://github.com/basedosdados/mais/pull/1344
mais - v1.6.6

Published by mfagundes about 2 years ago

  • Resolve bug na CLI #1338
mais - v1.6.5

Published by lucascr91 about 2 years ago

Changelog

  • Resolve bug de autenticação no Google colab #1289
mais - v1.6.4

Published by d116626 over 2 years ago

Changelog

  • refatoraupdate_columns #1188
  • adiciona parquet e parquet.gzip como formatos de upload para o storage #1188
  • adapta bd_bdm_table_schema para novo formato definido no website #1188
  • expõe parâmetro chunck_size do objeto blob #1188
  • troca comportamento do dataset_is_public, permitindo acessar os dados da tabela de staging #1188
mais - v1.6.3

Published by lucascr91 over 2 years ago

Change Log

  • Conserta table.update para o modo staging
  • Adiciona loguro no poetry
  • Remove parâmetro querry das funções bd.funcoes list_datasets e bd.list_dataset_table
  • Conserta configuração de variáveis globais no constatns.config
  • Adiciona parâmetro from_file ao constatns.config
mais - v1.6.2

Published by lucascr91 over 2 years ago

Changelog

  • inclusão do parâmetro dataset_is_public #1020
  • datasets *_staging agora são privados por default #1020
  • parâmetro location define localização da criação dataset #1020
  • retry de 10x ao fazer upload para o Storage #1020
  • small path fix to dataset_config.yaml #1067
  • criamos campos novos (e.g. observation_level, short_description, etc), matamos campos (e.g. entity, time_unit, etc). #1093
  • fizemos o campo dataset_id não ser automaticamente criado em dataset_config.yaml. #1093
  • o parametro columns_config_url virou columns_config_url_or_path e agora suporta carregamento de tabela de arquitetura local
  • fix empity list as partition
  • Redireciona metadados para ckan + adicionar função de search #1063
  • Adiciona logs nas funcões de upload #1085
  • Adiciona configs gerais do basedosdados #1085
  • Adiciona suporte a Avro e Parquet (cont.) #1145
mais - v1.6.1

Published by JoaoCarabetta almost 3 years ago

PRs:
#1026 Cria bypass de memória --> Agora usuário pode fazer download de bases com qualquer tamanho
#1010 Conserta a descrição do dataset

mais - v1.6.0

Published by vmussa almost 3 years ago

Pre-release: v1.6.0-beta

Essa pre-release compreende a implementação dos PRs #675, #795 e #847.
As mudanças proveniente de cada um dos PRs são descritas a seguir.

Changelog

PR #675

Adiciona módulo metadata.py com as modificações e funções descritas a seguir.
Elas estão disponíveis tanto a partir da importação do módulo e da classe Metadata via script ou notebook, tanto como a partir do cliente CLI basedosdados.

Baixar metadados do CKAN e converter para YAML: Metadata.create

  1. Permite baixar metadados de um dataset/tabela do CKAN, construindo um dataset/table_config.yaml a partir deles
  2. Permite criar um arquivo dataset/table_config.yaml estruturado e sem valores preenchidos para novos datasets e tabelas

Garantir que usuário não esteja subindo metadados mais antigos do que os atuais: Metadata.is_updated

  1. Permite comparar a versão do YAML local com a versão dos metadados do CKAN, indicando se os metadados locais correspondem à versão mais atualizada.

Validar se metadado está dentro dos padrões: Metadata.validate

  1. Indica, a partir das APIs do CKAN, quais campos do YAML estão preenchidos de forma inadequada.
  2. Indica o padrão correto a ser seguido no preenchimento dos dados.

Subir metadado para o CKAN: Metadata.publish

  1. Permite subir os metadados locais preenchidos no YAML para o CKAN.

Integração com Table

  1. Table.create usa Metadata.create para gerar o dataset/table_config.yaml

PR #795

  • Upload para o Google Storage permite novos modes: header, auxiliary_files e architecture
  • Agora table_approve.py faz o download das 20 primeiras linhas da table e adiciona na pasta header do Google Storage

PR #847

  • Introduz o parâmetro use_bqstorage_api nas funções de requisição de dados para acelerar o download
mais - v1.5.7

Published by JoaoCarabetta about 3 years ago

Closes issues #687 and #511

Resolve PR #793
Breve descrição das alterações
Modificações baseadas em https://stackoverflow.com/questions/45300037/cannot-upload-large-file-to-google-cloud-storage

  • Adiciona o parâmetro chunk_size como opcional em Storage.upload
  • Caso ele seja configurado, altera o chunk size do blob para o valor determinado
  • Caso não seja configurado, não altera o atributo do blob
  • Adiciona o parâmetro chunk_size como opcional em Table.append
  • Para usá-lo associado ao Storage.upload
mais - v1.5.6

Published by vmussa about 3 years ago

Changelog

PR #626

  • Melhora traceback do módulo download
  • Melhora estrutura das Exception
mais - v1.5.5

Published by JoaoCarabetta about 3 years ago

Issue #555

  • Adição do Table().table_exits()
  • Modificação do Table().append() para não dar replace na tabela

Issue #522

  • dá a opção de retornar variáveis nas funções de metadados

Issue #578

  • adiciona code coverage

PR #557

  • adicionar possiblidade de configurar via variável de ambiente
mais - v1.5.4

Published by JoaoCarabetta over 3 years ago

CHANGELOG:

  • Refatora condicionais e simplifica código
  • Melhora o pipeline da primeira configuração (#513)
mais - v1.5.3

Published by d116626 over 3 years ago

  • Reorganiza as pastas do pacote
  • Resolve bugs de Path no CLI
mais - v1.5.0

Published by JoaoCarabetta over 3 years ago

  • Adiciona nova função Storage.download()
  • Remove parâmetro partitioned do Table.create(): checa automaticamente se o dado é particionado
  • Resolve issue #302 : Table.update(mode="all") não sobrescreve configurações de partição
  • Resolve issue #371: resolve erro de timeout ao tentar ler uma tabela do BigQuery
  • Resolve issue #294: adiciona suporte para criar colunas extras no publish.sql
mais - v1.4.10

Published by Hellcassius over 3 years ago

  • Fix Storage.copy_table() prefix
  • Fix Storage.delete_table()
  • Auto divide batch requests in Storage.copy_table() and Storage.delete_table()
  • Fix table.publish(): return error if view can't be created
mais - v1.4.6

Published by Hellcassius over 3 years ago

Add new metadata functions to CLI:

  • list datasets
  • list dataset_tables
  • get dataset_description
  • get table_description
  • get table_columns