Modèle de parquet

Étape 1: créer le fichier parquet à partir des données JSON à l`aide d`Apache Drill si nous allons dans le répertoire/tmp, vous pouvez voir le fichier parquet généré comme ci-dessous. Notez que Drill vous permet de configurer différents espaces de travail pointant vers différents emplacements de système de fichiers en fonction de vos besoins. Remarque Drill a la capacité d`écrire des fichiers parquet avec une variété de types de données, y compris certains des types de données étendus récemment introduits tels que date et heure. Étape 2: Observez le schéma du fichier parquet généré à l`aide des outils parquet dans le cadre des travaux sur le projet Apache Drill, nous contribuons à parquet pour le rendre plus auto-descriptif et il en améliorant un format de stockage très efficace comme un moderne flexible format approprié pour l`analytique des mégadonnées. Plus précisément, il y a deux domaines d`intérêt à ce stade. Étape 3: interroger directement les données de parquet auto-descriptives et effectuer des analyses les données sources de parquet sont un simple JSON (appelé sample. Json) avec le contenu suivant: maintenant, nous allons exécuter quelques simples requêtes analytiques sur les données parquet. Un format colonnes fournit un codage et un décodage plus efficaces en stockant ensemble des valeurs du même type primitif. Pour stocker des structures de données imbriquées au format colonnes, nous devons mapper le schéma à une liste de colonnes de manière à pouvoir écrire des enregistrements sur des colonnes plates et les relire dans leur structure de données imbriquée d`origine. Dans parquet, nous créons une colonne par champ de type primitif dans le schéma. Si nous représentons le schéma comme un arbre, les types primitifs sont les feuilles de cet arbre. Le parquet est encore un projet jeune; pour en savoir plus sur le projet, consultez notre fichier readme ou recherchez l`étiquette «pick me up!» sur GitHub. Nous faisons de notre mieux pour examiner les demandes d`extraction en temps opportun et donner des commentaires approfondis et constructifs.

Les données auto-descriptives sont l`endroit où le schéma ou la structure est incorporé dans les données elles-mêmes. Le schéma est composé de métadonnées telles que les noms d`éléments, les types de données, le schéma de compression/codage utilisé (le cas échéant), les statistiques et beaucoup plus. Il existe une variété de formats de données, y compris parquet, XML, JSON, et les bases de données NoSQL telles que HBase qui appartiennent au spectre des données auto-descriptives et varient généralement dans le niveau de métadonnées qu`ils exposent sur eux-mêmes. Nous avons récemment introduit parquet, un format de fichier Open source pour Hadoop qui fournit le stockage en colonnes. Au départ un effort conjoint entre Twitter et Cloudera, il a maintenant beaucoup d`autres contributeurs, y compris des entreprises comme Criteo. Parquet stocke les structures de données imbriquées dans un format colonnes plat à l`aide d`une technique décrite dans le papier Dremel de Google. Après avoir mis en œuvre ce modèle basé sur le papier, nous avons décidé de fournir une explication plus accessible. Nous décrirons d`abord le modèle général utilisé pour représenter les structures de données imbriquées.

Ensuite, nous allons expliquer comment ce modèle peut être représenté comme une liste plate de colonnes. Enfin, nous discuterons de la raison pour laquelle cette représentation est efficace. Le modèle Solid Jump System de Dalla Riva Sportfloors est particulièrement prisé par les praticiens du volley-ball en raison de son élasticité alors que les données auto-descriptives ont été en hausse avec les bases NoSQL (par exemple, le modèle Mongo BSON) pendant un certain temps maintenant l`autonomisation développeurs d`être agile et itératif dans le cycle de développement d`applications, l`importance de ceux-ci a grandi dans l`analytique aussi bien quand il s`agit de Hadoop.