🍋
Menu
.parquet Data

Apache Parquet

Apache द्वारा विकसित एक कॉलम-ओरिएंटेड डेटा स्टोरेज फॉर्मेट। Parquet बड़े डेटासेट के लिए कुशल कम्प्रेशन और एन्कोडिंग प्रदान करता है और बिग डेटा इकोसिस्टम में व्यापक रूप से उपयोग किया जाता है।

MIME Type

application/vnd.apache.parquet

प्रकार

बाइनरी

संपीड़न

दोषरहित

लाभ

  • + Excellent compression through columnar encoding
  • + Fast analytical queries — reads only needed columns
  • + Predicate pushdown skips irrelevant row groups entirely
  • + Standard in Spark, DuckDB, Pandas, and cloud data lakes

हानियाँ

  • Not suited for transactional row-level updates
  • More complex to write than CSV or JSON
  • Schema evolution has some limitations

.PARQUET कब उपयोग करें

बिग डेटा एनालिटिक्स (Spark, Presto), डेटा लेक स्टोरेज, कॉलम-ओरिएंटेड क्वेरी, और ऐसे परिदृश्य जहाँ कम्प्रेशन रेश्यो और क्वेरी परफॉर्मेंस महत्वपूर्ण हो।

तकनीकी विवरण

Parquet कॉलमर स्टोरेज, row groups, column chunks और pages का उपयोग करता है। Snappy, Gzip, LZ4, ZSTD कम्प्रेशन और RLE, Dictionary, Delta एन्कोडिंग को सपोर्ट करता है। nested डेटा के लिए Dremel-स्टाइल repetition और definition levels उपयोग होते हैं। Thrift-आधारित मेटाडेटा फ़ुटर में स्टोर होता है।

इतिहास

Twitter और Cloudera ने 2013 में Apache Parquet विकसित किया, जो Google के Dremel पेपर से प्रेरित था। यह Apache Hadoop इकोसिस्टम के लिए एक कुशल कॉलमर फॉर्मेट के रूप में बनाया गया। आज Parquet Spark, Presto, Dremio और अन्य बिग डेटा टूल्स का मानक फॉर्मेट है।

.PARQUET से रूपांतरित करें

.PARQUET में रूपांतरित करें

संबंधित फ़ॉर्मेट

संबंधित शब्द