ضغط البيانات أو ضغط المعلومات Data Compression
خير الكلام ما قل ودل
ضغط البيانات: أنت تستخدمه يوميا، ولولاه لما كان الإنترنت كما هو عليه الآن، يستعمل في التلفون، في الكاميرا، وفي جهاز الإم بي 3 مثل الآيبود والزون، ويستعمل في مقاطع الفيديو والصورة والصوتيات والكتابة وو…، إنه ضغط المعلومات.. ولولاه لكان إنزالك للفيديو مستحيلا، ولكان تحميلك للصور على الإنترنت عملية مملة وطويلة، ولم يكن بإمكانك سماع الموسيقى أو إنزال القرآن في خلال دقائق، إنه ضغط البيانات، وتحويلها من كم هائل إلى قليل بحيث يمكن التعامل معها بسهولة.
لا تنسى أن تدعم السايوير بودكاست من خلال Patreon، كن مع الداعمين.
Become a Patron!
اشترى صديقك كلباً ووضعه في منزله للحراسة، ولكنه اكتشف أن الكلب ينبح بلا انقطاع من أول اليوم إلى آخره، “هاو هاو هاو هاو هاو هاو هاو…” طوال اليوم، من الساعة 6:00 صباحا حتى الساعة 10:00 مساءا. أزعجه الكلب، وندم لشرائه، السؤال الآن، إذا أراد أن يشكي لك الحال، مع إنك سئمت شكاويه المتكررة، ماذا سيقول؟ هل سيقول، “اليوم الكلب نبح منذ الساعة 6:00، وقال: هاو هاو هاو هاو هاو هاو هاو…” ويقضي 16 ساعة يكرر النباح الذي سمعه من كلبه؟ ما لم يكن صديقك هدفه إنهاء علاقته بك، سيكون كلامه بكل بساطة، “افاق الكلب من النوم الساعة 6:00 ونبح قال: هاو هاو، ولم يسكت إلا في الساعة 10:00 مساءا.” هذه هي الطريقة الطبيعية للحديث، الفكرة أنه يزيل التكرار، ولكنه في نفس الوقت لم يفقد القصة، هذا هو ضغط المعلومات، والفكرة فيه هي ترميز المعلومات باستخدام رموز بإمكانها تصغير المعلومات، وعادة هذه العملية تتم عن طريق التخلص من المعلومات المكررة.
السؤال المهم في هذه القصة هو، هل هناك معلومات ممكن الاستفادة منها من نباح الكلب؟ صديقك اشترى الكلب لكي يحرسه، ولكنه هل استفاد من النباح؟ بالطبع لا. لتتوضح الصورة بشكل أكبر، نسأل السؤال التالي، لو أنه بدلا من هذا الكلب كان كلبا هادئا، أفاق الكلب من النوم الساعة 6:00 صباحا، ولم ينبح نهائيا، ولكن عند تمام 8:00 مساءا نبح الكلب لمدة 10 دقائق ثم سكت، وأكمل باقي اليوم إلى الساعة 10:00 مساءا بدون صوت. لنأتي للسؤال مرة أخرى. هل هناك معلومات يمكن الاستفادة منها من نباح الكلب؟ الصورة تغيرت أليس كذلك؟ عند الساعة 8:00 وعند نباح الكلب ستتساءل، “ما الذي جعل الكلب ينبح؟ هل هناك متسلل إلى المنزل؟ هل دخل حرامي إلى البيت؟” أليس هذا ما ستفعله بالضبط؟ نعم، هناك معلومات في نباح الكلب، هناك تغير من حالة هدوء إلى نباح، هذه الحالة تختلف من القصة الأولى، حيث أنه هناك تكرار للنفس المعلومة، والتكرار كان زائدا.
طيب لنفترض أن صديقك أراد أن يخبرك بالقصة، كيف ستكون؟ سيقول لك: “افاق الكلب من النوم الساعة 6:00 بلا نباح، ثم عند الساعة 8:00 نبح: هاو هاو. ثم توقف الساعة 8:10، وسكت إلى الساعة 10:00 مساءا.” هل لاحظت شيئا؟ قارن الجملتين الملونتين باللون الأحمر، الجملة الأولى أقصر من الجملة الثانية، ما الذي حدث بالضبط؟ عندما لا تكون هناك معلومات في الموضوع يمكن اختصاره أو ضغطه أكثر من موضوع فيه معلومات. وهذه الفكرة لبنة البناء في ضغط المعلومات، وهي فكرة قياس المعلومات في البيانات، والمؤسس لهذا العلم هو العالم كلود شانون Claude Shannon [1]Claude Shannon ، وهو أب نظرية المعلومات Information Theory [2]Information Theory . ونظريته هذه أثرت في كل نواحي المعلومات من الإنترنت، والاتصالات، والكمبيوتر، والشبكات، والعلوم العصبية، ونظرية التطور، والفيزياء الحرارية، والكشف عن السرقات العلمية، والكثير الكثير.
أنواع ضغط المعلومات
الكثير من المعلومات التي تتعامل يوميا تحتاج إلى ضغط لنقلها من مكان إلى أخر، فأنت قد تكون سرعة الإنترنت لديك بطئية، أنت تحتاج أن يكون الفيديو مضغوط بحيث يمكن نقله من الجهاز الموجود على الإنترنت إلى جهازك، أو من الممكن أن تكون سعة التخزين في الكاميرا صغيرة، لذلك لابد من ضغط الصورة لكي تسع اكبر عدد ممكن فيه، أو من الممكن أن يكون جهاز الإم بي 3 الذي تستعمله للاستماع للموسيقى فيه ذاكرة صغيرة، لذلك أنت تحتاج لضغط الصوتيات حتى يسع جهازك لأكبر عدد من السنفونيات مثلا، وبالنسبة لشركات الهواتف المتنقلة، عدد المستخدمين للتلفونات كبير، والقنوات قليلة ومحدودة السعة، لذلك لابد من ضغط صوت المتحدث بحيث تسع القنوات أكبر عدد من المتحدثين، ماذا عن عدد الكتب الهائل، لابد أيضا من ضغطها لتخزينها. إذن لابد من ضغط المعلومات بحيث يمكن نقلها أو تخزينها بحيث يمكن استردادها بهيئتها الأولى أو بشكل مقبول بالنسبة لنا، لذلك هناك نوعان من ضغط المعلومات: النوع الأول هو الضغط الغير فاقد، والثاني الضغط الفاقد.
الضغط الغير فاقد
تخيل معي أنك تريد ضغط القرآن الكريم أو الإنجيل أو قصة من قصص شيكسبير لنقله إلى شخص عبر الإنترنت في منطقة فيها سرعات الإنترنت بطيئة جدا، عندما تضغط هذه المعلومات وترسلها أنت تتوقع أن الطرف الآخر حينما يفك الضغط يحصل على القرآن أو الإنجيل أو القصة بالكامل، فلا يمكن للطرف الآخر أن يفقد أي جزء منها، ولا حتى حرفا واحدا، اليس كذلك؟ في هذه الحالة أنت تريد حينما تريد أن تضغط معلومة معنية، وتريد إرجاعها إلى اصلها وكما كانت لابد أن تضغط المعلومات ضغطا غير فاقد، وهذا النوع لا يفقد أي جزء من المعلومة حينما يفك الضغط.
انت ربما استخدمت برامج تضغط المعلومات ضغطا غير فاقد، مثل وينزب WinZip [3]WinZip أو وينرار WinRAR [4]WinRAR ، هذه البرامج تضغط الملفات على الكمبيوتر إلى درجة مناسبة بحيث يمكن تخزينها على مساحة أكبر. وتعتمد هذه البرامج على الكثير من الخوارزميات لتحقيق الضغط، ولن أخوض في هذه الخوارزميات التي فيها، ولكن سأقول أننا استخدمنا الفكرة العامة في مثال الكلب، حيث ألغينا التكرار.
مثال آخر على التكرار، لنفترض أن لديك ملف، وفي هذا الملف الكلمات التالية:
داس الرجل على المسمار، فصرخ: “آه آه آه آه آه آه آه آه آه آه آه آه آه آه آه آه آه آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آي آي آي آي آي آي آي آي آي آي آي آي.” |
يمكننا ضغط الملف هذا إلى التالي
داس الرجل على المسمار، فصرخ: “17 آه 15 آخ 12 آي.” |
هل لاحظت الفرق في حجم الملفين؟ يمكنك تخزين الملف في حيز اصغر، وإعادته إلى طبيعته من غير أن تفقد أي جزء منه، هذه الفكرة هي أبسط فكرة لضغط المعلومات، وتسمى بـ: Run Length Encoding [5]Run Length Encodin أو RLE للاختصار. وهناك العشرات من الطرق المنشورة في المجلات العلمية والتي تستخدم أساليب رائعة في استغلال التكرار لضغط المعلومات.
في مقابل هذه الملف، لو انك حاولت أن تضغط ملفا فيه الكلمة التالية
خير الكلام ما قل ودل
ستجد أنه ربما لا يمكنك فعل ذلك، تستطيع أن تفتح ملفا باستخدام النوت باد (Notepad) (ليس الميكروسوفت ورد لأن الورد يضيف معلومات إضافيه إلى الملف)، وتسجل هذه الجملة، ستجد أنه لا يمكن ضغطها باستخدام WinRAR، مع أنه برنامج ضاغ قدير، بل بالعكس سيكبر الملف بدلا من أن يصغر (وهناك سبب أن الملف يكبر، وهذا موضوع لن أدخل فيه)، لماذا لا يمكن ضغط الحديث؟ لأنه قصير ولأنه ليس فيه تكرار في البيانات، ارجوك لا تبحث عن المعجزة في الحديث، لأنه يمكن ضغط القرآن والذي فيه عمق أكبر ومعلومات أكثر، من المهم أن تعلم أن نظرية المعلومات لا تأخذ في الحسبان معاني أو أهمية المعلومة، فمثلا في القرآن الكريم نجد:
فَإِنَّ مَعَ الْعُسْرِ يُسْرًا ، إِنَّ مَعَ الْعُسْرِ يُسْرًا
بإمكانك إبقاء إحدى الجمل مثلا وإلغاء الأخرى مع الإبقاء على حرف الفاء، بذلك تختصر الجملة إلى النصف تقريبا، مع إن أهمية المعلومة في هذه الآية تختفي مع الضغط، وهذه المعلومة أن العسر الواحد يقابله يسرين (الأفضل أن ترجع للتفاسير للتحقق، وخصوصا أن موضوعنا علمي وليس ديني). ونظرية المعلومات لا تتعامل مع أهمية المعلومة والمعاني التي فيها، النظرية تنظر إلى الكم وليس النوع.
هذه هي فكرة ضغط المعلومات الغير فاقدة، وأيضا تنفع للبرامج التي تنزلها للكمبيوتر، فلا يمكن لها أن تفقد ولا حتى حرفا واحدا، لأنها بذلك لن تعمل، وأيضا للملفات الكتابية، فإن فقد منها شيء فقد المضمون.
الضغط الفاقد
الضغط الفاقد يعتمد على فكرة أن ليس كل المعلومات الموجودة في البيانات مهمة للإنسان أو أنه لا يستطيع الإنسان تمييزها، فلا حاجة لإبقائها وبالتالي التخفيض من حجم الملف، وبالتأكيد أنت مررت الآلاف من الملفات التي تعتمد على الضغط الفاقد، وفمثلا الصور، والفيديو والتسجيلات الصوتية، كلها تضغط ضغطا فاقدا، وربما أن تعلم ذلك ضمنيا ولكن لا تعلم السبب، مثال على ذلك الصورة، حينما تصور الصورة وتخزنها على شكل جيبيغ (JPEG) ستجد أن الصورة انخفضت جودتها، أنظر إلى الثلاث صور التالية، الصورة التي في الأعلى الأصلية، والثانية من مخزنة على شكل جيبيغ بجودة أقل (75%)، ثم الثالثة بنسبة أقل بكثير (35%)، انت تلاحظ الفارق، أليس كذلك؟ صحيح أن الجودة أقل لكن حجم الملف أقل أيضا، أنت هنا تعرف أن هناك نقصان في الصورة ولكن المضمون لازال محفوظا. وربما أنت ترى كم هي لقطات الفيديو المخزنة على اليوتيوب سيئة الجودة بالمقارنة مع الأصل، وربما بعضها يختلف في مستوى الجودة عن الآخر، فكلما انخفضت الجودة كلما كان الملف أصغر.
علام يعتمد الضغط من هذا النوع؟ الضغط الفاقد يلغي بعض المعلومات التي ربما لا تكون لها أهمية كبرى بالنسبة للمضمون، فمثلا، حينما تصور صورة الكامير تلتقط معلومات دقيقة، ولكن مخك لا يستطيع تمميزها، وبما أن الهدف النهائي للصورة هو أن يراها الشخص، ما الداعي لأن تخزن هذه المعلومات فيها؟ فلن يلاحظ نقصانها إذا ما فقدت. يوتيوب [6]Understanding lossy and lossless compression
والصوتيات أيضا تعتمد على هذا النوع من الضغط، فأنت لا تستطيع سماع كل الأصوات، فمثلا إذا ما سجل الميكرفون أصواتا أقل من التردد 20 هرتز أو أعلى من 20 كيلو هرتز أنت لن تسمعها أصلا، فلا حاجة لنا بها، ثم مثلا إذا ما كان هناك تسجيل لمحادثة في طائرة، وصوت الطائرة مرتفع، فليس هناك داعي للحفاظ على المضمون للصوت، فكما في صورة طائر التوكان في الاعلى بالإمكان تنقيص الأصوات التي لا تأثير لها. وفي هذا العالم – عالم الصوتيات – هناك علم اسمه السايكو أكوستكس Psychoacoustics [7]Psychoacoustics أو علم الصوتيات النفسي، والذي يختص في إدراك الإنسان للأصوات التي يسمعها.
حينما أسجل البودكاست لابد لي أن أقرر بين أن أحفظ التسجيل في ملف صغير نسبيا وأقلل من الجودة، أو أن أحتفظ به في ملف كبير وتكون الجودة عالية، ولكن في المقابل الملف الصغير سهل الإنزال، والكبير يطول إنزاله، سؤال، كم أغنية تسجل عادة على السي دي؟ تقريبا 20 أغنية، لكن لو حولت الأغاني إلى النوع أم بي 3 (MP3) فكم أغنية تستطيع التخزين على السي دي؟ 150 أغنية تقريبا. هل تحس بفارق الجودة بين الإم بي 3 والسي دي، ربما لا.
وربما لاحظت أن الطرف الآخر الذي تحادثه على التلفون يختلف صوته عن الواقع، فقد تم إلغاء الكثير من الترددات التي الغير متضمنة في الترددات الكلامية، طالما تم الحفاظ على ما يقوله الشخص وعلى المشاعر التي يعبر عنها، فلا إشكال أن يفقد الصوت لباقي مكوناته، ويسمى هذا بترميز المحادثة Speech Coding [8]Speech Coding .
استخدمات أخرى لضغط البيانات
واحدة من الاستخدامات الرائعة لضغط البيانات (المعلومات) هي الكشف عن السرقة الفكرية، فربما سمعت عن دكتور سرق من ورقة علمية ونسبها إلى نفسه، هذه مصيبة، وتعد جريمة كبيرة في العالم العلمي، بين الحين والآخر أجد أن خبرا هنا وهناك في السرقات العلمية يحدث في الجامعات، كنت أحدث إلى الدكتور المشرف علي في الجامعة، فأخبري أنه عندما يقدم طالب بحثا علميا، سواء أكان في الدكتوراة أو في الماجستير أو حتى في البكلوريوس، فإنهم عادة ما يقومون التحقق ما إذا كان البحث منسوخا من الإنترنت أو أوراق علمية أخرى، وذلك عند طريق برنامج كمبيوتر يقوم بهذا التحقيق، فيخبرهم ما إذا كانت الورقة منسوخة أو لا، فإذا كانت منسوخة سيعاقب عليها الطالب، وربما يصل ذلك إلى السجن (وإن كان الطالب في معظم الأحيان إما يحصل على توبيخ أو يرسب في المادة، وحتى بالإمكان أن يفصل من الجامعة).
البعض يعتقد أن سرقة الحقوق الفكرية تعني النسخ كلمة كلمة، غير صحيح. السرقة قد تكون على شكل تقليد قريب من الأصل للغة أو الفكرة لكاتب آخر، وحتى لو أعاد صياغتها بطريقته الخاصة، يعني بالإمكان أن تكون تعيد ترتيب الكلمات لنفس الجمل، حتى تتفادى الانكشاف، ولكن هذا النوع من السرقة لا يفلت بسهولة من براثن برامج التحقيق، وأحد أنواع هذه البرامج يعتمد على ضغط المعلومات، حيث أن ملفين يتم دمجهما معا، ثم يتم ضغطهما، فإذا كان التكرار كثيرا – وإن لم يكن النسخ كلمة كلمة سيتم ضغط المعلومات بشكل كبير، بينما لو اختلف الملفان، فستكون نسبة الضغ*ط أقل، بهذه الطريقة يمكن معرفة ما إذا كانت هناك سرقة.
المستجدات العلمية والتكنولوجية
+ تم تسجيل الطائر الطنان وهو يطير ببطئ [9]A marvellous hummingbird display، يمكن مشاهدته وهو يرقص لجذب الأنثى، ولكن تتأثر رقصته بذيله الجميل الزاهي. فهل ترفضه الأنثى؟
+ الخطوة الأولى في المصعد الفضائي، واحدة من الأفكار التي ساعد في اشتهارها الكاتب آرثر سي كلارك، وهو كاتب للقصص الخيالية هو المصعد الفضائي، فبدلا من استخدام الصواريخ واستنفاذ طاقات هائلة من الممكن استبدال الصاروخ بالمصعد، والذي يصعد إلى السماء كالمصعد الكهربائي، فقد نجحت التجربة باستخدام مصعد آلي يستمد طاقته من أشعة الليزر الموجهة من الأرض، وربما هذا هو أهم ما في الموضوع، وتمكن من الصعود إلى علو 900 متر، أي أعلى من برج العرب بمئة متر، فربح المصنعين جائزة وقدرها 900,000$، مع أن الجائزة الكلية كانت ستكون 2,000,000$ لو تمكنوا من رفع المصعد بسرعة 5 أمتار في الثانية.
+ الرضع يبكون بلهجة أمهاتهم [10]Babies ‘cry in mother’s tongue’ ، دارسة قام بها عالماء ألمان بينت أن الرضع يتعلمون لهجة الأم خلال فترة الحمل، ولذلك بكاؤهم يكون بنفس اللهجة حتى تتوثق العلاقة بينه وبين أمه. استمع لصوت طفلين في الرابط.