ضغط البيانات


ضغط البيانات أو ضغط المعلومات (Data Compression)

خير الكلام ما قل ودل

 

استمع مباشرة
speaker_icon

اشترك مجانا على الآيتيونز
ipod

سجل إعجابك على الفيس بوك
Sciware Pod

أنا موجود على التويتر
mqasem

أنت تستخدمه يوميا، ولولاه لما كان الإنترنت كما هو عليه الآن، يستعمل في التلفون، في الكاميرا، وفي جهاز الإم بي 3 مثل الآيبود والزون، ويستعمل في مقاطع الفيديو والصورة والصوتيات والكتابة وو…، إنه ضغط المعلومات، ولولاه لكان إنزالك للفيديو مستحيلا، ولكان تحميلك للصور على الإنترنت عملية مملة وطويلة، ولم يكن بإمكانك سماع الموسيقى أو إنزال القرآن في خلال دقائق، إنه ضغط البيانات، وتحويلها من كم هائل إلى قليل بحيث يمكن التعامل معها بسهولة.

اشترى صديقك كلباً ووضعه في منزله للحراسة، ولكنه اكتشف أن الكلب ينبح بلا انقطاع من أول اليوم إلى آخره، “هاو هاو هاو هاو هاو هاو هاو…” طوال اليوم، من الساعة 6:00 صباحا حتى الساعة 10:00 مساءا. أزعجه الكلب، وندم لشرائه، السؤال الآن، إذا أراد أن يشكي لك الحال، مع إنك سئمت شكاويه المتكررة، ماذا سيقول؟ هل سيقول، “اليوم الكلب نبح منذ الساعة 6:00، وقال: هاو هاو هاو هاو هاو هاو هاو…” ويقضي 16 ساعة يكرر النباح الذي سمعه من كلبه؟ ما لم يكن صديقك هدفه إنهاء علاقته بك، سيكون كلامه بكل بساطة، “افاق الكلب من النوم الساعة 6:00 ونبح قال: هاو هاو، ولم يسكت إلا في الساعة 10:00 مساءا.” هذه هي الطريقة الطبيعية للحديث، الفكرة أنه يزيل التكرار، ولكنه في نفس الوقت لم يفقد القصة، هذا هو ضغط المعلومات، والفكرة فيه هي ترميز المعلومات باستخدام رموز بإمكانها تصغير المعلومات، وعادة هذه العملية تتم عن طريق التخلص من المعلومات المكررة.

السؤال المهم في هذه القصة هو، هل هناك معلومات ممكن الاستفادة منها من نباح الكلب؟ صديقك اشترى الكلب لكي يحرسه، ولكنه هل استفاد من النباح؟ بالطبع لا. لتتوضح الصورة بشكل أكبر، نسأل السؤال التالي، لو أنه بدلا من هذا الكلب كان كلبا هادئا، أفاق الكلب من النوم الساعة 6:00 صباحا، ولم ينبح نهائيا، ولكن عند تمام 8:00 مساءا نبح الكلب لمدة 10 دقائق ثم سكت، وأكمل باقي اليوم إلى الساعة 10:00 مساءا بدون صوت. لنأتي للسؤال مرة أخرى. هل هناك معلومات يمكن الاستفادة منها من نباح الكلب؟ الصورة تغيرت أليس كذلك؟ عند الساعة 8:00 وعند نباح الكلب ستتساءل، “ما الذي جعل الكلب ينبح؟ هل هناك متسلل إلى المنزل؟ هل دخل حرامي إلى البيت؟” أليس هذا ما ستفعله بالضبط؟ نعم، هناك معلومات في نباح الكلب، هناك تغير من حالة هدوء إلى نباح، هذه الحالة تختلف من القصة الأولى، حيث أنه هناك تكرار للنفس المعلومة، والتكرار كان زائدا.

طيب لنفترض أن صديقك أراد أن يخبرك بالقصة، كيف ستكون؟ سيقول لك: “افاق الكلب من النوم الساعة 6:00 بلا نباح، ثم عند الساعة 8:00 نبح: هاو هاو. ثم توقف الساعة 8:10، وسكت إلى الساعة 10:00 مساءا.” هل لاحظت شيئا؟ قارن الجملتين الملونتين باللون الأحمر، الجملة الأولى أقصر من الجملة الثانية، ما الذي حدث بالضبط؟ عندما لا تكون هناك معلومات في الموضوع يمكن اختصاره أو ضغطه أكثر من موضوع فيه معلومات. وهذه الفكرة لبنة البناء في ضغط المعلومات، وهي فكرة قياس المعلومات في البيانات، والمؤسس لهذا العلم هو العالم كلود شانون (Claude Shannon)، وهو أب نظرية المعلومات (Information Theory). ونظريته هذه أثرت في كل نواحي المعلومات من الإنترنت، والاتصالات، والكمبيوتر، والشبكات، والعلوم العصبية، ونظرية التطور، والفيزياء الحرارية، والكشف عن السرقات العلمية، والكثير الكثير.

أنواع ضغط المعلومات

الكثير من المعلومات التي تتعامل يوميا تحتاج إلى ضغط لنقلها من مكان إلى أخر، فأنت قد تكون سرعة الإنترنت لديك بطئية، أنت تحتاج أن يكون الفيديو مضغوط بحيث يمكن نقله من الجهاز الموجود على الإنترنت إلى جهازك، أو من الممكن أن تكون سعة التخزين في الكاميرا صغيرة، لذلك لابد من ضغط الصورة لكي تسع اكبر عدد ممكن فيه، أو من الممكن أن يكون جهاز الإم بي 3 الذي تستعمله للاستماع للموسيقى فيه ذاكرة صغيرة، لذلك أنت تحتاج لضغط الصوتيات حتى يسع جهازك لأكبر عدد من السنفونيات مثلا، وبالنسبة لشركات الهواتف المتنقلة، عدد المستخدمين للتلفونات كبير، والقنوات قليلة ومحدودة السعة، لذلك لابد من ضغط صوت المتحدث بحيث تسع القنوات أكبر عدد من المتحدثين، ماذا عن عدد الكتب الهائل، لابد أيضا من ضغطها لتخزينها. إذن لابد من ضغط المعلومات بحيث يمكن نقلها أو تخزينها بحيث يمكن استردادها بهيئتها الأولى أو بشكل مقبول بالنسبة لنا، لذلك هناك نوعان من ضغط المعلومات: النوع الأول هو الضغط الغير فاقد، والثاني الضغط الفاقد.

الضغط الغير فاقد

تخيل معي أنك تريد ضغط القرآن الكريم أو الإنجيل أو قصة من قصص شيكسبير لنقله إلى شخص عبر الإنترنت في منطقة فيها سرعات الإنترنت بطيئة جدا، عندما تضغط هذه المعلومات وترسلها أنت تتوقع أن الطرف الآخر حينما يفك الضغط يحصل على القرآن أو الإنجيل أو القصة بالكامل، فلا يمكن للطرف الآخر أن يفقد أي جزء منها، ولا حتى حرفا واحدا، اليس كذلك؟ في هذه الحالة أنت تريد حينما تريد أن تضغط معلومة معنية، وتريد إرجاعها إلى اصلها وكما كانت لابد أن تضغط المعلومات ضغطا غير فاقد، وهذا النوع لا يفقد أي جزء من المعلومة حينما يفك الضغط.

انت ربما استخدمت برامج تضغط المعلومات ضغطا غير فاقد، مثل وينزب (WinZip) أو وينرار (WinRAR)، هذه البرامج تضغط الملفات على الكمبيوتر إلى درجة مناسبة بحيث يمكن تخزينها على مساحة أكبر. وتعتمد هذه البرامج على الكثير من الخوارزميات لتحقيق الضغط، ولن أخوض في هذه الخوارزميات التي فيها، ولكن سأقول أننا استخدمنا الفكرة العامة في مثال الكلب، حيث ألغينا التكرار.

مثال آخر على التكرار، لنفترض أن لديك ملف، وفي هذا الملف الكلمات التالية:

داس الرجل على المسمار، فصرخ: “آه آه آه آه آه آه آه آه آه آه آه آه آه آه آه آه آه آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آخ آي آي آي آي آي آي آي آي آي آي آي آي.”

يمكننا ضغط الملف هذا إلى التالي

داس الرجل على المسمار، فصرخ: “17 آه 15 آخ 12 آي.”

 

هل لاحظت الفرق في حجم الملفين؟ يمكنك تخزين الملف في حيز اصغر، وإعادته إلى طبيعته من غير أن تفقد أي جزء منه، هذه الفكرة هي أبسط فكرة لضغط المعلومات، وتسمى بـ: Run Length Encoding أو RLE للاختصار. وهناك العشرات من الطرق المنشورة في المجلات العلمية والتي تستخدم أساليب رائعة في استغلال التكرار لضغط المعلومات.

في مقابل هذه الملف، لو انك حاولت أن تضغط ملفا فيه الكلمة التالية

خير الكلام ما قل ودل

ستجد أنه ربما لا يمكنك فعل ذلك، تستطيع أن تفتح ملفا باستخدام النوت باد (Notepad) (ليس الميكروسوفت ورد لأن الورد يضيف معلومات إضافيه إلى الملف)، وتسجل هذه الجملة، ستجد أنه لا يمكن ضغطها باستخدام WinRAR، مع أنه برنامج ضاغ قدير، بل بالعكس سيكبر الملف بدلا من أن يصغر (وهناك سبب أن الملف يكبر، وهذا موضوع لن أدخل فيه)، لماذا لا يمكن ضغط الحديث؟ لأنه قصير ولأنه ليس فيه تكرار في البيانات، ارجوك لا تبحث عن المعجزة في الحديث، لأنه يمكن ضغط القرآن والذي فيه عمق أكبر ومعلومات أكثر، من المهم أن تعلم أن نظرية المعلومات لا تأخذ في الحسبان معاني أو أهمية المعلومة، فمثلا في القرآن الكريم نجد:

فَإِنَّ مَعَ الْعُسْرِ يُسْرًا ، إِنَّ مَعَ الْعُسْرِ يُسْرًا

بإمكانك  إبقاء إحدى الجمل مثلا وإلغاء الأخرى مع الإبقاء على حرف الفاء، بذلك تختصر الجملة إلى النصف تقريبا، مع إن أهمية المعلومة في هذه الآية تختفي مع الضغط، وهذه المعلومة أن العسر الواحد يقابله يسرين (الأفضل أن ترجع للتفاسير للتحقق، وخصوصا أن موضوعنا علمي وليس ديني). ونظرية المعلومات لا تتعامل مع أهمية المعلومة والمعاني التي فيها، النظرية تنظر إلى الكم وليس النوع.

هذه هي فكرة ضغط المعلومات الغير فاقدة، وأيضا تنفع للبرامج التي تنزلها للكمبيوتر، فلا يمكن لها أن تفقد ولا حتى حرفا واحدا، لأنها بذلك لن تعمل، وأيضا للملفات الكتابية، فإن فقد منها شيء فقد المضمون.

الضغط الفاقد

الضغط الفاقد يعتمد على فكرة أن ليس كل المعلومات الموجودة في البيانات مهمة للإنسان أو أنه لا يستطيع الإنسان تمييزها، فلا حاجة لإبقائها وبالتالي التخفيض من حجم الملف، وبالتأكيد أنت مررت الآلاف من الملفات التي تعتمد على الضغط الفاقد، وفمثلا الصور، والفيديو والتسجيلات الصوتية، كلها تضغط ضغطا فاقدا، وربما أن تعلم ذلك ضمنيا ولكن لا تعلم السبب، مثال على ذلك الصورة، حينما تصور الصورة وتخزنها على شكل جيبيغ (JPEG) ستجد أن الصورة انخفضت جودتها، أنظر إلى الثلاث صور التالية، الصورة التي في الأعلى الأصلية، والثانية من مخزنة على شكل جيبيغ بجودة أقل (75%)، ثم الثالثة بنسبة أقل بكثير (35%)، انت تلاحظ الفارق، أليس كذلك؟ صحيح أن الجودة أقل لكن حجم الملف أقل أيضا، أنت هنا تعرف أن هناك نقصان في الصورة ولكن المضمون لازال محفوظا. وربما أنت ترى كم هي لقطات الفيديو المخزنة على اليوتيوب سيئة الجودة بالمقارنة مع الأصل، وربما بعضها يختلف في مستوى الجودة عن الآخر، فكلما انخفضت الجودة كلما كان الملف أصغر.

 

 bird

bird1

bird2

 

 

علام يعتمد الضغط من هذا النوع؟ الضغط الفاقد يلغي بعض المعلومات التي ربما لا تكون لها أهمية كبرى بالنسبة للمضمون، فمثلا، حينما تصور صورة الكامير تلتقط معلومات دقيقة، ولكن مخك لا يستطيع تمميزها، وبما أن الهدف النهائي للصورة هو أن يراها الشخص، ما الداعي لأن تخزن هذه المعلومات فيها؟ فلن يلاحظ نقصانها إذا ما فقدت.

والصوتيات أيضا تعتمد على هذا النوع من الضغط، فأنت لا تستطيع سماع كل الأصوات، فمثلا إذا ما سجل الميكرفون أصواتا أقل من التردد 20 هرتز أو أعلى من 20 كيلو هرتز أنت لن تسمعها أصلا، فلا حاجة لنا بها، ثم مثلا إذا ما كان هناك تسجيل لمحادثة في طائرة، وصوت الطائرة مرتفع، فليس هناك داعي للحفاظ على المضمون للصوت، فكما في صورة طائر التوكان في الاعلى بالإمكان تنقيص الأصوات التي لا تأثير لها. وفي هذا العالم – عالم الصوتيات – هناك علم اسمه السايكو أكوستكس (Psychoacoustics) أو علم الصوتيات النفسي، والذي يختص في إدراك الإنسان للأصوات التي يسمعها.

حينما أسجل البودكاست لابد لي أن أقرر بين أن أحفظ التسجيل في ملف صغير نسبيا وأقلل من الجودة، أو أن أحتفظ به في ملف كبير وتكون الجودة عالية، ولكن في المقابل الملف الصغير سهل الإنزال، والكبير يطول إنزاله، سؤال، كم أغنية تسجل عادة على السي دي؟ تقريبا 20 أغنية، لكن لو حولت الأغاني إلى النوع أم بي 3 (MP3) فكم أغنية تستطيع التخزين على السي دي؟ 150 أغنية تقريبا. هل تحس بفارق الجودة بين الإم بي 3 والسي دي، ربما لا.

وربما لاحظت أن الطرف الآخر الذي تحادثه على التلفون يختلف صوته عن الواقع، فقد تم إلغاء الكثير من الترددات التي الغير متضمنة في الترددات الكلامية، طالما تم الحفاظ على ما يقوله الشخص وعلى المشاعر التي يعبر عنها، فلا إشكال أن يفقد الصوت لباقي مكوناته، ويسمى هذا بترميز المحادثة (Speech Coding).

استخدمات أخرى لضغط المعلومات

واحدة من الاستخدامات الرائعة لضغط المعلومات هي الكشف عن السرقة الفكرية، فربما سمعت عن دكتور سرق من ورقة علمية ونسبها إلى نفسه، هذه مصيبة، وتعد جريمة كبيرة في العالم العلمي، بين الحين والآخر أجد أن خبرا هنا وهناك في السرقات العلمية يحدث في الجامعات، كنت أحدث إلى الدكتور المشرف علي في الجامعة، فأخبري أنه عندما يقدم طالب بحثا علميا، سواء أكان في الدكتوراة أو في الماجستير أو حتى في البكلوريوس، فإنهم عادة ما يقومون التحقق ما إذا كان البحث منسوخا من الإنترنت أو أوراق علمية أخرى، وذلك عند طريق برنامج كمبيوتر يقوم بهذا التحقيق، فيخبرهم ما إذا كانت الورقة منسوخة أو لا، فإذا كانت منسوخة سيعاقب عليها الطالب، وربما يصل ذلك إلى السجن (وإن كان الطالب في معظم الأحيان إما يحصل على توبيخ أو يرسب في المادة، وحتى بالإمكان أن يفصل من الجامعة).

البعض يعتقد أن سرقة الحقوق الفكرية تعني النسخ كلمة كلمة، غير صحيح. السرقة قد تكون على شكل تقليد قريب من الأصل للغة أو الفكرة لكاتب آخر، وحتى لو أعاد صياغتها بطريقته الخاصة، يعني بالإمكان أن تكون تعيد ترتيب الكلمات لنفس الجمل، حتى تتفادى الانكشاف، ولكن هذا النوع من السرقة لا يفلت بسهولة من براثن برامج التحقيق، وأحد أنواع هذه البرامج يعتمد على ضغط المعلومات، حيث أن ملفين يتم دمجهما معا، ثم يتم ضغطهما، فإذا كان التكرار كثيرا – وإن لم يكن النسخ كلمة كلمة سيتم ضغط المعلومات بشكل كبير، بينما لو اختلف الملفان، فستكون نسبة الضغط أقل، بهذه الطريقة يمكن معرفة ما إذا كانت هناك سرقة.

المستجدات العلمية والتكنولوجية

+ تم تسجيل الطائر الطنان وهو يطير ببطئ، يمكن مشاهدته وهو يرقص لجذب الأنثى، ولكن تتأثر رقصته بذيله الجميل الزاهي. فهل ترفضه الأنثى؟
+ الخطوة الأولى في المصعد الفضائي، واحدة من الأفكار التي ساعد في اشتهارها الكاتب آرثر سي كلارك، وهو كاتب للقصص الخيالية هو المصعد الفضائي، فبدلا من استخدام الصواريخ واستنفاذ طاقات هائلة من الممكن استبدال الصاروخ بالمصعد، والذي يصعد إلى السماء كالمصعد الكهربائي، فقد نجحت التجربة باستخدام مصعد آلي يستمد طاقته من أشعة الليزر الموجهة من الأرض، وربما هذا هو أهم ما في الموضوع، وتمكن من الصعود إلى علو 900 متر، أي أعلى من برج العرب بمئة متر، فربح المصنعين جائزة وقدرها 900,000$، مع أن الجائزة الكلية كانت ستكون 2,000,000$ لو تمكنوا من رفع المصعد بسرعة 5 أمتار في الثانية.

 

 

+ الرضع يبكون بلهجة أمهاتهم، دارسة قام بها عالماء ألمان بينت أن الرضع يتعلمون لهجة الأم خلال فترة الحمل، ولذلك بكاؤهم يكون بنفس اللهجة حتى تتوثق العلاقة بينه وبين أمه. استمع لصوت طفلين في الرابط.

 

Crying newborn

6 أفكار على ”ضغط البيانات

  1. بخصوص ذكرك للضغط، ما رايك لو يكون رابط موقعك هوhttp://www.sciware.tkأتمني ذلك لو يسهل علي الجميع الدخول علي الموقع لفائدته و لحبي الشديد لهأود لو أكون أضفت ولو بسيط لهذا الموقع الذي لطالما استفدت من صاحبه الدكتور محمدجزاك الله خيرا

  2. كيف حصل ذلك؟ من أين عرفت ان الموقع يمكن الوصول له عن طريقhttp://www.sciware.tkهذا رائع، سيسهل علي ذكر العنوان في البودكاست، ولكن لابد أن أتأكد من صحة المعلومة، ولك جزيل الشكر يا أيمن فقد أضفت الكثير

  3. كيف استطعت عمل تحويل من هذا العنوان لعنوان مدونتي؟ وهل هذا العنوان خاص بك؟ أنا بحثت على صاحب العنوان على whoisويبدو لي أنها شركة اسمهاBV Dot TKمن هولندا، هل من الممكن أن تشرح الموضوع بالضبط؟

  4. الموضوع بسيط دكتور محمدهناك موقع اسمه http://www.dot.tkو يقوم بمقام مواقع تقصير الروابطو الكثير من أصحاب المواقع أو المدونات يستخدمه لتسهيل الأسماء الطويلة او صعبة التذكريمكنك التسجيل و إختيار أي اسم كما تحب طالما متاح التسجيل بهوددت فقط المشاركة ولو بشئ بسيط معك في الموقع و كذلك التسهيل علي الزوار للوصول للموقع

  5. فكرة رائعة، وانت أعطيتني فكرة للتسهيل، المشكلة في هذه المواقع أنها غير مضمونة أنها تبقى، فبعد أن أنشر العنوان وأعمل له دعاية ربما يختفي، لأنه لا يوجد ما يلزم الشركة التي أنشأت sciware.tkفي أن تبقي العنوان حيولكن أعطيتني فكرة أن اشتري عنوان بنفس الطريقة وأسجله بإسمي وأحول منه إلى العنوان الطويل، فاشكرك على الفكرة الشكر الجزيل

  6. السلام عليكم و رحمة الله و بركاته الله يعطيك الف عافيه دكتور محمد. فعلا ضغط البيانات ثوره في علم الحاسوب و لولاها لما وفرنا الوقت و المال. هناك امثله مهمه عن ضغط البيانات و هي ان عملاء مواقع التورنت اليوم يشترون نسخات افلام هوليوود في اقراص مدمه bluray او dvd و و منها و خاصه البلوراي يكون حجمه الفيلم 50 غيغا بايت ثم يفكون الشيفره و يضغطونه (ripping)بعد وقت و جهد طويلين ليصل الى واحد غيغا بايت و تبقى الصوره روعه و الصوت راءعين و لكن هسروا الكثير من القيمه. المهم اولاها لكنا نتعب و نشقي حتى ننزل فيلم واحد من مع العلم ان هذه الافلام لا تحتاج الي فك الضغط بعد التنزيل مثل ملفات الالعاب. فعلا يا دكتور الضغط حتي وفر مليارات الغيغا بايتس على المواقع الالكترونيه. انا من محبين هذا السايوير و اتمنى انتكتب لنا موضوع عن الios و الاندرويد انا من عشاق الاندرويد و لولاه لما اهتميت بهندسه الحاسوب فاتمنى ان تكتب لنا موضوع عن هذه الانظمه التشغيل ة نرى اراء الناس عن النظامين مع العلم ان برايي الشخصي من اراد ان يتعمق و يشغل عقله فليذهب الى الاندرويد و من اراد ان يحس بالامان و يضع معلومات مهمه و حسابات مصرفيه على جواله فليذهب ال ابل و دمتم بخير

أضف تعليقاً

إملأ الحقول أدناه بالمعلومات المناسبة أو إضغط على إحدى الأيقونات لتسجيل الدخول:

WordPress.com Logo

أنت تعلق بإستخدام حساب WordPress.com. تسجيل خروج   / تغيير )

صورة تويتر

أنت تعلق بإستخدام حساب Twitter. تسجيل خروج   / تغيير )

Facebook photo

أنت تعلق بإستخدام حساب Facebook. تسجيل خروج   / تغيير )

Google+ photo

أنت تعلق بإستخدام حساب Google+. تسجيل خروج   / تغيير )

Connecting to %s