newmosul
Active Member
نحو عمليات بحث أفضل على الإنترنت
قريبًا، سينعم مستخدمو الإنترنت بفوائد «محركات البحث» الجديدة
للحصول على إجابات مباشرة عن استفساراتهم بعد أن كانوا
يتلقون كمّا هائلا من الإجابات التي لا داعي لها.
<جاويد مصطفى>
في غضون أقل من عشر سنوات تمكنت محركات البحث search engines في شبكة الإنترنت من إحداث تغيير جذري في الأسلوب الذي يَجمع الناس فيه معلوماتهم؛ فلم تعد ثمة حاجة اليوم إلى السعي إلى المكتبات بحثا عن معلومة ما، بل بات ميسورا استحضار جميع الوثائق ذات الصلة ببضع نقرات على لوحة المفاتيح. وفيما صار النفاذ إلى محرك البحث المسمى گوگل Google مرادفا لإجراء البحث على الشبكة، تتحفز محركات البحث المباشر لكي تشهد سلسلة من التحسينات التي تَعِدُ بتطوير طريقة البحث عن احتياجاتنا أكثر فأكثر.
وقد بدأت محركات البحث الجديدة فعلا بتحسين نوعية النتائج عن طريق التعمق في صميم مخزون مواد البحث المتاحة على الخط، وتصنيف تلك النتائج وتقديمها بطريقة أفضل، وتتبع اهتماماتك على المدى البعيد بصورة تمكنها من تحسين التعامل مع أي طلبات جديدة للمعلومات. وينتظَر لمحركات البحث في المستقبل أن توسع آفاق محتواها بحيث تتجاوز مجرد معالجة الاستفسارات بكلمات مفتاحية تدخل في صندوق النصوص(1). وسيكون بإمكانها - استنادا إلى تحديد مكان وجودك آليا - أن تتيح لحاسوبك الرقمي الشخصي PDA 2 اللاسلكي مثلاً التعيين الدقيق لموقع أقرب مطعمٍ لك وأنت على سفر. وستتمكن المنظومات الجديدة أيضا من انتقاء الصورة المناسبة لك بسرعة عن طريق مطابقة مخططاتك مع أشكال مشابهة لها في الواقع، بل يُتوقع أن تتمكن حتى من تسمية لحن موسيقي قد أُنسيتَ معظمه ما إن تبدأ بدندة بضع نغمات منه.
ترتبط محركات البحث اليوم بمجال علمي يسمى «استرجاع المعلومات أو استحضارها» information retrieval، وهو مبحث حاسوبي تعود أصوله الى نحو خمسين سنة. ففي مقالة بعنوان «تخزين المعلومات واسترجاعها»(3)، بيّن المؤلف <A.B .لايپتس> كيف تعاملت أكثر التقانات تقدما حينذاك مع المهمات الروتينية أو المكتبية. ثم خلص ببصيرته النافذة إلى أن فتحا مهما في ميدان استرجاع المعلومات سيتحقق حتما مع تعمق إدراك الباحثين لطرائق معالجة المعلومات بدرجة تمكنهم من أن ينقلوا إلى الآلة مثل تلك القدرات العالية. ومن الواضح أن الحواسيب لم تبلغ بعد ذلك المستوى من التطور، إلا أنها بلا شك تولي اهتماما أكبر بمصالح المستخدمين الشخصية وعاداتهم واحتياجاتهم، عند استكمالها مهامها.
يحسُن، قبل أن نتناول بالبحث التطورات الجديدة في هذا المجال، أن نستعرض آلية عمل محركات البحث الحالية، فنتساءل: ما الذي يحدث عندما يقرأ مستخدم على شاشة الحاسوب أن محرك البحث «گوگل» قد محّص بلايين الوثائق في زمن قدره 0.32 من الثانية مثلا؟ لما كانت عملية مطابقة الكلمة المفتاحية لاستفسار المستخدم مع صفحة وب واحدة في كل مرة تستغرق زمنا طويلا، فإن النظم تنفذ عدة مراحل أساسية قبل أن يقوم المستخدم بإجراء بحثه.
نظرة إجمالية/ محركات بحث مطوّرة(**)
ففي المرحلة الأولى تُعيَّن حدود المحتوى المحتمل وتجري عملية الجمع بصورة مستمرة. ويُستعمل كود برمجيات خاص يسمى المتصفح crawler لمسح صفحات منشورة على الوب، واسترجاعها مع صفحات متصلة بها، ومن ثم تجميعها في موضع واحد. وفي المرحلة الثانية يقوم النظام بإحصاء الكلمات ذات الصلة ويتحقق من أهميتها مستعينا بتقنيات إحصائية متعددة. أما في المرحلة الثالثة فتتولد بنية بيانات، أو بنية شجرية، عالية الكفاءة من المصطلحات ذات الصلة، من شأنها أن تربط تلك المصطلحات بصفحات معينة من الوب. وعندما يقدم المستخدم استفسارا ما فإن ما يمحَّص هو كامل البنية الشجرية (التي تسمى أيضا الفهرس index) لا صفحات مفردة من الوب. ويبدأ البحث اعتبارا من قاعدة شجرة الفهرسة؛ وعند كل مرحلة إما أن يُعتَمد فرع منها (يمثل كثيرا من المفردات وما يرتبط بها من صفحات الوب) أو أن يستبعد، مختزلا بذلك زمن البحث اختزالا أسيا.
ولوضع التسجيلات ذات العلاقة على رأس اللائحة المسترجعة retrieved list أو قريبا من رأسها، تطبِّق خوارزمية البحث search algorithm استراتيجيات متنوعة لأولويات الترتيب. ومن طرائق الترتيب الشائعة طريقة معرفة تردد المصطلح term frequency أو التردد المعكوس للوثائق inverse document frequency، وهي تقوم على حساب توزع الكلمات وتواتر ورودها، ثم توليد قيم عددية للكلمات تدل على مدى أهميتها في الوثائق كلٍّ على حدة. فالكلمات الأكثر تواترا (مثل «أو» أو «إلى» أو «ب»، أو تلك التي يكثر ترددها في عدد كبير من الوثائق تعطي عمومًا قيما أقل كثيرا من قيم الكلمات التي هي أوثق صلة دلالية، أو التي تظهر في عدد قليل نسبيا من الوثائق.
وإضافة إلى استراتيجية رَوْز المصطلحات term weighting، يمكن ترتيب صفحات الوب باستعمال استراتيجيات أخرى مثل استراتيجية تحليل وصلات الربط link analysis، التي تراعي طبيعة كل صفحة من حيث علاقتها بالصفحات الأخرى - أي من حيث كونها أساسية authority (بدلالة عدد الصفحات الأخرى التي تحيل عليها) أو محورية hub (بدلالة عدد الصفحات التي تحيل هي عليها)، علما بأن النظام «گوگل» يستعمل استراتيجية تحليل وصلات الربط لتحسين ترتيب أولويات نتائج بحوثه.
محركات بحث عالية المستوى(***)
على مدى السنوات الست التي بلغ فيها النظام گوگل مرتبة السيادة والصدارة، كان يتمتع بمزيتين مهمتين على منافسيه، إحداهما قدرته على معالجة مهام تصفح واسعة النطاق على الوب، والأخرى إحرازه نتائج تصنيف رفيعة المستوى بفضل طرائقه المعتمدة في الفهرسة والتقييم. على أن مصممي محركات البحث تمكنوا حديثا من ابتكار عدة منظومات جديدة تحاكيه قدرة، بل تفوقه أحيانا من بعض الوجوه.
من ناحية أخرى يبقى قدر كبير من المحتوى الرقمي اليوم بعيد المنال، بالنظر إلى أن كثيرا من النظم المضيفة لتلك المواد (احتواء ومعالجة) لا يختزن صفحات الوب بالشكل الذي يستعرضها به المستخدمون عادة، بل تتيح هذه المصادر المعلوماتية صفحات وب حسب الطلب لدى تآثر المستخدمين بها. لكن هذه المصادر تعوق عمل المتصفحات النموذجية فتخفق هذه في استرجاع أي محتوى، ومن شأن ذلك أن يُبقي كمًا هائلا من المعلومات - يقارب وفقا لبعض التقديرات 500 ضعف حجم الوب التقليدي - متواريا عن أنظار المستخدمين. وحاليا تُبذل جهود حثيثة لجعل البحث ميسورا في الوب المتواري كما هو ميسور في الوب المنظور.
وقد ابتكر المبرمجون لهذه الغاية مجموعة من البرمجيات أطلقوا عليها اسم «الغُلُف» wrappers، تستفيد من أن المعلومات المستلة مباشرة «على الخط» عادة ما تظهر باستعمال بنى «نحوية» قياسية موحدة. وتؤدي برمجيات «الغلف» مهمتها بطرائق متعددة؛ فيستعين بعضها بعلم النحو المعتمَد في الاستفسارات البحثية والمصاغات formats القياسية للمصادر المباشرة كوسيلة للنفاذ إلى المحتوى المتواري، في حين تستغل نظم أخرى الواجهات البرمجية للتطبيقات application programming interfaces 4 كوسيلة تمكن البرمجيات من التآثر عن طريق مجموعة قياسية من العمليات والأوامر. ومن أمثلة البرامج التي توفر نفاذا إلى الوب المتواري برنامج إدارة الاستفسارات المعمقة Deep Query Manager التابع لمحرك البحث BrightPlanet، إذ يستطيع هذا البرنامج - الذي يقوم أساسا على برمجيات «الغُلُف» - توفير بوابات وواجهات بحث حسب الطلب لأكثر من 70000 مصدر وب متوار.
إن الاعتماد فقط على وصلات الربط أو الكلمات في تحقيق ترتيب الأولويات دون وضع أي قيود على أنماط الصفحات الخاضعة للمقارنة، من شأنه أن يفتح إمكانات وقوع عمليات انتحال أو تلاعب بنظام الترتيب بقصد تضليل وجهة الاستفسارات. على سبيل المثال، عند تنفيذ الاستفسار «فشل ذريع» على محركات البحث الثلاثة الأساسية - Google وYahoo وMSN - يظهر الموقع whitehouse.gov على رأس الأولويات في المجموعة الناشئة عن وصلات الربط المسترجعة.
وما يحدث هو أنه بدلا من تزويد المستخدِم بلائحة بالأولويات (التي يمكن انتحالها بسهولة)، تحاول محركات بحث معينة أن تتعرّف من بين تلك الصفحات أقربَ النماذج مطابقة للاستفسار، وتصنِّف النتائج في مجموعات صغيرة. وقد تشتمل هذه النماذج على مفردات عامة، أو مترادفات، أو كلمات ذات صلة، أو حتى على مفاهيم عالية المستوى يجري تعرّفها باستعمال قواعد خاصة. تقوم هذه النظم بوسم كل مجموعة من وصلات الربط بالمصطلح الذي يتعلق بها، بحيث يتمكن المستخدِم فيما بعد من إدخال تطويرات أخرى على بحثه عن طريق اختيار مجموعة معينة من النتائج. ويُذكر هنا أن محركَيْ البحث Northern Light (وهو رائد هذه التقنية) وClusty هما من المحركات التي تعرض نتائجها في صورة مجموعات.
ويتيح محرك البحث المسمى Mooter - وهو من المحركات الابتكارية التي تستعمل تقنيات المجموعات - للباحثين عدة مزايا إضافية؛ فهو يعرض مجموعاته بصريا على الشاشة [انظر الشكل في هذه الصفحة] بترتيب «أزرار» المجموعات الفرعية حول زر مركزي يمثِّل جميع النتائج المستخلصة، وبمجرد نقر زر مجموعة ما، تُستحضر لوائح من وصلات الربط ذات الصلة ومن المجموعات الجديدة المرتبطة بها، إذ يتميز محرك البحث هذا بالقدرة على استذكار المجموعات المختارة. ولدى نقر زر الاختيار «تحسينات» تندمج مجموعات البحث المستحضرة سابقا في الاستفسار الحالي، مما يمكن المستخِدم من استخلاص نتائج أعلى دقة.
وشبيه بذلك من حيث أسلوب العرض البصري محرك البحث Kartoo الذي يعتبر محرك بحث محوِّلا metasearch engine؛ فهو يحيل استفسار المستخدم إلى محركات بحث أخرى ويعرض النتائج المتحصَّلة مجتمعة بصورة بصرية أيضا. وهو يوفر، إضافة إلى لائحة المصطلحات المفتاحية المرتبطة بمواقع عديدة، «خريطة» تصور المواقع المهمة كأيقونات icons، والعلاقات فيما بين المواقع كمسارات موسومة labeled paths يمكن استعمال كل منها لتطوير عملية البحث أكثر فأكثر.
وثمة طريقة أخرى تتيح للأدوات الحاسوبية تبسيط عمليات البحث، تتمثل في استقصاء السواقة الصلبة hard drive لحاسوبك إضافة إلى الوب. وفي الوقت الحالي تتطلب عمليات البحث عن ملف في حاسوب مكتبي للمستخدم استعمال تطبيق برمجي software application مستقل. فمثلا أعلن محرك البحث Google حديثا عن نظام «ابحث على سطح المكتب» Desktop Search الذي يجمع بين الوظيفتين معا، فيسمح للمستخدم بتحديد القرص الصلب أو الوب أو كليهما لإجراء بحث ما. ويُنتظر أن يكون النموذج القادم من نظام تشغيل مايكروسوفت، وهو ما رمز إليه باسم Longhorn، قادرا على توفير قدرات مماثلة. ومن خلال استعمال تقنيات من نتاج مشروع آخر لمايكروسوفت يُدعى Stuff I've Seen فلربما تمكّن النظام Longhorn من تقديم قدرات «بحث ضمني» بإمكانها استرجاع المعلومات ذات الصلة من دون أن يتعين على المستخدم تحديد استفساراته. ويُفترض أن ميزة البحث الضمني تجمع الكلمات المفتاحية من معلومات نصية textual information سبق للمستخدم أن تعامل معها منذ عهد قريب، مثل البريد الإلكتروني أو وثائق Word documents، بغية استنباط المحتوى ذي الصلة من الملفات المخزنة على السواقة الصلبة. وقد يوسِّع نظام مايكروسوفت وظيفة البحث ليشمل محتوى الوب فيمكِّن المستخدمين من تحويل أي محتوى نصي يظهر على شاشات العرض إلى استفسارات على نحو أكثر ملاءمة.
ثمة جهود حثيثة تُبذل حاليا لجعل البحث ميسورا في الوِب
المتواري كما هو ميسور في الوِب المنظور.
منذ عهد قريب أعلنت مواقع محركات البحث Amazon وAsk Jeeves وGoogle عن مبادرات تسعى إلى تحسين نتائج البحث عن طريق إتاحة المجال للمستخدمين لإضفاء الصفة الشخصية على عمليات بحوثهم. فالمحرك Amazon,A9.com، وكذلك المحرك Ask Jeeves, MyJeeves.ask.com يستطيعان تعقب الاستفسارات والصفحات المسترجعة في آن واحد، إضافة إلى تمكين المستخدمين من الاحتفاظ بها بصورة دائمة على شكل مؤشرة في كتاب. ففي الموقع MyJeeves يمكن استعراض عمليات البحث المحفوظة وإعادة تنفيذها، ومن ثم توفير مجال لتطوير مجموعة فرعية شخصية على الوب. أما الموقع A9 الخاص بالمحرك Amazon فبإمكانه توفير وظائف مماثلة، واستعمال تواريخ بحث شخصية (personal search histories (5 لاقتراح صفحات إضافية. وهذه الوظيفة الاستشارية تشبه ميزة أخرى عرف بها المحرك Amazon تتمثل في تزكية كتب معينة، وهي تزكية يحققها مستفيدا من نماذج البحث وأنماط الشراء لدى أوساط المستخدمين - وهي عملية تسمى أحيانا الترشيح التعاوني(6).
تُحفظ تواريخ البحث في الموقعين A9 و MyJeeves كليهما على مخدمات محركات البحث لا على الأجهزة الخاصة بالمستخدمين، وذلك بقصد صونها واسترجاعها فيما بعد على أي جهاز يستعمل لإجراء عمليات البحث اللاحقة.
يتيح المحرك Google «الشخصي» للمستخدمين إمكانية تحديد الموضوعات التي تهمهم عن طريق الاختيار من نظام تراتبي hierarchy للموضوعات معد مسبقا، وكذلك يتيح لهم تحديد درجة اهتمامهم في الموضوعات أو المجالات المختلفة، ومن ثم يتخذ الموضوعات المختارة ومستويات الاهتمام المدونة والاستفسار الأصلي دليلاً لاستحضار النتائج وتصنيفها بحسب الأولويات.
ومع أن منظومات البحث هذه توفر مزايا جديدة مهمة، فإنها لا تمثل عمليا سوى تحسينات تزايدية incremental enhancements فقط. ولو تسنى لمحركات البحث أن تأخذ في اعتبارها السياق المهماتي الواسع لاستفسار الشخص (أي أحدث ما قدمه المستخدم من موضوعات بحث وأوراق عمل وسلوك شخصي وما إلى ذلك) لتعززت خدماتها وعمّ نفعها إلى حد بعيد. على أن تحديد سياق المستخدم user context يتطلب جهود مصممي البرمجيات لتجاوز العقبات الصعبة. ويتعين على المطورين أولا بناء منظومات ترصد آليا اهتمامات المستخدم وعاداته على نحو يمكِّن محركات البحث من التحقق من السياق الذي يُجري فيه الشخص بحثه عن المعلومات، ونوع المنصة الحاسوبية التي يستعملها المستخدم، ونمط الاستعمال العام. فإذا ما هُيئت هذه النقاط سلفا ووضعت في ما يسمى لائحة المستخدم user profile 7 باتت البرمجيات قادرة على إعطاء المعلومات وفقا للطلب تماما. إلا أن الحصول على معلومات دقيقة عن المستخدمين والحفاظ عليها ربما انطوى على قدر من الصعوبة؛ فلا ننسى أن معظم الناس قد لا يميلون إلى إدخال بيانات شخصية أكثر مما يستلزمه إتمام الإجراءات القياسية لبحثهم.
منذ عهد قريب أعلنت مواقع محركات البحث Amazon وAsk Jeeves وGoogle
عن مبادرات تتيح للمستخدمين إضفاء الصفة الشخصية على ما يبحثون عنه.
ومن المصادر الجيدة لجمع المعلومات عن الاهتمامات الشخصية للمستخدم، سجلات تصفحاته على الوب، وغير ذلك من تعاملاته مع التطبيقات الشائعة ضمن منظوماتها. فما إن يبدأ شخص بفتح الوثائق وقراءتها ومعاينتها وطباعتها وتقاسمها حتى تصبح المحركات قادرة على تتبع فعاليات هذا المستخدم واستعمالها لتوجيه عمليات البحث عن موضوعات معينة. وهذه العملية شبيهة بوظيفة البحث الضمني التي استحدثها نظام مايكروسوفت. ويذكر أن النظامين PowerScout وWatson هما أول ما أُدخل من نظم قادرة على دمج عمليات البحث في لوائح اهتمامات المستخدم المتولِّدة من مصادر غير مباشرة. وفي حين بقي النظام PowerScout نظاما مختبريا غير منتشر، يوشك النظام Watson فيما يبدو أن يكتسب الصفة التجارية العامة. وحاليا يعكف المبرمجون على تطوير برمجيات أكثر تعقيدا تتميز بقدرتها على تجميع بيانات التآثر على مدى طويل من الزمن، ثم توليد لائحة مستخدم والحفاظ عليها لاستشراف اهتمامات مستقبلية أخرى.
على أن التقنيات المعتمدة على لوائح المستخدم في هذه المنظومات لم يؤخذ بها على نطاق واسع بالنظر إلى عدة عوامل: يعود أحدها إلى المشكلات المتصلة بالإبقاء على محتويات اللائحة صحيحة ودقيقة لدى تنفيذ مهمات مختلفة، وعلى مدى زمن طويل. ومن الضروري إعادة التقييم مرارا لتحقيق لوائح رصينة، علما بأن اهتمام المستخدِم قد يتبدل بصورة دقيقة وغير متوقعة، مما قد يؤثر في نتائج الاسترجاع تأثيرا كبيرا.
وثمة عامل آخر يتمثل في حماية الخصوصية privacy protection؛ إذ يمكن بوساطة آثار trails البحث في الوب، والأبحاث المحفوظة، وأنماط التآثر مع التطبيقات، كشفُ قدر لا يستهان به من المعلومات الشخصية السرية (إلى درجة قد تصل الى الكشف عن هوية المستخدم). وتوفِّر حفنة من النظم البرمجية المتاحة للمستخدم إمكان الحصول على بعض محتوى مواقع الوب على نحو يبقى مجهولا. والوسائط الأولية التي تستعملها هذه الأدوات هي مخدِّمات متوسطة intermediate servers أو مخدِّمات مفوَّضة (وكيلة) proxy servers تُرسَل من خلالها وقائع المستخدم user's transactions وتعالَج بحيث لا يطلع الموقع المضيف للبيانات أو للخدمة إلا على النظم المفوَّضة فقط، ويتعذر عليه تتبع أي طلب تراجعيا وصولا إلى مستخدم بعينه. ومن أمثلة هذه التقانة الموقع anonymizer.com الذي يتيح للمستخدم تصفح الوب غُفْلا. ومن أمثلتها أيضا البرمجيات Freedom WebSecure التي تستعمل مخدمات مفوَّضة مركبة multiple proxies وعدة طبقات من التعمية(8). ومع أن هذه الأدوات توفر درجة معقولة من الأمن، فليس ثمة خدمات بحث حتى الآن يمكن أن تضفي صفة شخصية للمستخدم وتمنح حماية قوية للخصوصية في آن معا. وبذلك تبقى مسألة تحقيق التوازن بين حفظ السرية وفوائد اللوائح تحديا مهما قائما.
على الطريق(****)
هناك مجموعة أخرى من منظومات البحث السياقية context-aware تأخذ في اعتبارها مكان وجود الشخص. لنأخذ مثلا شخصا في إجازة من عمله يحمل مساعدا رقميا شخصيا (PDA) قادرا على استقبال وتفسير إشارات من النظام العالمي لتحديد المواقع (GPS) او استعمال تقنية للتردد الراديوي للتحقق من المواقع وتحديثها باستمرار؛ إن المنظومات في هذه الحالة قد تستفيد من تلك القدرة. ويسعى الباحثون حاليا إلى تطوير نموذج من هذه التقانة في جامعة ميريلاند يسمى النظام روڤر Rover، وهو نظام يقوم على الاستفادة من خدمات النصوص أو الخدمات السمعية (الصوتية) أو البصرية (المرئية) عبر مساحة جغرافية واسعة [انظر الشكل في الصفحة 35]. يستطيع النظام روڤر هذا توفير خرائط للمنطقة القريبة من المستخدم، تبرز مواقع ملائمة ذات أهمية. إن بإمكانه تعرّف هذه المواضع آليا بتطبيق «مرشحات» محدِّدة للموضوعات على الخريطة.
كذلك يستطيع النظام روڤر توفير معلومات إضافية. فلو كان أحد زبائن النظام روڤر في زيارة لمتحف مثلا، لأظهرت التجهيزة المحمولة باليد خريطة المبنى والمعروضات القريبة. وإذا انتقل المستخدم إلى الخارج فسوف تعرض شاشة الـ PDA خريطة للمنطقة area map تشير إلى مواقع ذات أهمية محتملة. ويتيح هذا النظام أيضا لمن يشغله إمكانية إدخال مكان وجوده مباشرة واستحضار معلومات وافية بحاجاته ورغباته من قاعدة البيانات الشبكية. وفي عام 2003 تلقت المجموعة التي ابتكرت النظام روڤر وشركة الشبكات الخاصة كول سپان KoolSpan تمويلا من حكومة ولاية ميريلاند للقيام - في مسعى مشترك - بتطوير تطبيقات الإيصال اللاسلكي المأمون للبيانات secure wireless data delivery والتثبت من المستخدم user authentication. ويؤمل أن يسفر هذا التعاون عن نموذج للنظام روڤر أكثر أمانا وقبولا من الناحية التجارية.
ومن المؤسف أن الخطأ الموضعي للمنظومات المعتمدة على النظام العالمي لتحديد المواقع (الذي يقع بين 3 و 4 أمتار) مازال كبيرا نسبيا.
سيتمكن جمهور الباحثين في الوب من النفاذ إلى مخازن للبيانات رحيبة
وغنية وذلك باستخدام واجهات تُحدِث أنماطا شاملة في المعلومات.
ومع أن بالإمكان تحسين هذا الميز resolution بوساطة منظومات مجسية داخلية ومنظومات إرشادية خارجية، فإن وضع هذه التقانات موضع التنفيذ باهظ التكلفة نسبيا، إضافة إلى أن توزيع المعلومات اللانصيّة nontext information، لاسيما الصور والخرج الصوتي والڤيديوي، يتطلب سعات عرض حزمة أعلى من تلك المتاحة حاليا على التجهيزات التي تُحمل باليد أو التي توفرها الشبكات اللاسلكية. وقد تم بنجاح اختبار الپروتوكول IEEE 802.11b للشبكة المحلية اللاسلكية (التي يصل عرض النطاق الترددي فيها إلى 11 ميگابتة في الثانية) فيما يتعلق بإتاحة خدمات بحثية تأخذ الموقع في اعتبارها. إلا أنها لم تتوافر على نطاق واسع بعد.
تصور هذا(*****)
ويمكن أن يحمل السياق أكثر من مجرد اهتمامات المستخدم الشخصية أو تحديد موقعه؛ فقد بدأت محركات البحث تتجاوز حدود الاستفسارات النصية الى اكتشاف معلومات تصويرية. ويتوافر حاليا عدد كبير من الصور الثلاثية الأبعاد على شبكة الوب، إلا أنه يتعذر على الفنانين والرسامين والمصممين البحث في هذه الرسوم والأشكال باستعمال كلمات مفتاحية. فمحرك البحث النموذجي الثلاثي الأبعاد 3-D Model Search Engine المنتمي إلى مجموعة پرنستون لاستحضار الأشكال وتحليلها يعتمد ثلاث طرائق في توليد استفسار كهذا [انظر الشكل في هذه الصفحة]. فالطريقة الأولى تستعمل برنامجا تخطيطيا مساندا يدعى Teddy، يتيح للشخص رسم الأشكال الأساسية الثنائية الأبعاد، ومن ثم تولد البرمجيات من تلك الأشكال نموذجا مجسما افتراضيا (عن طريق سحب الصور الثنائية الأبعاد عبر حيز الفضاء). وتتيح الطريقة الثانية للمستخدم رسم أشكال مركبة ثنائية الأبعاد (بمقاربة المساقط المختلفة للصورة)، ثم يقوم محرك البحث بمطابقة المخططات الإجمالية المسطحة مع 13 مسقطا محسوبا سلفا لكل جسم ثلاثي الأبعاد ضمن قاعدة بياناته. ويمكن - نظريا - تعميم هذه الوظيفة للاسترجاع من أية مجموعة بيانات خاصة بصورة ثنائية الأبعاد. أما الطريقة الثالثة لإيجاد صورة فتتمثل بتحميل ملف يحتوي على نموذج ثلاثي الأبعاد.
يقوم هذا النظام - الذي مازال في مرحلة التطوير - بمطابقة الاستفسارات مع الأشكال، وذلك بتوصيف كل شكل باعتباره سلسلة من الدوال الرياضياتية mathematical functions : التوافقية harmonic في حالة الصور الثلاثية الأبعاد، والمثلثية trigonometric للتمثيلات الثنائية الأبعاد. ثم يولد النظام من كل دالة قيم «بصمات أصابع» مميزة للشكل المرتبط بها. تسمى هذه البصمات بالتواقيع signatures الكروية أو الدائرية. وينتج من استعمال هذه الواصفات(9) descriptors فائدتان: فهي قابلة للمطابقة مهما كان توجه الأشكال الأصلية وأشكال البحث، وهي سريعة الحوسبة والمطابقة.
وضع جميع الوسائط على الشبكة(******)
ما تلك الأغنية؟(*******)
حتى الموسيقى دخلت مجال محركات البحث. وتتمثل الصعوبة الأساسية لاستحضار لحن معين في كيفية صوغ الاستفسار البحثي صوغا أمثليا. على أن من بين الحلول استعمال علامات موسيقية (نوتة) أو لغة استفسار تعتمد على التدوين الموسيقي، تتيح للمستخدم تحديد لحن ما بإدخال رموز حرفية رقمية alphanumeric characters تمثِّل النغمة الموسيقية. ومع ذلك فإن معظم المستخدمين يستصعبون تحويل الأغنية التي يرغبون في استحضارها إلى علامات موسيقية.
وللتغلب على هذه المشكلة صمم مشروع المكتبة الرقمية في نيوزيلندا المنظومة المسماة ميلديكس Meldex التي توفر طريقتين لاستحضار الموسيقى [انظر الشكل في الصفحة المقابلة]، أولاهما أن يدون المستخدم استفساره بعزف نغمات على لوحة المفاتيح الافتراضية للمنظومة، أو أن يدندن الأغنية المطلوبة من خلال مجهار الحاسوب؛ والأخرى أن يقدم المستخدم كلمات الأغنية على شكل استفسار نصي، أو أن يجمع بين البحث النصي والبحث المعتمد على اللحن.
وكان لابد، قبل إمكان تشغيل منظومة ميلديكس، أن يتغلب الباحثون في نيوزيلندا على عدد من العقبات المتصلة بكيفية تحويل الاستفسار الموسيقي إلى شكل يمكن حوسبته بسهولة، وبكيفية اختزان المدونات الموسيقية للأغنيات رقميا والبحث فيها، وكذلك بكيفية مطابقة تلك الاستفسارات بالبيانات الموسيقية المختزنة. وفي هذه المنظومة يجري تعرّف العلامات الموسيقية والطبقات الصوتية في استفسار ما بطريقة تدعى التكمية quantization. ثم تتبين المنظومة الطبقات الصوتية آليا، باعتبارها دالة زمنية، عن طريق تحليل بنية شكل الموجة، وتحوِّلها إلى «نوتة» رقمية تختزنها المنظومة مع الأعمال الكاملة في قاعدة بيانات المدونات الموسيقية. وباستعمال خوارزميات مطابقة تسلسلية للبيانات data string-matching algorithms تستحضر منظومة ميلديكس الاستفسارات الموسيقية وقد تحولت إلى نوتة تطابق نوتة قاعدة بيانات المدونات الموسيقية. وبالنظر إلى احتمال وجود بعض الأخطاء في الاستفسارات يتعين أن تحتوي دالة المطابقة التسلسلية على قدر معين من «الضجيج».
استشراف المستقبل(********)
ويُتوقع ألا تكون خدمات البحث المستقبلية مقصورة على منصات الحوسبة التقليدية، بل يلاحظ أن المهندسين دمجوها فعلا ضمن بعض منظومات الاتصالات النقالة، فباتت منظومات اتصالات وحوسبة telematics في آن معا. ومن المحتمل أيضا أن يُدخلوا قدرات البحث في أجهزة الترفيه من مثل: محطات اللعب والتلفزة والمنظومات الصوتية المجسمة ذات التقانة العالية. وهكذا ستؤدي تقانات البحث أدوارا إضافية غير منظورة، غالبا ما تكون عن طريق خدمات الوب الذكية، كجزء من فعالياتنا وأنشطتنا الحياتية: مثل قيادة السيارة والاستماع الى الموسيقى وتصميم المنتجات.
ومن التغييرات الكبيرة الأخرى المنتظرة فيما يتصل بالبحث في شبكة الوب ما سيتمحور حول عقد صفقات عمل جديدة من شأنها أن توسع الانتشار المباشر (على الخط) لكم هائل من المواد المنشورة، التي تتضمن النصوص والمواد الڤيديوية والصوتية التي يتعذر على مستخدمي الحاسوب النفاذ إليها حاليا [انظر الإطار في هذه الصفحة].
وخلافاً لجميع المقاييس، ستغدو تقانات الجيل القادم البحثية منظورة وغير منظورة في الوقت نفسه من حيث أداؤها للأعمال المتزايدة التعقيد: فالدور المنظور سيتمثل في توافر أدوات أعلى قدرة تجمع بين وظائف البحث المختلفة وعمليات التنقيب في البيانات datamining - وهي منظومات متخصصة تتحرى اتجاهات أو شذوذات في قواعد البيانات من دون أن تعرف معنى البيانات فعليا. أما الدور غير المنظور للتقانات القادمة فسينطوي على تطوير عدد كبير جدا من عمليات البحث الذكية باعتبارها خدمات خاصة مطلوبة لمختلف التطبيقات والمنصات. ويُتوقع للتطورات في مجال تقانات التنقيب في البيانات وتقانات واجهات المستخدم أن تجعل من الممكن، آليا وباستعمال منظومة وحيدة، توفير سلسلة انسيابية continuum من خدمات البحث المعقدة المتصلة تلقائيا بوظائف بصرية تآثرية.
وبالاستفادة من تطور تقنيات التعلم والتصنيف الحاسوبي الذي سيكون قادرا على تحقيق درجة أعلى من الإحاطة بمحتوى الوب وتصنيف هذا المحتوى، ينظر المبرمجون الى ابتكار وظائف تنقيب بصرية سهلة الاستعمال، تضيف بُعدا تآثريا مرئيا إلى عملية البحث. ويتوقع محللو الصناعة الحاسوبية توافر أشكال عديدة من إمكانات التنقيب، طُوع كل منها للبحث في محتوى بنية متخصصة في مجال معين من البيانات (مثل الموسيقى أو علم الحياة). ويعتزم مهندسو البرمجيات إحداث هذه الوظائف بسرعة، استجابة لاحتياجات المستخدم، مع علمهم بما سيترتب عليهم من معالجة كمٍّ هائل من المعلومات. وعندئذ سيتمكن جمهور الباحثين في الوب من النفاذ إلى مخازن للبيانات رحيبة وغنية، وذلك باستعمال واجهات بصرية تركز على إحداث أنماط شاملة في المعلومات، وليس الاكتفاء باستنباط سجلات إفرادية. وفي آخر الأمر، سوف يجد مستخدمو الحواسيب صعوبة في تعيين بداية عملية البحث وبداية إدراك المحتوى المطلوب.
المؤلف
مراجع للاستزادة
Information Storage and Retrieval. Ben Ami Lipetz in Scientific American, Vol. 215, No. 3, pages 224-242; September 1966.
Exploring the Web with Reconnaissance Agents. H. Lieberman, C. Fry and L. Weitzman in Communications of the ACM, Vol. 44, No. 8, pages 69-75; August 2001.
Web Search-Your Way. E. Glover et al. in Communications of the ACM, Vol. 44, No. 12, pages 97-102; December 2001.
Rover: Scalable Location-Aware Computing. S. Banerjee et al. in Computer, Vol. 35, No. 10, pages 46-53; October 2002.
A Search Engine for 30 Models. T. Funkhouseret al. in ACM Transactions on Graphics, Vol. 22, No. 1, pages 83-105; January 2003.
Simulation Studies of Different Dimensions of Users' Interests and Their Impact on User Modeling and Information Filtering. Javed Mostafa, S. Mukhopadhyay and M. Palakal in Information Retrieval, Vol. 6, No. 2, pages 199-223; April 2003.
For the URLs of the Web sites referred to in the article, see www.sciam.com/ontheweb
Scientific American, February 2005
قريبًا، سينعم مستخدمو الإنترنت بفوائد «محركات البحث» الجديدة
للحصول على إجابات مباشرة عن استفساراتهم بعد أن كانوا
يتلقون كمّا هائلا من الإجابات التي لا داعي لها.
<جاويد مصطفى>
في غضون أقل من عشر سنوات تمكنت محركات البحث search engines في شبكة الإنترنت من إحداث تغيير جذري في الأسلوب الذي يَجمع الناس فيه معلوماتهم؛ فلم تعد ثمة حاجة اليوم إلى السعي إلى المكتبات بحثا عن معلومة ما، بل بات ميسورا استحضار جميع الوثائق ذات الصلة ببضع نقرات على لوحة المفاتيح. وفيما صار النفاذ إلى محرك البحث المسمى گوگل Google مرادفا لإجراء البحث على الشبكة، تتحفز محركات البحث المباشر لكي تشهد سلسلة من التحسينات التي تَعِدُ بتطوير طريقة البحث عن احتياجاتنا أكثر فأكثر.
وقد بدأت محركات البحث الجديدة فعلا بتحسين نوعية النتائج عن طريق التعمق في صميم مخزون مواد البحث المتاحة على الخط، وتصنيف تلك النتائج وتقديمها بطريقة أفضل، وتتبع اهتماماتك على المدى البعيد بصورة تمكنها من تحسين التعامل مع أي طلبات جديدة للمعلومات. وينتظَر لمحركات البحث في المستقبل أن توسع آفاق محتواها بحيث تتجاوز مجرد معالجة الاستفسارات بكلمات مفتاحية تدخل في صندوق النصوص(1). وسيكون بإمكانها - استنادا إلى تحديد مكان وجودك آليا - أن تتيح لحاسوبك الرقمي الشخصي PDA 2 اللاسلكي مثلاً التعيين الدقيق لموقع أقرب مطعمٍ لك وأنت على سفر. وستتمكن المنظومات الجديدة أيضا من انتقاء الصورة المناسبة لك بسرعة عن طريق مطابقة مخططاتك مع أشكال مشابهة لها في الواقع، بل يُتوقع أن تتمكن حتى من تسمية لحن موسيقي قد أُنسيتَ معظمه ما إن تبدأ بدندة بضع نغمات منه.
ترتبط محركات البحث اليوم بمجال علمي يسمى «استرجاع المعلومات أو استحضارها» information retrieval، وهو مبحث حاسوبي تعود أصوله الى نحو خمسين سنة. ففي مقالة بعنوان «تخزين المعلومات واسترجاعها»(3)، بيّن المؤلف <A.B .لايپتس> كيف تعاملت أكثر التقانات تقدما حينذاك مع المهمات الروتينية أو المكتبية. ثم خلص ببصيرته النافذة إلى أن فتحا مهما في ميدان استرجاع المعلومات سيتحقق حتما مع تعمق إدراك الباحثين لطرائق معالجة المعلومات بدرجة تمكنهم من أن ينقلوا إلى الآلة مثل تلك القدرات العالية. ومن الواضح أن الحواسيب لم تبلغ بعد ذلك المستوى من التطور، إلا أنها بلا شك تولي اهتماما أكبر بمصالح المستخدمين الشخصية وعاداتهم واحتياجاتهم، عند استكمالها مهامها.
يحسُن، قبل أن نتناول بالبحث التطورات الجديدة في هذا المجال، أن نستعرض آلية عمل محركات البحث الحالية، فنتساءل: ما الذي يحدث عندما يقرأ مستخدم على شاشة الحاسوب أن محرك البحث «گوگل» قد محّص بلايين الوثائق في زمن قدره 0.32 من الثانية مثلا؟ لما كانت عملية مطابقة الكلمة المفتاحية لاستفسار المستخدم مع صفحة وب واحدة في كل مرة تستغرق زمنا طويلا، فإن النظم تنفذ عدة مراحل أساسية قبل أن يقوم المستخدم بإجراء بحثه.
نظرة إجمالية/ محركات بحث مطوّرة(**)
▪ مع استمرار تزايد أعداد مواقع الوب بسرعة كبيرة، بات مستخدمو الإنترنت بحاجة إلى محركات بحث أكثر دقة لاستحضار ما ينشدونه من معلومات بآلية أكبر سرعة وأعلى كفاءة.
▪ ستحسِّن محركات البحث القادمة نتائج البحث من خلال تمحيص أعمق للمواد مباشرة «على الخط»، وفرزها وتصنيفها وإظهار المعلومات ذات الصلة على نحو أفضل، وكذلك بمتابعة اهتمامات المستخدم بقصد تحقيق استجابة أكثر دقة وعمقا لعمليات البحث المستقبلية. وستستعمل برمجيات جديدة بإمكانها اقتفاء مكان وجود المستخدم ومعالجة البيانات والموسيقى إضافة إلى النصوص. ▪ ستتمكن نماذج العمل الجديدة من الكشف عن المعلومات الرقمية المنشورة برمتها تقريبا - من نصوص ومصادر صوتية وڤيديوية ليست متاحة حاليا على شبكة الوب - أمام وظائف البحث الذكية.
ففي المرحلة الأولى تُعيَّن حدود المحتوى المحتمل وتجري عملية الجمع بصورة مستمرة. ويُستعمل كود برمجيات خاص يسمى المتصفح crawler لمسح صفحات منشورة على الوب، واسترجاعها مع صفحات متصلة بها، ومن ثم تجميعها في موضع واحد. وفي المرحلة الثانية يقوم النظام بإحصاء الكلمات ذات الصلة ويتحقق من أهميتها مستعينا بتقنيات إحصائية متعددة. أما في المرحلة الثالثة فتتولد بنية بيانات، أو بنية شجرية، عالية الكفاءة من المصطلحات ذات الصلة، من شأنها أن تربط تلك المصطلحات بصفحات معينة من الوب. وعندما يقدم المستخدم استفسارا ما فإن ما يمحَّص هو كامل البنية الشجرية (التي تسمى أيضا الفهرس index) لا صفحات مفردة من الوب. ويبدأ البحث اعتبارا من قاعدة شجرة الفهرسة؛ وعند كل مرحلة إما أن يُعتَمد فرع منها (يمثل كثيرا من المفردات وما يرتبط بها من صفحات الوب) أو أن يستبعد، مختزلا بذلك زمن البحث اختزالا أسيا.
ولوضع التسجيلات ذات العلاقة على رأس اللائحة المسترجعة retrieved list أو قريبا من رأسها، تطبِّق خوارزمية البحث search algorithm استراتيجيات متنوعة لأولويات الترتيب. ومن طرائق الترتيب الشائعة طريقة معرفة تردد المصطلح term frequency أو التردد المعكوس للوثائق inverse document frequency، وهي تقوم على حساب توزع الكلمات وتواتر ورودها، ثم توليد قيم عددية للكلمات تدل على مدى أهميتها في الوثائق كلٍّ على حدة. فالكلمات الأكثر تواترا (مثل «أو» أو «إلى» أو «ب»، أو تلك التي يكثر ترددها في عدد كبير من الوثائق تعطي عمومًا قيما أقل كثيرا من قيم الكلمات التي هي أوثق صلة دلالية، أو التي تظهر في عدد قليل نسبيا من الوثائق.
وإضافة إلى استراتيجية رَوْز المصطلحات term weighting، يمكن ترتيب صفحات الوب باستعمال استراتيجيات أخرى مثل استراتيجية تحليل وصلات الربط link analysis، التي تراعي طبيعة كل صفحة من حيث علاقتها بالصفحات الأخرى - أي من حيث كونها أساسية authority (بدلالة عدد الصفحات الأخرى التي تحيل عليها) أو محورية hub (بدلالة عدد الصفحات التي تحيل هي عليها)، علما بأن النظام «گوگل» يستعمل استراتيجية تحليل وصلات الربط لتحسين ترتيب أولويات نتائج بحوثه.
إن السيل العارم من المعلومات العامة التي توفرها شبكة الإنترنت سيُختزل إلى مسيل شحيح القَطْر، مع ظهور محركات بحث جديدة قادرة على أخذ مساقات المستخدم - مثل اهتماماته الطويلة الأمد، وموقع وجوده، وغير ذلك من العوامل - في الاعتبار لدى إجراء عملية البحث.
محركات بحث عالية المستوى(***)
على مدى السنوات الست التي بلغ فيها النظام گوگل مرتبة السيادة والصدارة، كان يتمتع بمزيتين مهمتين على منافسيه، إحداهما قدرته على معالجة مهام تصفح واسعة النطاق على الوب، والأخرى إحرازه نتائج تصنيف رفيعة المستوى بفضل طرائقه المعتمدة في الفهرسة والتقييم. على أن مصممي محركات البحث تمكنوا حديثا من ابتكار عدة منظومات جديدة تحاكيه قدرة، بل تفوقه أحيانا من بعض الوجوه.
من ناحية أخرى يبقى قدر كبير من المحتوى الرقمي اليوم بعيد المنال، بالنظر إلى أن كثيرا من النظم المضيفة لتلك المواد (احتواء ومعالجة) لا يختزن صفحات الوب بالشكل الذي يستعرضها به المستخدمون عادة، بل تتيح هذه المصادر المعلوماتية صفحات وب حسب الطلب لدى تآثر المستخدمين بها. لكن هذه المصادر تعوق عمل المتصفحات النموذجية فتخفق هذه في استرجاع أي محتوى، ومن شأن ذلك أن يُبقي كمًا هائلا من المعلومات - يقارب وفقا لبعض التقديرات 500 ضعف حجم الوب التقليدي - متواريا عن أنظار المستخدمين. وحاليا تُبذل جهود حثيثة لجعل البحث ميسورا في الوب المتواري كما هو ميسور في الوب المنظور.
وقد ابتكر المبرمجون لهذه الغاية مجموعة من البرمجيات أطلقوا عليها اسم «الغُلُف» wrappers، تستفيد من أن المعلومات المستلة مباشرة «على الخط» عادة ما تظهر باستعمال بنى «نحوية» قياسية موحدة. وتؤدي برمجيات «الغلف» مهمتها بطرائق متعددة؛ فيستعين بعضها بعلم النحو المعتمَد في الاستفسارات البحثية والمصاغات formats القياسية للمصادر المباشرة كوسيلة للنفاذ إلى المحتوى المتواري، في حين تستغل نظم أخرى الواجهات البرمجية للتطبيقات application programming interfaces 4 كوسيلة تمكن البرمجيات من التآثر عن طريق مجموعة قياسية من العمليات والأوامر. ومن أمثلة البرامج التي توفر نفاذا إلى الوب المتواري برنامج إدارة الاستفسارات المعمقة Deep Query Manager التابع لمحرك البحث BrightPlanet، إذ يستطيع هذا البرنامج - الذي يقوم أساسا على برمجيات «الغُلُف» - توفير بوابات وواجهات بحث حسب الطلب لأكثر من 70000 مصدر وب متوار.
إن الاعتماد فقط على وصلات الربط أو الكلمات في تحقيق ترتيب الأولويات دون وضع أي قيود على أنماط الصفحات الخاضعة للمقارنة، من شأنه أن يفتح إمكانات وقوع عمليات انتحال أو تلاعب بنظام الترتيب بقصد تضليل وجهة الاستفسارات. على سبيل المثال، عند تنفيذ الاستفسار «فشل ذريع» على محركات البحث الثلاثة الأساسية - Google وYahoo وMSN - يظهر الموقع whitehouse.gov على رأس الأولويات في المجموعة الناشئة عن وصلات الربط المسترجعة.
محرك البحث الجديد المسمى موتر Mooter يبسِّط تقييم المستخدم للنتائج عن طريق تصنيف المعلومات الناتجة وتوزيع المواقع ذات الصلة في مجموعات تحت عناصر «أزرار» موجودة على شاشة العرض. أما «أزرار» المجموعات الفرعية فتحيط بمجموعة الفكرة العامة المركزية. ولدى نقر الزر الخاص بمجموعة ما تُستحضر جميع اللوائح والمجموعات الجديدة المتصلة بها.
وما يحدث هو أنه بدلا من تزويد المستخدِم بلائحة بالأولويات (التي يمكن انتحالها بسهولة)، تحاول محركات بحث معينة أن تتعرّف من بين تلك الصفحات أقربَ النماذج مطابقة للاستفسار، وتصنِّف النتائج في مجموعات صغيرة. وقد تشتمل هذه النماذج على مفردات عامة، أو مترادفات، أو كلمات ذات صلة، أو حتى على مفاهيم عالية المستوى يجري تعرّفها باستعمال قواعد خاصة. تقوم هذه النظم بوسم كل مجموعة من وصلات الربط بالمصطلح الذي يتعلق بها، بحيث يتمكن المستخدِم فيما بعد من إدخال تطويرات أخرى على بحثه عن طريق اختيار مجموعة معينة من النتائج. ويُذكر هنا أن محركَيْ البحث Northern Light (وهو رائد هذه التقنية) وClusty هما من المحركات التي تعرض نتائجها في صورة مجموعات.
ويتيح محرك البحث المسمى Mooter - وهو من المحركات الابتكارية التي تستعمل تقنيات المجموعات - للباحثين عدة مزايا إضافية؛ فهو يعرض مجموعاته بصريا على الشاشة [انظر الشكل في هذه الصفحة] بترتيب «أزرار» المجموعات الفرعية حول زر مركزي يمثِّل جميع النتائج المستخلصة، وبمجرد نقر زر مجموعة ما، تُستحضر لوائح من وصلات الربط ذات الصلة ومن المجموعات الجديدة المرتبطة بها، إذ يتميز محرك البحث هذا بالقدرة على استذكار المجموعات المختارة. ولدى نقر زر الاختيار «تحسينات» تندمج مجموعات البحث المستحضرة سابقا في الاستفسار الحالي، مما يمكن المستخِدم من استخلاص نتائج أعلى دقة.
وشبيه بذلك من حيث أسلوب العرض البصري محرك البحث Kartoo الذي يعتبر محرك بحث محوِّلا metasearch engine؛ فهو يحيل استفسار المستخدم إلى محركات بحث أخرى ويعرض النتائج المتحصَّلة مجتمعة بصورة بصرية أيضا. وهو يوفر، إضافة إلى لائحة المصطلحات المفتاحية المرتبطة بمواقع عديدة، «خريطة» تصور المواقع المهمة كأيقونات icons، والعلاقات فيما بين المواقع كمسارات موسومة labeled paths يمكن استعمال كل منها لتطوير عملية البحث أكثر فأكثر.
وثمة طريقة أخرى تتيح للأدوات الحاسوبية تبسيط عمليات البحث، تتمثل في استقصاء السواقة الصلبة hard drive لحاسوبك إضافة إلى الوب. وفي الوقت الحالي تتطلب عمليات البحث عن ملف في حاسوب مكتبي للمستخدم استعمال تطبيق برمجي software application مستقل. فمثلا أعلن محرك البحث Google حديثا عن نظام «ابحث على سطح المكتب» Desktop Search الذي يجمع بين الوظيفتين معا، فيسمح للمستخدم بتحديد القرص الصلب أو الوب أو كليهما لإجراء بحث ما. ويُنتظر أن يكون النموذج القادم من نظام تشغيل مايكروسوفت، وهو ما رمز إليه باسم Longhorn، قادرا على توفير قدرات مماثلة. ومن خلال استعمال تقنيات من نتاج مشروع آخر لمايكروسوفت يُدعى Stuff I've Seen فلربما تمكّن النظام Longhorn من تقديم قدرات «بحث ضمني» بإمكانها استرجاع المعلومات ذات الصلة من دون أن يتعين على المستخدم تحديد استفساراته. ويُفترض أن ميزة البحث الضمني تجمع الكلمات المفتاحية من معلومات نصية textual information سبق للمستخدم أن تعامل معها منذ عهد قريب، مثل البريد الإلكتروني أو وثائق Word documents، بغية استنباط المحتوى ذي الصلة من الملفات المخزنة على السواقة الصلبة. وقد يوسِّع نظام مايكروسوفت وظيفة البحث ليشمل محتوى الوب فيمكِّن المستخدمين من تحويل أي محتوى نصي يظهر على شاشات العرض إلى استفسارات على نحو أكثر ملاءمة.
ثمة جهود حثيثة تُبذل حاليا لجعل البحث ميسورا في الوِب
المتواري كما هو ميسور في الوِب المنظور.
منذ عهد قريب أعلنت مواقع محركات البحث Amazon وAsk Jeeves وGoogle عن مبادرات تسعى إلى تحسين نتائج البحث عن طريق إتاحة المجال للمستخدمين لإضفاء الصفة الشخصية على عمليات بحوثهم. فالمحرك Amazon,A9.com، وكذلك المحرك Ask Jeeves, MyJeeves.ask.com يستطيعان تعقب الاستفسارات والصفحات المسترجعة في آن واحد، إضافة إلى تمكين المستخدمين من الاحتفاظ بها بصورة دائمة على شكل مؤشرة في كتاب. ففي الموقع MyJeeves يمكن استعراض عمليات البحث المحفوظة وإعادة تنفيذها، ومن ثم توفير مجال لتطوير مجموعة فرعية شخصية على الوب. أما الموقع A9 الخاص بالمحرك Amazon فبإمكانه توفير وظائف مماثلة، واستعمال تواريخ بحث شخصية (personal search histories (5 لاقتراح صفحات إضافية. وهذه الوظيفة الاستشارية تشبه ميزة أخرى عرف بها المحرك Amazon تتمثل في تزكية كتب معينة، وهي تزكية يحققها مستفيدا من نماذج البحث وأنماط الشراء لدى أوساط المستخدمين - وهي عملية تسمى أحيانا الترشيح التعاوني(6).
تُحفظ تواريخ البحث في الموقعين A9 و MyJeeves كليهما على مخدمات محركات البحث لا على الأجهزة الخاصة بالمستخدمين، وذلك بقصد صونها واسترجاعها فيما بعد على أي جهاز يستعمل لإجراء عمليات البحث اللاحقة.
أعرف أين نحن: بيئة حاسوبية تعي مكان وجودها، من مثل تقانة روڤر Rover technology المنبثقة من جامعة ميريلاند، تمكَّن تجهيزة لاسلكية محمولة باليد من معرفة موقعها على الخريطة في جميع الأوقات. تسمح هذه الميزة لتقانة روڤر بأن توفر لمستخدمٍ متحرك معلومات حسب الطلب عن الوسط المحيط به.
يتيح المحرك Google «الشخصي» للمستخدمين إمكانية تحديد الموضوعات التي تهمهم عن طريق الاختيار من نظام تراتبي hierarchy للموضوعات معد مسبقا، وكذلك يتيح لهم تحديد درجة اهتمامهم في الموضوعات أو المجالات المختلفة، ومن ثم يتخذ الموضوعات المختارة ومستويات الاهتمام المدونة والاستفسار الأصلي دليلاً لاستحضار النتائج وتصنيفها بحسب الأولويات.
ومع أن منظومات البحث هذه توفر مزايا جديدة مهمة، فإنها لا تمثل عمليا سوى تحسينات تزايدية incremental enhancements فقط. ولو تسنى لمحركات البحث أن تأخذ في اعتبارها السياق المهماتي الواسع لاستفسار الشخص (أي أحدث ما قدمه المستخدم من موضوعات بحث وأوراق عمل وسلوك شخصي وما إلى ذلك) لتعززت خدماتها وعمّ نفعها إلى حد بعيد. على أن تحديد سياق المستخدم user context يتطلب جهود مصممي البرمجيات لتجاوز العقبات الصعبة. ويتعين على المطورين أولا بناء منظومات ترصد آليا اهتمامات المستخدم وعاداته على نحو يمكِّن محركات البحث من التحقق من السياق الذي يُجري فيه الشخص بحثه عن المعلومات، ونوع المنصة الحاسوبية التي يستعملها المستخدم، ونمط الاستعمال العام. فإذا ما هُيئت هذه النقاط سلفا ووضعت في ما يسمى لائحة المستخدم user profile 7 باتت البرمجيات قادرة على إعطاء المعلومات وفقا للطلب تماما. إلا أن الحصول على معلومات دقيقة عن المستخدمين والحفاظ عليها ربما انطوى على قدر من الصعوبة؛ فلا ننسى أن معظم الناس قد لا يميلون إلى إدخال بيانات شخصية أكثر مما يستلزمه إتمام الإجراءات القياسية لبحثهم.
منذ عهد قريب أعلنت مواقع محركات البحث Amazon وAsk Jeeves وGoogle
عن مبادرات تتيح للمستخدمين إضفاء الصفة الشخصية على ما يبحثون عنه.
ومن المصادر الجيدة لجمع المعلومات عن الاهتمامات الشخصية للمستخدم، سجلات تصفحاته على الوب، وغير ذلك من تعاملاته مع التطبيقات الشائعة ضمن منظوماتها. فما إن يبدأ شخص بفتح الوثائق وقراءتها ومعاينتها وطباعتها وتقاسمها حتى تصبح المحركات قادرة على تتبع فعاليات هذا المستخدم واستعمالها لتوجيه عمليات البحث عن موضوعات معينة. وهذه العملية شبيهة بوظيفة البحث الضمني التي استحدثها نظام مايكروسوفت. ويذكر أن النظامين PowerScout وWatson هما أول ما أُدخل من نظم قادرة على دمج عمليات البحث في لوائح اهتمامات المستخدم المتولِّدة من مصادر غير مباشرة. وفي حين بقي النظام PowerScout نظاما مختبريا غير منتشر، يوشك النظام Watson فيما يبدو أن يكتسب الصفة التجارية العامة. وحاليا يعكف المبرمجون على تطوير برمجيات أكثر تعقيدا تتميز بقدرتها على تجميع بيانات التآثر على مدى طويل من الزمن، ثم توليد لائحة مستخدم والحفاظ عليها لاستشراف اهتمامات مستقبلية أخرى.
على أن التقنيات المعتمدة على لوائح المستخدم في هذه المنظومات لم يؤخذ بها على نطاق واسع بالنظر إلى عدة عوامل: يعود أحدها إلى المشكلات المتصلة بالإبقاء على محتويات اللائحة صحيحة ودقيقة لدى تنفيذ مهمات مختلفة، وعلى مدى زمن طويل. ومن الضروري إعادة التقييم مرارا لتحقيق لوائح رصينة، علما بأن اهتمام المستخدِم قد يتبدل بصورة دقيقة وغير متوقعة، مما قد يؤثر في نتائج الاسترجاع تأثيرا كبيرا.
وثمة عامل آخر يتمثل في حماية الخصوصية privacy protection؛ إذ يمكن بوساطة آثار trails البحث في الوب، والأبحاث المحفوظة، وأنماط التآثر مع التطبيقات، كشفُ قدر لا يستهان به من المعلومات الشخصية السرية (إلى درجة قد تصل الى الكشف عن هوية المستخدم). وتوفِّر حفنة من النظم البرمجية المتاحة للمستخدم إمكان الحصول على بعض محتوى مواقع الوب على نحو يبقى مجهولا. والوسائط الأولية التي تستعملها هذه الأدوات هي مخدِّمات متوسطة intermediate servers أو مخدِّمات مفوَّضة (وكيلة) proxy servers تُرسَل من خلالها وقائع المستخدم user's transactions وتعالَج بحيث لا يطلع الموقع المضيف للبيانات أو للخدمة إلا على النظم المفوَّضة فقط، ويتعذر عليه تتبع أي طلب تراجعيا وصولا إلى مستخدم بعينه. ومن أمثلة هذه التقانة الموقع anonymizer.com الذي يتيح للمستخدم تصفح الوب غُفْلا. ومن أمثلتها أيضا البرمجيات Freedom WebSecure التي تستعمل مخدمات مفوَّضة مركبة multiple proxies وعدة طبقات من التعمية(8). ومع أن هذه الأدوات توفر درجة معقولة من الأمن، فليس ثمة خدمات بحث حتى الآن يمكن أن تضفي صفة شخصية للمستخدم وتمنح حماية قوية للخصوصية في آن معا. وبذلك تبقى مسألة تحقيق التوازن بين حفظ السرية وفوائد اللوائح تحديا مهما قائما.
على الطريق(****)
هناك مجموعة أخرى من منظومات البحث السياقية context-aware تأخذ في اعتبارها مكان وجود الشخص. لنأخذ مثلا شخصا في إجازة من عمله يحمل مساعدا رقميا شخصيا (PDA) قادرا على استقبال وتفسير إشارات من النظام العالمي لتحديد المواقع (GPS) او استعمال تقنية للتردد الراديوي للتحقق من المواقع وتحديثها باستمرار؛ إن المنظومات في هذه الحالة قد تستفيد من تلك القدرة. ويسعى الباحثون حاليا إلى تطوير نموذج من هذه التقانة في جامعة ميريلاند يسمى النظام روڤر Rover، وهو نظام يقوم على الاستفادة من خدمات النصوص أو الخدمات السمعية (الصوتية) أو البصرية (المرئية) عبر مساحة جغرافية واسعة [انظر الشكل في الصفحة 35]. يستطيع النظام روڤر هذا توفير خرائط للمنطقة القريبة من المستخدم، تبرز مواقع ملائمة ذات أهمية. إن بإمكانه تعرّف هذه المواضع آليا بتطبيق «مرشحات» محدِّدة للموضوعات على الخريطة.
كذلك يستطيع النظام روڤر توفير معلومات إضافية. فلو كان أحد زبائن النظام روڤر في زيارة لمتحف مثلا، لأظهرت التجهيزة المحمولة باليد خريطة المبنى والمعروضات القريبة. وإذا انتقل المستخدم إلى الخارج فسوف تعرض شاشة الـ PDA خريطة للمنطقة area map تشير إلى مواقع ذات أهمية محتملة. ويتيح هذا النظام أيضا لمن يشغله إمكانية إدخال مكان وجوده مباشرة واستحضار معلومات وافية بحاجاته ورغباته من قاعدة البيانات الشبكية. وفي عام 2003 تلقت المجموعة التي ابتكرت النظام روڤر وشركة الشبكات الخاصة كول سپان KoolSpan تمويلا من حكومة ولاية ميريلاند للقيام - في مسعى مشترك - بتطوير تطبيقات الإيصال اللاسلكي المأمون للبيانات secure wireless data delivery والتثبت من المستخدم user authentication. ويؤمل أن يسفر هذا التعاون عن نموذج للنظام روڤر أكثر أمانا وقبولا من الناحية التجارية.
ومن المؤسف أن الخطأ الموضعي للمنظومات المعتمدة على النظام العالمي لتحديد المواقع (الذي يقع بين 3 و 4 أمتار) مازال كبيرا نسبيا.
سيتمكن جمهور الباحثين في الوب من النفاذ إلى مخازن للبيانات رحيبة
وغنية وذلك باستخدام واجهات تُحدِث أنماطا شاملة في المعلومات.
ومع أن بالإمكان تحسين هذا الميز resolution بوساطة منظومات مجسية داخلية ومنظومات إرشادية خارجية، فإن وضع هذه التقانات موضع التنفيذ باهظ التكلفة نسبيا، إضافة إلى أن توزيع المعلومات اللانصيّة nontext information، لاسيما الصور والخرج الصوتي والڤيديوي، يتطلب سعات عرض حزمة أعلى من تلك المتاحة حاليا على التجهيزات التي تُحمل باليد أو التي توفرها الشبكات اللاسلكية. وقد تم بنجاح اختبار الپروتوكول IEEE 802.11b للشبكة المحلية اللاسلكية (التي يصل عرض النطاق الترددي فيها إلى 11 ميگابتة في الثانية) فيما يتعلق بإتاحة خدمات بحثية تأخذ الموقع في اعتبارها. إلا أنها لم تتوافر على نطاق واسع بعد.
استخرج هذا الشكل: محرك البحث النموذجي الثلاثي الأبعاد (من مجموعة پرنستون لاستحضار الأشكال وتحليلها) يطابق شكلا مطلوبا مع صور مركبة شبيهة، متاحة على الإنترنت. بات بإمكان المصممين والمهندسين العثور على مجسمات ثلاثية الأبعاد بصورة أسرع بكثير من ذي قبل.
تصور هذا(*****)
ويمكن أن يحمل السياق أكثر من مجرد اهتمامات المستخدم الشخصية أو تحديد موقعه؛ فقد بدأت محركات البحث تتجاوز حدود الاستفسارات النصية الى اكتشاف معلومات تصويرية. ويتوافر حاليا عدد كبير من الصور الثلاثية الأبعاد على شبكة الوب، إلا أنه يتعذر على الفنانين والرسامين والمصممين البحث في هذه الرسوم والأشكال باستعمال كلمات مفتاحية. فمحرك البحث النموذجي الثلاثي الأبعاد 3-D Model Search Engine المنتمي إلى مجموعة پرنستون لاستحضار الأشكال وتحليلها يعتمد ثلاث طرائق في توليد استفسار كهذا [انظر الشكل في هذه الصفحة]. فالطريقة الأولى تستعمل برنامجا تخطيطيا مساندا يدعى Teddy، يتيح للشخص رسم الأشكال الأساسية الثنائية الأبعاد، ومن ثم تولد البرمجيات من تلك الأشكال نموذجا مجسما افتراضيا (عن طريق سحب الصور الثنائية الأبعاد عبر حيز الفضاء). وتتيح الطريقة الثانية للمستخدم رسم أشكال مركبة ثنائية الأبعاد (بمقاربة المساقط المختلفة للصورة)، ثم يقوم محرك البحث بمطابقة المخططات الإجمالية المسطحة مع 13 مسقطا محسوبا سلفا لكل جسم ثلاثي الأبعاد ضمن قاعدة بياناته. ويمكن - نظريا - تعميم هذه الوظيفة للاسترجاع من أية مجموعة بيانات خاصة بصورة ثنائية الأبعاد. أما الطريقة الثالثة لإيجاد صورة فتتمثل بتحميل ملف يحتوي على نموذج ثلاثي الأبعاد.
يقوم هذا النظام - الذي مازال في مرحلة التطوير - بمطابقة الاستفسارات مع الأشكال، وذلك بتوصيف كل شكل باعتباره سلسلة من الدوال الرياضياتية mathematical functions : التوافقية harmonic في حالة الصور الثلاثية الأبعاد، والمثلثية trigonometric للتمثيلات الثنائية الأبعاد. ثم يولد النظام من كل دالة قيم «بصمات أصابع» مميزة للشكل المرتبط بها. تسمى هذه البصمات بالتواقيع signatures الكروية أو الدائرية. وينتج من استعمال هذه الواصفات(9) descriptors فائدتان: فهي قابلة للمطابقة مهما كان توجه الأشكال الأصلية وأشكال البحث، وهي سريعة الحوسبة والمطابقة.
وضع جميع الوسائط على الشبكة(******)
تستغرق شبكة الإنترنت كما هائلا من المعلومات، ومع ذلك فإن قدرا كبيرا مما ينشر اليوم - من نصوص وصوتيات وڤيديويات - غير متاح مباشرة (على الخط). فالمحتوى باهظ التكلفة ويسعى منتجوه إلى ممارسة أعلى درجات التحكم فيه، ولذلك يفرضون قيودا صارمة على إمكان النفاذ إليه. على أن هذه الحال آخذة في التغير مع تنامي التعاون بين الجهات المنتجة للمحتوى (مثل Time-Warner وSony وHearst وElsevier وغيرها) وأصحاب محركات البحث المعروفة (لاسيما الثلاثة الكبرى منها: Yahoo وGoogle وMSN). ويتمثل التحدي في إيجاد علاقات تجارية مفيدة لكلا الطرفين.
ولو وجدت اتفاقيات تعاقدية بين شركات نشر الوسائط media publishers وشركات محركات البحث لكانت تهيئة مواقع منتجي المحتوى التي يتعين على محركات البحث تصفحها وفهرستها ميسورة نسبيا. لنفترض أن ثمة مستخدما لمحرك بحث يتعقب مفردة معينة لأحد منتجي المحتوى؛ عندئذ توجِّه وصلة الربط هذا المستخدم للنفاذ إلى الموقع المناسب، حيث تتاح له خيارات عديدة للحصول على كامل المحتوى.
وفي بعض المشروعات الرائدة، تسمح الجهات المزودة للمحتوى بفهرسة منتجها الخام. فعلى سبيل المثال أطلق النظام أمازون Amazon مشروعا تجريبيا يستطيع الزبائن من خلاله قراءة النصوص الكاملة للكتب. كذلك أدخل النظام گوگل Google، منذ عهد قريب، خدمة للناشرين والمكتبات الكبرى لتقديم ما بحوزتها من كتب للفهرسة، ليكون بالإمكان ضمها إلى الفهارس التي ينتمي إليها محتوى الوب.
وثمة مخاوف تتصل بذلك في مجالي الصوتيات والڤيديويات، فدور الإنتاج لا تبدي استعدادا لاعتماد قنوات جديدة للتوزيع، ومع ذلك تظهر هنا أيضا نماذج تسويق بديلة، إذ روجت الشركة Apple لمخزنها الموسيقي iTunes بقوة، في الوقت الذي أعلنت فيه الشركتان Dell وHewlett-Packard عن تقديم خدمات إيصال موسيقي.
ويرى المطلعون على الصناعة أن من المرجح أن تؤدي محركات البحث في نهاية المطاف دور «موزعات مركزية» hubs أو بوابات لأنواع المحتوى كافة، وأنه سيكون بإمكانها توليد الفهارس والاحتفاظ بها، إضافة إلى توفير خدمات البحث لمجموعات مختلفة من الوسائط المنشورة. وفي غضون ذلك، سوف يركز مزودو المحتوى على أعمالهم الخلاقة الأساسية.
ما تلك الأغنية؟(*******)
حتى الموسيقى دخلت مجال محركات البحث. وتتمثل الصعوبة الأساسية لاستحضار لحن معين في كيفية صوغ الاستفسار البحثي صوغا أمثليا. على أن من بين الحلول استعمال علامات موسيقية (نوتة) أو لغة استفسار تعتمد على التدوين الموسيقي، تتيح للمستخدم تحديد لحن ما بإدخال رموز حرفية رقمية alphanumeric characters تمثِّل النغمة الموسيقية. ومع ذلك فإن معظم المستخدمين يستصعبون تحويل الأغنية التي يرغبون في استحضارها إلى علامات موسيقية.
وللتغلب على هذه المشكلة صمم مشروع المكتبة الرقمية في نيوزيلندا المنظومة المسماة ميلديكس Meldex التي توفر طريقتين لاستحضار الموسيقى [انظر الشكل في الصفحة المقابلة]، أولاهما أن يدون المستخدم استفساره بعزف نغمات على لوحة المفاتيح الافتراضية للمنظومة، أو أن يدندن الأغنية المطلوبة من خلال مجهار الحاسوب؛ والأخرى أن يقدم المستخدم كلمات الأغنية على شكل استفسار نصي، أو أن يجمع بين البحث النصي والبحث المعتمد على اللحن.
وكان لابد، قبل إمكان تشغيل منظومة ميلديكس، أن يتغلب الباحثون في نيوزيلندا على عدد من العقبات المتصلة بكيفية تحويل الاستفسار الموسيقي إلى شكل يمكن حوسبته بسهولة، وبكيفية اختزان المدونات الموسيقية للأغنيات رقميا والبحث فيها، وكذلك بكيفية مطابقة تلك الاستفسارات بالبيانات الموسيقية المختزنة. وفي هذه المنظومة يجري تعرّف العلامات الموسيقية والطبقات الصوتية في استفسار ما بطريقة تدعى التكمية quantization. ثم تتبين المنظومة الطبقات الصوتية آليا، باعتبارها دالة زمنية، عن طريق تحليل بنية شكل الموجة، وتحوِّلها إلى «نوتة» رقمية تختزنها المنظومة مع الأعمال الكاملة في قاعدة بيانات المدونات الموسيقية. وباستعمال خوارزميات مطابقة تسلسلية للبيانات data string-matching algorithms تستحضر منظومة ميلديكس الاستفسارات الموسيقية وقد تحولت إلى نوتة تطابق نوتة قاعدة بيانات المدونات الموسيقية. وبالنظر إلى احتمال وجود بعض الأخطاء في الاستفسارات يتعين أن تحتوي دالة المطابقة التسلسلية على قدر معين من «الضجيج».
استشراف المستقبل(********)
ويُتوقع ألا تكون خدمات البحث المستقبلية مقصورة على منصات الحوسبة التقليدية، بل يلاحظ أن المهندسين دمجوها فعلا ضمن بعض منظومات الاتصالات النقالة، فباتت منظومات اتصالات وحوسبة telematics في آن معا. ومن المحتمل أيضا أن يُدخلوا قدرات البحث في أجهزة الترفيه من مثل: محطات اللعب والتلفزة والمنظومات الصوتية المجسمة ذات التقانة العالية. وهكذا ستؤدي تقانات البحث أدوارا إضافية غير منظورة، غالبا ما تكون عن طريق خدمات الوب الذكية، كجزء من فعالياتنا وأنشطتنا الحياتية: مثل قيادة السيارة والاستماع الى الموسيقى وتصميم المنتجات.
ومن التغييرات الكبيرة الأخرى المنتظرة فيما يتصل بالبحث في شبكة الوب ما سيتمحور حول عقد صفقات عمل جديدة من شأنها أن توسع الانتشار المباشر (على الخط) لكم هائل من المواد المنشورة، التي تتضمن النصوص والمواد الڤيديوية والصوتية التي يتعذر على مستخدمي الحاسوب النفاذ إليها حاليا [انظر الإطار في هذه الصفحة].
وخلافاً لجميع المقاييس، ستغدو تقانات الجيل القادم البحثية منظورة وغير منظورة في الوقت نفسه من حيث أداؤها للأعمال المتزايدة التعقيد: فالدور المنظور سيتمثل في توافر أدوات أعلى قدرة تجمع بين وظائف البحث المختلفة وعمليات التنقيب في البيانات datamining - وهي منظومات متخصصة تتحرى اتجاهات أو شذوذات في قواعد البيانات من دون أن تعرف معنى البيانات فعليا. أما الدور غير المنظور للتقانات القادمة فسينطوي على تطوير عدد كبير جدا من عمليات البحث الذكية باعتبارها خدمات خاصة مطلوبة لمختلف التطبيقات والمنصات. ويُتوقع للتطورات في مجال تقانات التنقيب في البيانات وتقانات واجهات المستخدم أن تجعل من الممكن، آليا وباستعمال منظومة وحيدة، توفير سلسلة انسيابية continuum من خدمات البحث المعقدة المتصلة تلقائيا بوظائف بصرية تآثرية.
سَمِّ ذلك اللحن: إن صوغ استفسار لتحديد أغنية أو لحن ما في قاعدة بيانات موسيقية مبنية على الإنترنت ليس بالأمر السهل على من ليست لديه الدربة الموسيقية الاحترافية. النظام Meldex من مشروع نيوزيلندا للمكتبة الرقمية يمكِّن المستخدم من دندنة الجزء الذي يتذكره من اللحن عبر مجهار حاسوب شخصي، أو تدوين بعض كلماته، فتتعرف البرمجياتُ الأغنية واللحن المطابق لها بسرعة.
وبالاستفادة من تطور تقنيات التعلم والتصنيف الحاسوبي الذي سيكون قادرا على تحقيق درجة أعلى من الإحاطة بمحتوى الوب وتصنيف هذا المحتوى، ينظر المبرمجون الى ابتكار وظائف تنقيب بصرية سهلة الاستعمال، تضيف بُعدا تآثريا مرئيا إلى عملية البحث. ويتوقع محللو الصناعة الحاسوبية توافر أشكال عديدة من إمكانات التنقيب، طُوع كل منها للبحث في محتوى بنية متخصصة في مجال معين من البيانات (مثل الموسيقى أو علم الحياة). ويعتزم مهندسو البرمجيات إحداث هذه الوظائف بسرعة، استجابة لاحتياجات المستخدم، مع علمهم بما سيترتب عليهم من معالجة كمٍّ هائل من المعلومات. وعندئذ سيتمكن جمهور الباحثين في الوب من النفاذ إلى مخازن للبيانات رحيبة وغنية، وذلك باستعمال واجهات بصرية تركز على إحداث أنماط شاملة في المعلومات، وليس الاكتفاء باستنباط سجلات إفرادية. وفي آخر الأمر، سوف يجد مستخدمو الحواسيب صعوبة في تعيين بداية عملية البحث وبداية إدراك المحتوى المطلوب.
المؤلف
Javed Mostafa
أستاذ مساعد في المعلوماتية بجامعة إنديانا، ومن أسرة تحرير مجلة ACM Transactions on Information Systems، ومدير مختبر بحوث المعلوماتية التطبيقية في ولاية إنديانا.مراجع للاستزادة
Information Storage and Retrieval. Ben Ami Lipetz in Scientific American, Vol. 215, No. 3, pages 224-242; September 1966.
Exploring the Web with Reconnaissance Agents. H. Lieberman, C. Fry and L. Weitzman in Communications of the ACM, Vol. 44, No. 8, pages 69-75; August 2001.
Web Search-Your Way. E. Glover et al. in Communications of the ACM, Vol. 44, No. 12, pages 97-102; December 2001.
Rover: Scalable Location-Aware Computing. S. Banerjee et al. in Computer, Vol. 35, No. 10, pages 46-53; October 2002.
A Search Engine for 30 Models. T. Funkhouseret al. in ACM Transactions on Graphics, Vol. 22, No. 1, pages 83-105; January 2003.
Simulation Studies of Different Dimensions of Users' Interests and Their Impact on User Modeling and Information Filtering. Javed Mostafa, S. Mukhopadhyay and M. Palakal in Information Retrieval, Vol. 6, No. 2, pages 199-223; April 2003.
For the URLs of the Web sites referred to in the article, see www.sciam.com/ontheweb
Scientific American, February 2005