كلمات كليدي : موتور جستجو، جويشگر، ابرموتور، فراموتور، ورونيكا، آرچي، ياهو، گوگل، آلتاويستا، اسپايدر
نویسنده : مصطفي همداني
موتورهای جستجو، خود یک سایت اینترنتی است[1] که بهعنوان یکی از ابزارهای بازیابی اطلاعات رایگان مطرح است.[2] که از طریق وارد کردن آدرس آنها در مرورگرهای اینترنتی فراخوان میشوند.[3]
موتورهای جستجو، ابزارهای قدرتمندی هستند که به کمک شما میآیند و هر آنچه را که میخواهید، نام آن را در موتور تایپ کرده و دستور جستجو داده تا در صورت وجود در اینترنت آن را جستجو کرده، به سرعت پیدا کرده و به شما تحویل میدهند.[4]
ابزارهای جستجو، اطلاعات را از محیط شبکه جمعآوری، نمایهسازی، طبقهبندی، جستجو و در اختیار کاربر قرار میدهند. این ابزارها به صورتی منظم روزآمد میشوند تا با چالشهای وب در رابطه با افزایش سریع منابع همگام باشند.[5]
تاریخچه
در سال 1990 اولین ابزار کاوش اینترنت توسط آلان امتیچ در دانشگاه مککیل تحت عنوان آرکی (Archie) توسعه یافت. آرکی از طریق نمایهسازی فایلهای موجود در سایتهای FTP با پروتکل انتقال فایل، امکان جستجو و بازیابی فایلها در محیط اینترنت را برای کاربران فراهم میساخت. این ابزار تنها فایلهای اینترنتی را بازیابی میکردند نه متن و اسناد را. در سال 1993 در دانشگاه نوادا برای بازیابی اسناد و متون در سرورهای گوفر، نظامی مشابه آرکی تدوین شد که "ورونیکا" نام داشت که البته این هم بدون قدرت بازیابی تصویر و بدون پیوندهای فرامتنی بود. گوگل از سال 1997 توسط دانشگاه استانفورد و یاهو در سال 1994 توسط دو دانشجوی دکترای مهندسی برق به نامهای دیوید فیلو و جری یانگ در دانشگاه استانفورد ابداع شد.[6]
در حالی که آگاهی عموم از وجود وب روبه افزایش بود، نیاز به ابزارهای جستجوی این شبکه و افزایش کارایی آنها در کانون توجه قرار گرفت. ایده جستجوی عنکبوتی که در آن نرمافزارهای خودکار پیوندهای موجود در شبکه را دنبال میکردند، معرفی گردید. از یک وبسایت به وبسایت دیگر میرفتند و آنها را در نمایه خود ذخیره میکردند. در سال 1994 و 1995 سه موتور جستجوی آلتاویستا، لایکوز (Lycos) و وبکرالر (WebCrawler) به وجود آمدند. در همین سالها موتورهای راهنما نیز پا به عرصه جستجو در شبکه گذاشتند که روش نمایهسازی و بازیابی متفاوت از موتورهای جستجو در شبکه گذاشتند که روش نمایهسازی و بازیابی متفاوت از موتورهای جستجو دارند. این رقابتها در اواخر دهه نود میلادی و تلاشهای صورت گرفته منجر به پیدایش و عرضه موتورهای جستجوی دیگری از آن جمله معرفی موتور جستجوی گوگل (Google) گردید.[7]
انواع موتورهای جستجو
1. موتورهای دایرکتوری (فهرست موضوعی = Directory)؛ این موتورها تنها سرفصلها و عناوین موضوعات را جستجو میکند (مانند یاهو).[8] این جستجو، شبیه جستجو در فهرست یک کتاب است.[9]
موتورهای دایرکتوری (راهنما) یک تفاوت اساسی با موتورهای جستجوی اسپایدری که در ادامه ذکر میشوند دارند و آن بهکارگیری عنصر انسانی در جمعآوری، ذخیره و نگهداری اطلاعات میباشد. راهنماها توسط افراد متخصص خلق و نگهداری میشوند و در حالیکه موتورهای جستجو نمایهسازی را به صورت خودکار و توسط نرمافزارهایی که روبوت نامیده میشود انجام میدهند.
· مزیتهای اصلی موتورهای راهنما
الف) موتورهای راهنما شامل منابع کمتری در مقایسه با موتورهای جستجو میباشند.
ب) بسیاری از موتورهای راهنما، منابع انتخابی را رتبهبندی، تفسیر و طبقهبندی میکنند.
ج) احتمال بازیابی نتایج مربوط افزایش مییابد.[10]
· نقاط ضعف موتورهای راهنما
الف) در سازماندهی اختیاری منابع که روش اصلی موتورهای راهنما است، یک موتور راهنما ممکن است منابع را به گونهای طبقهبندی کند که متفاوت از موتور راهنمای دیگر باشد. به این ترتیب نمیتوان از یک الگوی واحد در همه موتورهای راهنما برای ارزیابی استفاده کرد.
ب) انتخاب، رتبهبندی و طبقهبندی صفحات وقتگیر و هزینه زیادی را تحمیل میکند. به این ترتیب نهتنها نمیتوان منابع جدید را به سرعت اضافه نمود، در نتیجه منابع بازیابی شده از موتورهای جستجو روزآمد نیستند.
ج) افراد با ذهینت خود در رابطه با مفید بودن یا نبودن منابع تصمیمگیری میکنند، به این ترتیب آنچه که از طرف یک نفر ممکن است مفید باشد از طرف شخص دیگر مفید نباشد و در اهنما قرار نگیرد.[11]
· تعداد موتورهای راهنما در مقایسه با موتورهای جستجو و ابرموتورها زیاد نمیباشد ولی مهم ترین آنها عبارتاند از:[12]
Galaxy (http://galaxy.Com)
HotBot Directory (http://hotbot. Lycos.Com)
LookSmart (http://www.looksmart.Com)
Open Directory Project (http://dmoz.Org)
Yahoo! (http://www.yahoo.Com)
Google Directory (www. google.Com)
[باید توجه کرد که یاهو و گوگل هم دارای قدرت راهنمای موضوعی هستند و هم جستجوی اسپایدری را میتوانند انجام دهند؛ به همین جهت نام آنها در هر دو گروه ذکر میشود.]
2. موتورهای متن کامل (اسپایدری)؛ این موتورها از اسپایدرها استفاده میکنند برای فهرست میلیونها و گاهی بیلیونها صفحه[13] این جستجو از طریق شاخصی قابل جستجو (Searchable Index) است و در آن کلیدواژهها را وارد میکنید،[14] که شبیه نمایه موضوعی آخر کتابها است.
موتورهای جستجو انواع مختلفی دارند: از موتورهای جستجوی بینالمللی بسیار بزرگ تا موتورهای جستجوی کوچکتری که فقط با سایتهای کشورهای خاصی سروکار دارند تغییر میکنند. در جهان بیش از سیصد موتور جستجو وجود دارد،[15] ولی ترافیک اصلی جستجو بر روی تعداد اندکی از این خدمات میباشد که بیش از 90 درصد از جستجوهای شبکهای توسط آنها انجام میشود، مانند:[16]
Google (www.Google.com)
All the Web (www.alltheweb.com)
Altavista (www.altavista.com)
Yahoo (www.Yahoo.Com)
Teoma (www.Reoma.Com)
MSN (www.msn.Com)
Ask Jeeves (www.Askjeeves.Com)
Hot Bot (www.Hotbot.Com)
در اصطلاح علمی معمولاً وقتی میگویند موتور جستجو، منظور همین قسم است نه موتورهای راهنما.[17]
ساختار موتورهای جستجو
به طور کلی همه موتورهای کاوش فرایند جستجو و بازیابی اطلاعات از طریق برقراری ارتباط میان سه جزء اصلی تشکیلدهنده خود یعنی رباتها، پایگاه اطلاعاتی و نرمافزار بازیابی اطلاعات [که کاربر از طریق رابط کاربری به آن مرتبط میشود] انجام میدهند.[18]
ساختار معمول یک موتور جستجو در تصویر شماره 2 نشان داده شده است.[19]
خزنده در نمودار فوق، توسط دیگر منابع،[20] همان ربوت نامیده شده است.
.روبوتها؛ موتورهای جستجو از نرمافزارهایی برای جستجوی شبکه و ذخیرهسازی آنها در نمایه خود استفاده میکنند که روبوت(Robot) نامیده میشوند. روبوتها، برنامههای نرمافزاری هستند که در شبکه حرکت میکنند[21] و صفحات جدید یا صفحات روزآمد شده را بازیابی و آنها را به یک سرور اصلی که صفحات در آن نمایه میشود ارسال میکنند. نمایه به صورتی متمرکز عمل میکند و به پرسشهایی که از سراسر شبکه ارسال میشود پاسخ میدهد.[22]
یکی از مشکلاتی که در این روش نمایهسازی وجود دارد این است که بسیاری از صفحاتی که حتی از نظر کابران مفید نیز میباشند، در صورتی که به صفحات دیگر پیوند نخورده باشند توسط روبوتها مورد کاوش قرار نگرفته و بنابراین در نمایه نیز وارد نمیشوند. مشکل دیگر این است که موتورهای جستجو از چندین روبوت برای نمایهسازی استفاده میکنند، به این ترتیب ممکن است یک صفحه چندین بار نمایه شود.[23]
.رابط کاربر (User Interface) در موتور جستجو؛ بخشهای مختلف نظامهای بازیابی اطلاعات و از آن جمله موتورهای جستجو در معرض دید کاربران قرار ندارد. آنچه که کاربران میبینند و با آن تعامل میکنند رابط کاربری است که در نظامهای بازیابی اطلاعات قرار دارد.[24]
.بخشها و انواع رابط کاربری در موتورهای جستجو؛ رابط کاربر از دو بخش تشکیل میشود، اول جعبه جستجو ()(Search Box) است که کاربر کلیدواژهها یا عبارتهای مورد نظر خود را در آن وارد میکند و دوم رابطی است که اقلام بازیابی شده از طریق موتور جستجو در آن پدیدار میشود.[25]
رابط کاربری بر دو نوع است:
الف) رابط کاربری برای جستجوی ساده (Basic Search)؛ این رابط در اکثر نظامهای اطلاعاتی رایگان از جمله موتورهای جستجوی (گوگل، آلتاویستا، آلدوب و غیره) و نظامهای اطلاعاتی غیررایگان از جمله پایگاههای اطلاعاتی (ابسکو، ساینس دایرکت، پروکوئیست و غیره) اولین صفحهای است که در مقابل دیدگان کاربر قرار میگیرد. این رابط اغلب زیادی را در اختیار کاربر قرار نمیدهد و به هدف استفاده کاربران مبتدی طراحی شده است.[26]
ب) رابط کاربری برای جستجوهای پیشرفته (Advanced Search or Power Search)؛ این رابط، مناسب کاربران حرفهای میباشد. در این رابط، کاربران میتوانند با گزینههای زیادی که در نظر گرفته شده است اقلام مربوطتری را بازیابی کند. در رابط کاربری پیشرفته جستجو هم از طریق منو و هم از طریق خط فرمان صورت میگیرد و در آن امکاناتی از قبیل جستجوی عبارتی، مجاورت و کوتهنوشت در نظر گرفته شده است. نتایج همچنین با کلیدواژههایی که باید در متن باشند و یا نباشند قابل فیلتر کردن میباشند یا کلیدواژهها را میتوان به فیلدی خاص از جمله آدرس، عنوان، زبان، حوزه جغرافیایی، قلمرو اینترنتی و زمانی خاص محدود کرد.[27] از جمله این امکانات میتوان به محدودگرهای زمانی، زبانی، مکانی، پدیدآورنده، چکیده، عنوان، منبع و غیره اشاره نمود.[28]
ضعفها و سوگیری موتورهای جستجو در ارائه نتایج
1. موتورهای جستجوی موجود، توانایی نمایهسازی و ذخیره اصل مدارک را به صورت کامل ندارند. زیرا موتورهای جستجو بخش کوچکی از اطلاعات مورد نیاز را از وبسایتهای موجود در شبکه بازیابی و آنها را به صورت محلی ذخیره میکنند.[29]
2. پژوهشهای بسیاری نشان میدهد که موتورهای جستجو به دلایل مختلف، در بازیابی کلیدواژههای یکسان، به نحو متفاوتی عمل میکنند. بنابراین جستجوی یک یا چند کلیدواژه خاص در یک موتور جستجو میتواند نتایج متفاوتی از اجرای دقیق همان جستجو در یک موتور جستجوی دیگر داشته باشد. دستورالعمل مناسب در این زمینه این است که اگر جستجویی را از طریقی یک موتور جستجو انجام دادید و نتیجه دلخوه را نگرفتید، آن را در سایر موتورهای جستجو تکرار نمایید.[30]
3. همچنین تحقیقات نشان میدهد، علاوه بر عدم توانایی نمایهسازی کامل منابع موجود در وب توسط موتورهای جستجو این ابزارها دارای سوگیریهای نیز میباشند برای مثال موتورهای جستجویی که در کشور آمریکا قرار دارند، تمایل به نمایهسازی وبسایتهای آمریکایی و موضوعاتی که بیشتر مورد علاقه آمریکاییان میباشد دارند.[31]
معیارهای انتخاب و ارزیابی موتور جستجو
1. اندازه پایگاه اطلاعاتی در اختیار موتور؛ حجم صفحاتی از وب که در پایگاه نمایه شده است بستگی به این اندازه دارد.
2. عمق نمایهسازی؛ که بخشی از صفحه چون کلمات و سطور اول یا کل آن را نمایه کند.
3. قدرت جستجو؛ که ضعیف باشد یا پیشرفته و با امکان گزینشهای مختلف.
4. روزآمد بودن اطلاعات؛ برخی موتورها هر 20 روز یا یک ماه از طریق رباتها اطلاعات پایگاه خود را روزآمد میکنند و برخی کمتر یا بیشتر؛ که البته این سیاست معمولاً فاش نمیشود و بررسیهای آماری آن را کشف میکند.
5. تعداد پیوندهای کور؛ روزانه هزاران صفحه وب، آدرسشان از بین میرود یا تغییر میکند که کاربر با صفحه "404 file not found" مواجه میشود، هرچه این پیوندها کمتر نمایه شوند امتیاز است.
6. اولویت نمایش؛ هرچه نتایج مرتبطتر را در ابتدا نمایه کنند، یک امتیاز برای موتور محسوب میشود.
7. سادگی و قابل فهم بودن رابط کاربری؛
8. سرعت بازیابی اطلاعات؛
9. حذف نتایج تکراری؛
10. امکان ترجمه صفحات وب؛
11. امکان منع بازیابی سایتهای غیراخلاقی؛[32]
12. امکان جستجوی اطلاعات چندرسانهای؛ مانند انیمیشن، موسیقی، کلام، جلوههای صوتی، عکسهای رنگی یا سیاه و سفید، فیلم و ... . در موتور جستجوی (www.alltheweb.com) میتوان از طریق واسطهای جستجو [رابطکاربری] جداگانه و وارد کردن کلیدواژه مورد نظر، قطعات صوتی و تصویری و ویدیویی را بازیابی کرد.[33]
فراموتورهای جستجو
از آنجا که سیاستهای نمایهسازی و علایق در مورتورهای جستجو فرق میکند و هر کدام با توجه به نیازهای کاربران خود منبعی را در نمایه خود قرار میدهند که بیشترین کاربران را داشته باشند. بدین ترتیب جهت یک جستجوی بهتر میتوان از چندین موتور جستجو بهجای یک موتور جستجو استفاده نمود. راهکار دیگر استفاده از فراموتورهای جستجو میباشد که در آن چندین موتور جستجو به صورت یکجا مورد کاوش قرار گرفته و پاسخها در یک صفحه در اختیار کاربر قرار میگیرند.[34]
این ابزار جستجو را ابرموتورهای جستجو (Meta Search Engines)[35] و موتورهای فراجستجو[36] نیز مینامند.
اولین ابرموتور به نام "Meta Crawler" در سال 1995 توسط اریک سلبرگ ابداع شد که میتوانست در پایگاه 6 موتور جستجو کاوش کند.[37]
تا سال 2001 بیش از 4.2 میلیارد صفحه وب در شبکه جهانی موجود بوده است.[38] کثرت میلیاردی صفحههای موجود در شبکه و کمبود فضای ذخیرهسازی و همچنین سیاستهای نمایهسازی و علایقی که این موتورها به پوشش موضوعاتی خاص و حذف موضوعات دیگر دارند باعث شده است تا برای یک موتور جستجو نمایهسازی کل منابع موجود در وب را نمایهسازی و قرار دادن آنها در پایگاه خود غیرممکن باشد. به این ترتیب، استفاده از چندین موتور جستجو میتواند به بازیابی منایع بیشتر و متفاوت از یکدیگر منجر شود. ولی استفاده از چندین موتور جستجو باعث اتلاف وقت میشود و علاوه بر آن نیاز به یادگیری اصول جستجوی هر کدام از طرف کاربر دارد.
ابرموتروهای جستجو میتوانند ابزار جایگزینی مفیدی باشند. برخلاف موتورهای جستجو و راهنماهای موضوعی، ابرموتورها خود به نمایهسازی منابع اینترنتی نمیپردازند و در واقع از خود هم نمایهای ندارند. به جای آن، ابرموتورها، پرسش کاربر را به صورت همزمان به چندین موتور جستجو ارسال میکنند و نتایج بازیابی شده از آن موتورها را از طریق رابط خود در اختیار کاربر قرار میدهند.[39]
ابرموتورها برخلاف موتورها و راهنمای موضوعی، خود پایگاه اطلاعاتی ندارند بنابراین خود مستقلاً به جمعآوری اطلاعات از طریق ربات [در موتورهای جستجو] یا نیروی انسانی [در دایرکتوریها] نمیپردازند بلکه اطلاعات را به کمک موتورها و از پایگاههای آنها بازیابی میکنند.
بسیاری ابرموتورها با حذف نتایج تکراری در مورد چند موتور کاوش، نتایج را تلفیق و یکپارچه نمایش میدهند.[40]
.نکات قوت و ضعف ابرموتورهای جستجو؛[41] نقطه قوت اصلی ابرموتور، جستجوی همزمان چندین موتور جستجو و اعمال گزینههای مختلف جستجو که برای رتبهبندی نتایج موجود است میباشد. به علاوه، اکثر ابرموتورها میتوانند اقلام تکراری را که موتورهای جستجو بازیابی میکنند را حذف نمایند.
اما در عین حال ابرموتورها مشکلاتی هم دارند و این مشکلات باعث شده است تا این ابزارها مورد توجه زیاد قرار نگیرند. اگرچه ابرموتورها دارای صفحه جستجوی پیشرفته میباشند ولی ممکن است با گزینههای جستجوی پیشرفته در موتورهای کاوش هماهنگ نباشند و لذا برای کاربران پیشرفته و حرفهای مشکل ایجاد کنند. به علاوه ابرموتورهای جستجو معمولاً کاوش جامعی را از موتورهای جستجوی اعلام شده به عمل نمیآورند. به عبارت دیگر آنها تمام نتایج بازیابی شده در موتورهای دیگر را نمایش نمیدهند و فقط 10 تا 100 قلم نخست بازیابی شده را در هر موتور ارائه مینمایند. بسیاری از ابرموتورها، اجازه دسترسی به نمایه موتور جستجوی گوگل که در واقع یکی از بهترین موتروهای جستجو میباشد را ندارند.
.مهمترین ابرموتورهای جستجو؛ لیست کاملی از ابرموتورهای جستجو را میتوان از طریق راهنماها مانند یاهو به دست آورد اما برخی از مهمترین آنها عبارتاند از:[42]
Dogple (www.Dogple.Com)
Highway 61 (www.Higwa61.Com)
Kartoo (www.Kartoo.Com)
Mamma (www.Mamma.Com)
MetaCrawler (www.Metacrawler.Com)
ProFusion (www.Profusion.Com)
Vivisimo (www.Vivisimo.Com)