
موتور جستجوی گوگل چگونه کار میکند؟
برای یک جستجوی معمولی، هزاران و شاید میلیونها صفحهی وبسایت با اطلاعات مرتبط وجود داشته باشد.
(Crawling and Indexing)
همین الان که دارید این مطلب را میخوانید، وبسایت گوگل در حال استفاده از خزندههای (کرالر) جستجوگر جهت سازماندهی اطلاعات از صفحات وب و دیگر محتوای قابل دسترس در ایندکس جستجو میباشد.
جستجوگر چگونه اطلاعات را سازماندهی میکند؟
قبل از اینکه چیزی را در گوگل جستجو کنید، خزندههای (کرالر) وبسایت اطلاعات را از صدها میلیارد وبسایت گرد هم میآورند و در ایندکس جستجو مرتب میکند.
موارد بنیادین جستجو:
فرآیند کرالینگ یا خزندهی عنکبوتی با یک فهرست از آدرس وبسایتهایی شروع میشود که در کرالها و نقشههای سایت قبلی توسط مالکین وبسایت ارائه شدهاند. حین اینکه خزندههای گوگل از این سایتها بازدید میکنند، از لینکهایی بر روی آن سایتها استفاده میکنند تا دیگر صفحات را بیابند. این نرم افزار توجه خاصی به این وبسایتها میکند و آنها را تبدیل به سایتهای موجود و پیوندهای مرده (Dead links) میکنند. برنامههای کامپیوتری مشخص میکنند که بر روی کدام سایت فرآیند کرالینگ باید صورت گیرد، هر چند وقت یکبار باید کرال شود و چندین صفحه از آن سایت باید آورده شود.
پیدا کردن اطلاعات از طریق کرالینگ
اینترنت نظیر یک کتابحانهی همواره در حال رشد همراه با میلیاردها کتاب و سیستم آرشیو مرکزی است. ما جهت یافتن صفحات عمومی در شبکه موجود از نرم افزارهایی استفاده میکنیم که به آنها کرالر و یا خزندهی عنکبوتی گفته میشود. خزندهها (کرالرها) به صفحات وب نگاه میکنند و لینکهای آن صفحات را دنبال میکنند درست مثل حالتی که شما از یک وبسایت دیدن میکنید و محتوای آنرا بررسی میکنید. آنها از یک لینک به لینک دیگر میروند و اطلاعات آن صفحات را بر روی سرورهای گوگل بر میگردانند.
سازماندهی کردن اطلاعات از طریق فهرست سازی (ایندکسینگ)
زمانی که کرالرها یک وبسایت را پیدا میکنند، دستگاههای ما محتوای صفحه را بررسی میکنند، درست مثل یک مرورگر. ما از سیگنالهای کلیدی نت برداری میکنیم، از کلیدواژهها گرفته تا بروز بودن وبسایتها و آن را در شاخص جستجو دنبال میکنیم.
شاخص جستجوی گوگل شامل صدها میلیارد صفحه وب است که حجم آن به 100 میلیون گیگابایت میرسد. این شاخص همانند نشانگر پشت جلد کتاب میباشد که برای هر کلمه یک مدخل قابل رویتی در هر ایندکس دارد. وقتی یک صفحه را نشان میدهیم، آنرا به مدخلهای تمامی کلماتی که شامل میشود اضافه میکنیم.
حالا با داشتن گراف دانش*، میخواهیم برای درک بهتر افراد، مکانها و چیزهایی که شما به آن اهمیت میدهید از تطبیق دادن کلیدواژه فراتر برویم. برای انجام این کار، ما نه تنها اطلاعات صفحات وب را مرتب می کنیم بلکه دیگر انواع اطلاعات را هم سازمان دهی میکنیم. امروزه، جستجوگر گوگل میتواند به شما برای جستجوی میلیونها کتاب از کتابخانههای مهم دنیا به شما کمک کند، زمانهای سفر از آژانسهای مسافرتی محلی را بیابد و یا به شما برای مسیریابی کمک کند.
* توضیح: گراف دانش (به انگلیسی: Knowledge Graph) یک پایگاه دانش است که توسط گوگل در موتور جستجوی وب گوگل استفاده میشود و به صورت جستجوی مفهومی عمل میکند که اطلاعاتش را از پایگاههای داده بسیاری کسب میکند. این پنجره از سال ۲۰۱۲ در ایالات متحده آمریکا فعال شد و در ۱۶ می ۲۰۱۲ بر روی سرویس جهانی گوگل فعال شد. این پنجره اطلاعات گستردهای دربارهٔ موضوع مورد جستجو تهیه میکند و هدف آن کمک به کاربران برای رسیدن به اطلاعات مورد نظرشان در کمترین زمان ممکن است.
الگوریتمهای جستجو
سیستم رتبه بندی گوگل از طریق الگوریتمهای جستجو صدها میلیارد صفحات وب را در قسمت جستجو مرتب میکند تا اینکه بتواند در کسری از ثانیه نتایج مرتبط و مفیدی ارائه دهد.
الگوریتمهای جستجو چگونه کار میکنند؟
قطعا به هنگام جستجو بدنبال پاسخ هستید نه میلیاردها صفحات وب بنابراین سیستم رتبهبندی گوگل صدها میلیارد صفحه وب را در نشانگر جستجو منظم میکند تا نتایجی مفید و مرتبط را در کسری از ثانیه ارائه دهد.
این سیستمهای رتبهبندی از چندین الگوریتم تشکیل شدهاند که چیزی را که بدنبال آن هستید را تحلیل میکند و تشخیص میدهد که چه اطلاعاتی را به شما برگردانند و همچنان که جستجو را تکامل دادهایم تا آنرا مفیدتر کنیم، الگوریتمهای جستجو را ظریفتر کردهایم تا جستجوها را ارزشیابی کنند و نتایج را با جزئیات ریزتری برای سرویس هر چه بهتر به ما ارائه دهند.
در اینجا به چندین روش استفاده گوگل از الگوریتمهای جستجو برای خروجی مفیدتر اشاره میکنیم.
تحلیل کلمات:
فهم معنی عبارت مورد جستجوی برای دادن پاسخ مناسب بسیار مهم و اساسی است. بنابراین جهت یافتن صفحات با اطلاعات مرتبط، اولین قدم در واقع تحلیل کردن معنای عبارت مورد جستجو میباشد. ما با ساختن مدلهای زبانی سعی میکنیم که معنای رشته از کلمات را در قسمت جستجو بفهمیم.
این کار شامل قدمهایی به ظاهر ساده میشود نظیر تفسیر اشتباهات املایی و سعی برای درک نوع عبارت مورد جستجو با بکار بردن آخرین جستجو بر درک طبیعی زبان. بطور مثال، سیستم کلمات مترادف به ما کمک میکند تا منظور شما را متوجه شویم، حتی اگر یک کلمه چندین معنا داشته باشد. این سیستم بیش از 5 سال طول کشید تا توسعه یابد و بطور چشمگیری 30 درصد نتایج جستجوها را در حوزهی زبانی بهبود بخشیده است.
ما همچنین سعی داریم بفهمیم که شما بدنبال چه دسته بندی از اطلاعات هستید. آیا در جستجوی چیز خاصی هستید یا خیلی کلی و وسیع است؟ آیا کلماتی نظیر "نقد" یا "عکس" یا "ساعت کاری" وجو دارند که نشاندهندهی اطلاعات خاصی در این جستجو هستند؟ آیا شما به دنبال کلیدواژههایی هستید که در آن روز بخصوص جستجو شده اند؟ یا آیا بدنبال شرکتها و دفاتری هستید که در نزدیکی شما قرار دارند و دربارهی آنها اطلاعات محلی میخواهید؟
تطبیق دادن با جستجوی شما:
در قدم بعدی، ما بدنبال صفحات وبی میگردیم که حاوی اطلاعاتی هستند که با جستجوی شما منطبق است. هنگامی که دارید دنبال چیزی میگردید، در یک سطح بسیار پایهای، الگوریتمهای بدنبال اصطلاحات مورد نظر شما میگردد تا صفحات مناسبی برای شما پیدا کند. آنها تحلیلی میکنند که این اطلاعات هر چند وقت یکبار و کجاها در صفحات ظاهر میشوند، حال چه بعنوان عنوان یا سر تیتر یا در بدنهی متن.
در کنار منطبق کردن کلیدواژگان، الگوریتمها بدنبال سرنخهایی هستند برای اندازهگیری نتایج بالقوهی جستجو. زمانی که شما بدنبال کلمه "سگ" میگردید، احتمالا بدنبال یک وبسایت نیستید که این کلمه صدها بار در آن تکرار شده باشد. ما سعی میکنیم بفهمیم که آیا این صفحه شامل پاسخ جستجوی شما است یا خیر و نه اینکه فقط مورد جستجوی شما را تکرار کنیم. بنابراین الگوریتمهای جستجو مرتبط بودن صفحات جستجو را تحلیل میکنند نظیر تصاویر و عکسهای سگ، فیلمها یا حتی فهرستی از نژادها سگ. دست آخر کنترل میکنیم که صفحه یافت شدهی مورد نظر به همان زبانی باشد که با آن جستجو کردید تا بدین ترتیب اولویت نتایج جستجو رعایت شود.
رتبه بندی صفحات مفید:
برای یک جستجوی معمولی هراران بلکه میلیونها صفحات وب موجود است که میتواند به شکل بالقوه با موضوع جستجو مرتبط باشد. بنابراین برای کمک به رتبهبندی بهترین صفحات در صفحه اول ما الگوریتمهایی نوشتهایم که میزان مفید بودن این صفحات را ارزشیابی کند.
این الگوریتمها صدها فاکتور مختلف را تحلیل میکند تا بهترین اطلاعاتی که وب می تونه ارائه بده رو پیدا کنه، از تازگی و به روز بودن محتوا گرفته تا تعداد دفعاتی که عبارت جستجوی شما ظاهر شده و اینکه آیا آن صفحه تجربهی کاربری خوبی دارد یا خیر. جهت آزمودن قابل اعتماد بودن و اصالت موضوع، به دنبال سایتهایی میگردیم که بسیاری از کاربران برای یک مورد جستجوی یکسان ارزشیابی میکنند. اگر دیگر وبسایتهای اصلی در ارتباط با موضوع لینکی داشته باشند، نشان خوبی است که بفهمیم اطلاعات مورد نظر کیفیت بالایی نیز دارد.
سایتهای اسپم زیادی وجود دارند که سعی می کنند راه خود را به رتبههای بالای نتایج جستجو باز کنند از طریق تکنینکهایی نظیر تکرار کلمات کلیدی یا خریدن لینکهایی که از رتبهی صفحه عبور می کند. این سایتها تجربهی کاربری بسیار ضعیفی ارائه میکنند و ممکن است حتی به کاربر گوگل آسیب برساند و او را گمراه کند. بنابراین ما الگوریتمهایی مینویسیم که اسپمها را شناسایی کنند و آن دسته از سایتهایی را که از راهکارهای وب مستر گوگل پیروی نمیکنند را از نتایج جستجو حذف کنند.
در نظر گرفتن متن
اطلاعاتی نظیر محل زندگی، موقعیت مکانی، تاریخچهی جستجوها و تنظیمات جستجو همگی به ما در ارائه نتایج مفیدتر و مرتبط تر کمک میکند.
ما با استفاده از نام کشور و موقعیت مکانای که دارید محتوای مرتبط را به شما ارائه می دهیم. بعنوان مثال، چنانچه شما در شهر شیکاگو هستید و کلمهی فوتبال را جستجو کنید، گوگل احتمال خیلی زیاد در ابتدا نتایجی مرتبط با فوتبال آمریکایی و تیم فوتبال آمریکایی شیکاگو برز را به شما ارائه میدهد. در حالیکه چنانچه شما کلمهی فوتبال را در شهر لندن جستجو کنید، گوگل نتایج را طوری رتبه بندی میکند که اطلاعات مربوط به لیگ برتر انگلستان در رتبهی بالاتری قرار گیرد. تنظیمات جستجو نیز نشانگر مهمی در یافتن نتایج محتمل میباشند نظیر اینکه شما زبان مورد نظری را ترجیح میدهید.
در برخی از موارد، ما شاید نتایج را با توجه به اطلاعات اخیر جستجوی شما شخصی سازی کنیم. بعنوان مثال، اگر دربارهی بارسلونا جستجو کرده باشید و اخیرا عبارت بارسلونا در برابر آرسنال را جستجو کرده باشید، این میتواند یک سرنخ مهم در مورد تیمی که میخواهید باشد نه در مورد شهر. شما می توانید فعالیتهای جستجوی خود را کنترل کرده برای اینکه تجربهی جستجوی خود را بهبود بخشید از جمله تنظیم کردن اطلاعاتی که ذخیره میسازید برای روی حساب کاربری گوگل.
بازگرداندن بهترین نتایج:
قبل از آنکه ما نتایج را به شما ارائه دهیم، بررسی میکنیم که چگونه اطلاعات مرتبط با همدیگر جور در میآید. آیا فقط یک موضوع در میان نتایج جستجو وجود دارد یا موضوعات بسیاری؟ آیا صفحات بسیاری دربارهی یک نوع تفسیر وجود دارد؟ ما سعی میکنیم که اطلاعات مختلف و متنوعی را برای شما فراهم کنیم در فرمتهایی که بهترین کمک را برای شما کند. و همانطور که وب در حال تکامل است، ما نیز سیستم رتبه بندی خود را تکامل میدهیم تا نتایج بهتری را برای عبارات جستجو ارائه دهیم.
پاسخهای مفید:
لری پیج یکبار موتور جستجوی بینقص را اینگونه توصیف کرد: جستجو گری که دقیقا منظور شما را متوجه شود و دقیقا آن چیزی را که دنبالش هستید به شما بدهد. به مرور زمان، آزمون ما به صورت مداوم نشان داده است که کاربران پاسخهای سریع به جستجوهایشان میخواهند. ما پیشرفت زیادی در ارائهی مرتبطترین پاسخها کردهایم، سریعتر و در قالب شکلهایی که مفیدترین نوع اطلاعات را به شما عرضه کند.
اگر بدنبال وضعیت آب و هوا هستید، احتمالا میخواهید پیش بینی وضع هوا را در صفحه داشته باشید نه لینکهایی که سایتهای آب و هوا را نشان دهید. یا آدرس: اگر عبارت جستجو "آدرس فرودگاه سانفرانسیسکو" باشد، شما میخواهید یک نقشه با مسیر منتهی به فرودگاه را ببینید نه فقط چند لینک به سایتهای دیگر. این امر خیلی مهم است بخصوص بر روی دستگاههای موبایل که پهنای باند در آنها محدود است و کلیک کردن از یک سایت به سایت دیگر کند است.
هزاران مهندس و دانشمند سخت کار میکنند تا الگوریتمها را ظریف تر سازند و راههای جدیدی برای جستجو بسازند. در پایین برخی از نو آوریهای گوگل را در جستجو میبینید. با چیزی حدود 1600 ارتقا در جستجوی گوگل فقط در سال 2016، اینها فقط نمونهای از برخی از راههایی است که میتوانند به جستجوی بهتر کمک کنند.
پاسخ از گرافهای دانش
مسیریابی و ترافیک
پاسخهای مستقیم
اسنیپتها
فهرست مشهورترین ها
پاسخ قبل از طرح سوال
اینترنت مدام در حال تکامل و پیشرفت است یا صدها صفحه جدید که در هر ثانیه منتشر میشود. این امر را در نتایج جستجوی گوگل مشاهده میکنید. ما مدام صفحات وب را کرال میکنیم تا محتوای آن را ایندکس کنیم. بسته به عبارت مورد جستجو، برخی از صفحات نتایج سریع عوض می شود در حالی که برخی از آنها ثبات بیشتری دارند. بعنوان مثال، وقتی دارید درباره ی آخرین گلهای ورزشی جستجو میکنید باید بروزرسانیها لحظهای و ثانیهای داشته باشیم اما ممکن است نتایج مرتبط با اشخاص تاریخی تا سالها بدون تغییر باقی بمانند.
امروزه گوگل ترلیون عدد جستجو را در سال مدیریت میکند. هر روز 15 درصد از عبارات مورد جستجویی که پروسه میکنیم آنهایی هستند که قبلا دیده نشده اند. ساخت الگوریتمهای جستجو که بهترین نتایج را ارائه میدهد چالش پیچیدهای است که نیاز به تست کیفی وسرمایه گذاری فراوان دارد.