موتور جستجوی گوگل چگونه کار می‌کند؟
0 نظر
۱۹ خرداد ۱۳۹۷

موتور جستجوی گوگل چگونه کار می‌کند؟

برای یک جستجوی معمولی، هزاران و شاید میلیون‌ها صفحه‌ی وبسایت با اطلاعات مرتبط وجود داشته باشد.

 (Crawling and Indexing)

همین الان که دارید این مطلب را می‌خوانید، وبسایت گوگل در حال استفاده از خزنده‌های (کرالر) جستجوگر جهت سازماندهی اطلاعات از صفحات وب و دیگر محتوای قابل دسترس در ایندکس جستجو می‌باشد.

جستجوگر چگونه اطلاعات را سازماندهی می‌کند؟

قبل از اینکه چیزی را در گوگل جستجو کنید، خزنده‌های (کرالر) وبسایت اطلاعات را از صدها میلیارد وبسایت گرد هم می‌آورند و در ایندکس جستجو مرتب می‌کند.

موارد بنیادین جستجو:

فرآیند کرالینگ یا خزنده‌ی عنکبوتی با یک فهرست از آدرس وبسایت‌هایی شروع می‌شود که در کرال‌ها و نقشه‌های سایت قبلی توسط مالکین وبسایت ارائه شده‌اند. حین اینکه خزنده‌های گوگل از این سایت‌ها بازدید می‌کنند، از لینک‌هایی بر روی آن سایتها استفاده می‌کنند تا دیگر صفحات را بیابند. این نرم افزار توجه خاصی به این وبسایت‌ها می‌کند و آنها را تبدیل به سایت‌های موجود و پیوندهای مرده (Dead links) می‌کنند. برنامه‌های کامپیوتری مشخص می‌کنند که بر روی کدام سایت فرآیند کرالینگ باید صورت گیرد، هر چند وقت یکبار باید کرال شود و چندین صفحه از آن سایت باید آورده شود.

پیدا کردن اطلاعات از طریق کرالینگ

اینترنت نظیر یک کتابحانه‌ی همواره در حال رشد همراه با میلیاردها کتاب و سیستم آرشیو مرکزی است. ما جهت یافتن صفحات عمومی در شبکه موجود از نرم افزارهایی استفاده می‌کنیم که به آنها کرالر و یا خزنده‌ی عنکبوتی گفته می‌شود. خزنده‌ها (کرالرها) به صفحات وب نگاه می‌کنند و لینکهای آن صفحات را دنبال می‌کنند درست مثل حالتی که شما از یک وبسایت دیدن می‌کنید و محتوای آنرا بررسی می‌کنید. آنها از یک لینک به لینک دیگر می‌روند و اطلاعات آن صفحات را بر روی سرورهای گوگل بر می‌گردانند.

سازماندهی کردن اطلاعات از طریق فهرست سازی (ایندکسینگ)

زمانی که کرالرها یک وبسایت را پیدا می‌کنند، دستگاههای ما محتوای صفحه را بررسی می‌کنند، درست مثل یک مرورگر. ما از سیگنال‌های کلیدی نت برداری می‌کنیم، از کلیدواژه‌ها گرفته تا بروز بودن وبسایت‌ها و آن را در شاخص جستجو دنبال می‌کنیم.

شاخص جستجوی گوگل شامل صدها میلیارد صفحه وب است که حجم آن به 100 میلیون گیگابایت می‌رسد. این شاخص همانند نشانگر پشت جلد کتاب می‌باشد که برای هر کلمه یک مدخل قابل رویتی در هر ایندکس دارد. وقتی یک صفحه را نشان می‌دهیم، آنرا به مدخل‌های تمامی کلماتی که شامل می‌شود اضافه می‌کنیم.

حالا با داشتن گراف دانش*، می‌خواهیم برای درک بهتر افراد، مکانها و چیزهایی که شما به آن اهمیت می‌دهید از تطبیق دادن کلیدواژه فراتر برویم. برای انجام این کار، ما نه تنها اطلاعات صفحات وب را مرتب می کنیم بلکه دیگر انواع اطلاعات را هم سازمان دهی می‌کنیم. امروزه، جستجوگر گوگل می‌تواند به شما برای جستجوی میلیون‌ها کتاب از کتابخانه‌های مهم دنیا به شما کمک کند، زمان‌های سفر از آژانسهای مسافرتی محلی را بیابد و یا به شما برای مسیریابی کمک کند.

* توضیح: گراف دانش (به انگلیسی: Knowledge Graph) یک پایگاه دانش است که توسط گوگل در موتور جستجوی وب گوگل استفاده می‌شود و به صورت جستجوی مفهومی عمل می‌کند که اطلاعاتش را از پایگاه‌های داده بسیاری کسب می‌کند. این پنجره از سال ۲۰۱۲ در ایالات متحده آمریکا فعال شد و در ۱۶ می ۲۰۱۲ بر روی سرویس جهانی گوگل فعال شد. این پنجره اطلاعات گسترده‌ای دربارهٔ موضوع مورد جستجو تهیه می‌کند و هدف آن کمک به کاربران برای رسیدن به اطلاعات مورد نظرشان در کمترین زمان ممکن است.

الگوریتم‌های جستجو

سیستم رتبه بندی گوگل از طریق الگوریتم‌های جستجو صدها میلیارد صفحات وب را در قسمت جستجو مرتب می‌کند تا اینکه بتواند در کسری از ثانیه نتایج مرتبط و مفیدی ارائه دهد.

الگوریتم‌های جستجو چگونه کار می‌کنند؟

قطعا به هنگام جستجو بدنبال پاسخ هستید نه میلیاردها صفحات وب بنابراین سیستم رتبه‌بندی گوگل صدها میلیارد صفحه وب را در نشانگر جستجو منظم می‌کند تا نتایجی مفید و مرتبط را در کسری از ثانیه ارائه دهد.

این سیستم‌های رتبه‌بندی از چندین الگوریتم تشکیل شده‌اند که چیزی را که بدنبال آن هستید را تحلیل می‌کند و تشخیص می‌دهد که چه اطلاعاتی را به شما برگردانند و همچنان که جستجو را تکامل داده‌ایم تا آنرا مفیدتر کنیم، الگوریتم‌های جستجو را ظریف‌تر کرده‌ایم تا جستجو‌ها را ارزشیابی کنند و نتایج را با جزئیات ریزتری برای سرویس هر چه بهتر به ما ارائه دهند.

در اینجا به چندین روش استفاده گوگل از الگوریتم‌های جستجو برای خروجی مفیدتر اشاره می‌کنیم.

تحلیل کلمات:

فهم معنی عبارت مورد جستجوی برای دادن پاسخ مناسب بسیار مهم و اساسی است. بنابراین جهت یافتن صفحات با اطلاعات مرتبط، اولین قدم در واقع تحلیل کردن معنای عبارت مورد جستجو می‌باشد. ما با ساختن مدل‌های زبانی سعی می‌کنیم که معنای رشته از کلمات را در قسمت جستجو بفهمیم.

این کار شامل قدمهایی به ظاهر ساده می‌شود نظیر تفسیر اشتباهات املایی و سعی برای درک نوع عبارت مورد جستجو با بکار بردن آخرین جستجو بر درک طبیعی زبان. بطور مثال، سیستم کلمات مترادف به ما کمک می‌کند تا منظور شما را متوجه شویم، حتی اگر یک کلمه چندین معنا داشته باشد. این سیستم بیش از 5 سال طول کشید تا توسعه یابد و بطور چشمگیری 30 درصد نتایج جستجوها را در حوزه‌ی زبانی بهبود بخشیده است.

ما همچنین سعی داریم بفهمیم که شما بدنبال چه دسته بندی از اطلاعات هستید. آیا در جستجوی چیز خاصی هستید یا خیلی کلی و وسیع است؟ آیا کلماتی نظیر "نقد" یا "عکس" یا "ساعت کاری" وجو دارند که نشان‌دهنده‌ی اطلاعات خاصی در این جستجو هستند؟ آیا شما به دنبال کلیدواژه‌هایی هستید که در آن روز بخصوص جستجو شده اند؟ یا آیا بدنبال شرکت‌ها و دفاتری هستید که در نزدیکی شما قرار دارند و درباره‌ی آنها اطلاعات محلی می‌خواهید؟

تطبیق دادن با جستجوی شما:

در قدم بعدی، ما بدنبال صفحات وبی می‌گردیم که حاوی اطلاعاتی هستند که با جستجوی شما منطبق است. هنگامی که دارید دنبال چیزی می‌گردید، در یک سطح بسیار پایه‌ای، الگوریتم‌های بدنبال اصطلاحات مورد نظر شما می‌گردد تا صفحات مناسبی برای شما پیدا کند. آنها تحلیلی می‌کنند که این اطلاعات هر چند وقت یکبار و کجا‌ها در صفحات ظاهر می‌شوند، حال چه بعنوان عنوان یا سر تیتر یا در بدنه‌ی متن.

در کنار منطبق کردن کلیدواژگان، الگوریتم‌ها بدنبال سرنخ‌هایی هستند برای اندازه‌گیری نتایج بالقوه‌ی جستجو. زمانی که شما بدنبال کلمه "سگ" می‌گردید، احتمالا بدنبال یک وبسایت نیستید که این کلمه صدها بار در آن تکرار شده باشد. ما سعی می‌کنیم بفهمیم که آیا این صفحه شامل پاسخ جستجوی شما است یا خیر و نه اینکه فقط مورد جستجوی شما را تکرار کنیم. بنابراین الگوریتم‌های جستجو مرتبط بودن صفحات جستجو را تحلیل می‌کنند نظیر تصاویر و عکسهای سگ، فیلم‌ها یا حتی فهرستی از نژادها سگ. دست آخر کنترل می‌کنیم که صفحه یافت شده‌ی مورد نظر به همان زبانی باشد که با آن جستجو کردید تا بدین ترتیب اولویت نتایج جستجو رعایت شود.

رتبه بندی صفحات مفید:

برای یک جستجوی معمولی هراران بلکه میلیون‌ها صفحات وب موجود است که می‌تواند به شکل بالقوه با موضوع جستجو مرتبط باشد. بنابراین برای کمک به رتبه‌بندی بهترین صفحات در صفحه اول ما الگوریتم‌هایی نوشته‌ایم که میزان مفید بودن این صفحات را ارزشیابی کند.

این الگوریتم‌ها صدها فاکتور مختلف را تحلیل می‌کند تا بهترین اطلاعاتی که وب می تونه ارائه بده رو پیدا کنه، از تازگی و به روز بودن محتوا گرفته تا تعداد دفعاتی که عبارت جستجوی شما ظاهر شده و اینکه آیا آن صفحه تجربه‌ی کاربری خوبی دارد یا خیر. جهت آزمودن قابل اعتماد بودن و اصالت موضوع، به دنبال سایتهایی می‌گردیم که بسیاری از کاربران برای یک مورد جستجوی یکسان ارزشیابی می‌کنند. اگر دیگر وبسایت‌های اصلی در ارتباط با موضوع لینکی داشته باشند، نشان خوبی است که بفهمیم اطلاعات مورد نظر کیفیت بالایی نیز دارد.

سایتهای اسپم زیادی وجود دارند که سعی می کنند راه خود را به رتبه‌های بالای نتایج جستجو باز کنند از طریق تکنینک‌هایی نظیر تکرار کلمات کلیدی یا خریدن لینکهایی که از رتبه‌ی صفحه عبور می کند. این سایتها تجربه‌ی کاربری بسیار ضعیفی ارائه می‌کنند و ممکن است حتی به کاربر گوگل آسیب برساند و او را گمراه کند. بنابراین ما الگوریتم‌هایی می‌نویسیم که اسپم‌ها را شناسایی کنند و آن دسته از سایتهایی را که از راهکارهای وب مستر گوگل پیروی نمی‌کنند را از نتایج جستجو حذف کنند.

در نظر گرفتن متن

اطلاعاتی نظیر محل زندگی، موقعیت مکانی، تاریخچه‌ی جستجو‌ها و تنظیمات جستجو همگی به ما در ارائه نتایج مفیدتر و مرتبط تر کمک می‌کند.

ما با استفاده از نام کشور و موقعیت مکانای که دارید محتوای مرتبط را به شما ارائه می دهیم. بعنوان مثال، چنانچه شما در شهر شیکاگو هستید و کلمه‌ی فوتبال را جستجو کنید، گوگل احتمال خیلی زیاد در ابتدا نتایجی مرتبط با فوتبال آمریکایی و تیم فوتبال آمریکایی شیکاگو برز را به شما ارائه می‌دهد. در حالیکه چنانچه شما کلمه‌ی فوتبال را در شهر لندن جستجو کنید، گوگل نتایج را طوری رتبه بندی می‌کند که اطلاعات مربوط به لیگ برتر انگلستان در رتبه‌ی بالاتری قرار گیرد. تنظیمات جستجو نیز نشانگر مهمی در یافتن نتایج محتمل می‌باشند نظیر اینکه شما زبان مورد نظری را ترجیح می‌دهید.

در برخی از موارد، ما شاید نتایج را با توجه به اطلاعات اخیر جستجوی شما شخصی سازی کنیم. بعنوان مثال، اگر درباره‌ی بارسلونا جستجو کرده باشید و اخیرا عبارت بارسلونا در برابر آرسنال را جستجو کرده باشید، این می‌تواند یک سرنخ مهم در مورد تیمی که می‌خواهید باشد نه در مورد شهر. شما می توانید فعالیت‌های جستجوی خود را کنترل کرده برای اینکه تجربه‌ی جستجوی خود را بهبود بخشید از جمله تنظیم کردن اطلاعاتی که ذخیره می‌سازید برای روی حساب کاربری  گوگل.

بازگرداندن بهترین نتایج:

قبل از آنکه ما نتایج را به شما ارائه دهیم، بررسی می‌کنیم که چگونه اطلاعات مرتبط با همدیگر جور در می‌آید. آیا فقط یک موضوع در میان نتایج جستجو وجود دارد یا موضوعات بسیاری؟ آیا صفحات بسیاری درباره‌ی یک نوع تفسیر وجود دارد؟ ما سعی می‌کنیم که اطلاعات مختلف و متنوعی را برای شما فراهم کنیم در فرمت‌هایی که بهترین کمک را برای شما کند. و همانطور که وب در حال تکامل است، ما نیز سیستم رتبه بندی خود را تکامل می‌دهیم تا نتایج بهتری را برای عبارات جستجو ارائه دهیم.

پاسخ‌های مفید:

لری پیج یکبار موتور جستجوی بی‌نقص را اینگونه توصیف کرد: جستجو گری که دقیقا منظور شما را متوجه شود و دقیقا آن چیزی را که دنبالش هستید به شما بدهد. به مرور زمان، آزمون‌ ما به صورت مداوم نشان داده است که کاربران پاسخ‌های سریع به جستجوهایشان می‌خواهند. ما پیشرفت زیادی در ارائه‌ی مرتبط‌ترین پاسخ‌ها کرده‌ایم، سریعتر و در قالب شکل‌هایی که مفیدترین نوع اطلاعات را به شما عرضه کند.

اگر بدنبال وضعیت آب و هوا هستید، احتمالا می‌خواهید پیش بینی وضع هوا را در صفحه داشته باشید نه لینک‌هایی که سایت‌های آب و هوا را نشان دهید. یا آدرس: اگر عبارت جستجو "آدرس فرودگاه سانفرانسیسکو" باشد، شما می‌خواهید یک نقشه با مسیر منتهی به فرودگاه را ببینید نه فقط چند لینک به سایتهای دیگر. این امر خیلی مهم است بخصوص بر روی دستگاههای موبایل که پهنای باند در آنها محدود است و کلیک کردن از یک سایت به سایت دیگر کند است.

هزاران مهندس و دانشمند سخت کار می‌کنند تا الگوریتم‌ها را ظریف تر سازند و راههای جدیدی برای جستجو بسازند. در پایین برخی از نو آوری‌های گوگل را در جستجو میبینید. با چیزی حدود 1600 ارتقا در جستجوی گوگل فقط در سال 2016، اینها فقط نمونه‌ای از برخی از راههایی است که می­توانند به جستجوی بهتر کمک کنند.

پاسخ از گراف‌های دانش

مسیریابی و ترافیک

پاسخ‌های مستقیم

 اسنیپت‌ها

فهرست مشهورترین ها

پاسخ‌ قبل از طرح سوال

اینترنت مدام در حال تکامل و پیشرفت است یا صدها صفحه جدید که در هر ثانیه منتشر می‌شود. این امر را در نتایج جستجوی گوگل مشاهده می‌کنید. ما مدام صفحات وب را کرال می‌کنیم تا محتوای آن را ایندکس کنیم. بسته به عبارت مورد جستجو،‌ برخی از صفحات نتایج سریع عوض می شود در حالی که برخی از آنها ثبات بیشتری دارند. بعنوان مثال، وقتی دارید درباره ی آخرین گل‌های ورزشی جستجو می‌کنید باید بروزرسانی‌ها لحظه‌ای و ثانیه‌ای داشته باشیم اما ممکن است نتایج مرتبط با اشخاص تاریخی تا سالها بدون تغییر باقی بمانند.

امروزه گوگل ترلیون عدد جستجو را در سال مدیریت می‌کند. هر روز 15 درصد از عبارات مورد جستجویی که پروسه می‌کنیم آنهایی هستند که قبلا دیده نشده اند. ساخت الگوریتم‌های جستجو که بهترین نتایج را ارائه می‌دهد چالش پیچیده‌ای است که نیاز به تست کیفی وسرمایه گذاری فراوان دارد.

 

 


نظرات کاربران
نظر خودتان را ارسال کنید