سئو

چطور Compression می‌تواند برای شناسایی اسپم و صفحات با کیفیت پایین به کار رود؟

پیشنهاد شده توسط یکتانت

مفهوم فشرده‌سازی به عنوان یک سیگنال کیفیت موضوعی است که بسیاری از افراد از آن بی‌اطلاع‌اند. اما برای کارشناسان سئو آگاهی از این موضوع می‌تواند بسیار مفید باشد. موتورهای جستجو می‌توانند از قابلیت فشرده‌سازی صفحات وب برای شناسایی صفحات تکراری، صفحات با محتوای مشابه، و صفحات با تکرار کلمات کلیدی استفاده کنند که به بهبود رتبه‌بندی صفحات با کیفیت کمک می‌کند.

با وجود اینکه پژوهش‌های موجود نشان داده‌اند که ویژگی‌های صفحه می‌توانند برای شناسایی اسپم به کار روند، به دلیل عدم شفافیت عمدی موتورهای جستجو، نمی‌توان با اطمینان گفت که این تکنیک‌ها حتما در حال استفاده هستند.

فشرده‌سازی یا compression چیست؟

در علوم کامپیوتر، فشرده‌پذیری به میزان کاهش حجم یک فایل (داده‌ها) اشاره دارد که ضمن حفظ اطلاعات ضروری انجام می‌شود. هدف اصلی فشرده‌سازی، کاهش حجم داده برای صرفه‌جویی در فضای ذخیره‌سازی و انتقال سریع‌تر آن در اینترنت است.

چگونه مشکلات کرالینگ گوگل را حل کنیم؟ بیشتر بخوانید!

خلاصه فشرده‌سازی

فشرده‌سازی با جایگزینی کلمات و عبارات تکراری با ارجاعات کوتاه‌تر انجام می‌شود و حجم فایل را به میزان قابل توجهی کاهش می‌دهد. موتورهای جستجو معمولا صفحات وب را فشرده‌سازی می‌کنند تا در مصرف فضای ذخیره‌سازی و پهنای باند صرفه‌جویی کرده و سرعت بازیابی صفحات را بهبود بخشند.

این فرایند به شکل ساده به این صورت است:

  • شناسایی الگوها: الگوریتم فشرده‌سازی متن را برای یافتن کلمات و عبارات تکراری اسکن می‌کند.
  • استفاده از کدهای کوتاه‌تر: کدها و نمادها فضای کمتری نسبت به کلمات اصلی اشغال می‌کنند و باعث کاهش حجم فایل می‌شوند.
  • ارجاعات کوتاه با استفاده از بیت‌های کمتر: ارجاعاتی که نماد کلمات جایگزین شده را نشان می‌دهند، از داده کمتری نسبت به کلمات اصلی استفاده می‌کنند.

استفاده از فشرده‌سازی در شناسایی اسپم

یکی از پژوهش‌های کلیدی در این زمینه توسط دانشمندان مطرح حوزه کامپیوتر مانند مارک ناجورک و دنیس فِتِرلی انجام شده است. این پژوهشگران از فشرده‌پذیری به عنوان یک ابزار برای شناسایی اسپم استفاده کردند و به نتایج مهمی دست یافتند. در این پژوهش، آن‌ها به این نتیجه رسیدند که صفحاتی با نسبت فشرده‌سازی بالا اغلب به عنوان صفحات اسپم در نظر گرفته می‌شوند.

شناسایی اسپم فایل کدها

تشخیص اسپم از طریق تحلیل محتوای صفحات وب

این پژوهش نشان داد که صفحاتی که محتوای تکراری و کلمات کلیدی را چندین بار تکرار می‌کنند، معمولا نسبت فشرده‌سازی بالایی دارند. برای مثال، صفحه‌ای که یک کلمه خاص را ده بار تکرار می‌کند، ممکن است در موتورهای جستجو رتبه بهتری کسب کند، اما احتمال شناسایی آن به عنوان اسپم توسط موتورهای جستجو نیز افزایش می‌یابد.

محققان در بخش‌هایی از پژوهش، از الگوریتم GZIP برای فشرده‌سازی صفحات استفاده کردند و به این نتیجه رسیدند که هرچه نسبت فشرده‌سازی بالاتر باشد، احتمال اسپم بودن صفحه نیز بیشتر است.

تغییرات جدید هوش مصنوعی گوگل ادز!

ارتباط فشرده‌سازی بالا با اسپم

پژوهشگران دریافتند که ۷۰ درصد از صفحاتی با نسبت فشرده‌سازی حداقل ۴ اسپم شناخته شدند. اما استفاده از نسبت فشرده‌سازی به تنهایی نیز می‌تواند منجر به نتایج اشتباه شود، چرا که برخی صفحات غیراسپم نیز به اشتباه به عنوان اسپم شناخته می‌شوند.

ترکیب سیگنال‌های مختلف برای دقت بیشتر

پژوهش نشان داد که استفاده از ترکیبی از سیگنال‌ها به جای اتکا به یک سیگنال منفرد، دقت بیشتری در تشخیص اسپم دارد و از بروز نتایج اشتباه جلوگیری می‌کند.

نکات کلیدی برای سئوکاران

  • صفحات درگاه با محتوای تکراری به راحتی توسط موتورهای جستجو به عنوان Spam شناسایی می‌شوند، زیرا نسبت فشرده‌سازی بالایی دارند.
  • نسبت فشرده‌سازی بالای ۴ نشان‌دهنده صفحات با احتمال بالای اسپم است.
  • استفاده از سیگنال‌های منفی به تنهایی ممکن است منجر به نتایج اشتباه شود.
  • سیگنال فشرده‌پذیری تنها به شناسایی اسپم‌های مبتنی بر تکرار کمک می‌کند و انواع دیگر Spam را شناسایی نمی‌کند.
  • ترکیب چند سیگنال منجر به افزایش دقت تشخیص اسپم و کاهش نتایج اشتباه می‌شود.

نتیجه‌گیری

سیگنال فشرده‌سازی ممکن است در شناسایی برخی از انواع Spam مفید باشد، اما استفاده از ترکیب سیگنال‌ها بهترین راهکار برای تشخیص دقیق و جامع Spam است.

منبع: Search engine journal

پیشنهاد شده توسط یکتانت
پیشنهاد شده توسط یکتانت

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا