انتیتی در سئو

  • شما مطمئناً با عبارت انتیتی Entity یا موجودیت برخورد کرده‌اید و احتمالاً خیلی دقیق نتوانسته‌اید معنا و ماهیت آن را به درستی درک کنید.

    انتیتی در سئو

    اما نگران نباشید. من در این مقاله سعی کردم بصورت ساده و قابل فهم مسئله انتیتی در سئو را توضیح بدهم و شما را با موارد زیر آشنا کنم:

    انتیتی چیست؟

    • انتیتی‌ها مفاهیم یا ویژگی‌های خاص و قابل تعریف در مورد یک موضوع هستند. مانند نام، مکان، رنگ، بو، اندازه و…
    • انتیتی‌ها برای شناخت دقیق موضوعات توسط گوگل و سایر موتورهای جستجو بزرگ استفاده می‌شوند.
    • انتیتی‌ها بخشی از سیستم معنایی گوگل هستند.
    • گوگل با استفاده از انتیتی‌ها می‌تواند عمیق بودن یا سطحی بودن یک محتوا را تشخیص دهد.

    یک مثال از انتیتی

    بیاید انتیتی را با یک مثال ساده به شما توضیح دهم. ابتدا عکس زیر را مشاهده کنید.

    ماهی

    فرض کنید تاکنون این تصویر را ندیده‌اید و نمی‌دانید ماهیت آن چیست. من برای تعریف این تصویر به شما می‌گویم:

    • یک جانور آبزی و نام آن ماهی است.
    • باله داشته و شنا می‌کند.
    • پولک و آب شش دارد.
    • محل زندگی آن در آب رودخانه‌ها، دریاچه‌ها، دریا‌ها و اقیانوس‌ها است.

    من آمدم و این تصویر را با نام، ویژگی‌ها، محل زندگی به شما معرفی کردم و شما توانستید ماهیت این جانور را بفهمید.

    پس Entity یا موجودیت به موضوع یا یک چیزی منحصر‌ به فردی گفته می‌شود که با یکسری از اطلاعات قابل شناسایی می‌شود.

    اطلاعاتی نظیر نام، نوع، ویژگی‌ها و ارتباطشان با سایر موجودیت‌ها به ما کمک می‌کنند تا بتوانیم ماهیت و موجودیت یک چیز را بفهمیم.

    تنها زمانی یک شیء به عنوان موجودیت شناخته می‌شود که در فهرست موجودیت‌ها (entity catalog) وجود داشته باشد.

    کاتالوگ موجودیت یک شناسه منحصر به فرد به هر موجودیت اختصاص می‌دهد. اگر کلمه یا عبارتی در کاتالوگ موجود نباشد، به این معنی نیست که کلمه یا عبارت موجود نیست؛ اما معمولاً می‌توانید با وجود آن در کاتالوگ متوجه شوید که آیا یک موجودیت وجود دارد یا خیر.

    هنگام بررسی موجودیت‌ها می‌توان از کاتالوگ‌ استفاده کرد. به‌طور معمول موجودیت، یک شخص، مکان یا شیء است اما ایده‌ها و مفاهیم نیز می‌توانند موجودیت داشته باشند.

    منابع پیدا کردن انتیتی‌ها

    یکی از منابع شناسایی موجودیت‌ها، ویکی‌پدیا است. البته وجود یا عدم وجود یک مطلب در ویکی‌پدیا به معنای موجودیت بودن یا نبودن قطعی آن نیست. وقتی صحبت از موجودیت به میان می‌آید، هر پایگاه داده یا فهرستی که حاوی اطلاعات ساختار یافته در مورد موجودیت‌ها باشد، می‌تواند مبنای تعریف و شناسایی موجودیت‌ها قرار گیرد.

    چند نمونه از فهرست‌های موجودیت:

    • ویکی‌پدیا (Wikipedia)
    • ویکی‌داده (Wikidata)
    • دی‌بی‌پدیا (DBpedia)
    • فریبیس (Freebase)
    • یاگو (Yago)

    نمودار دانش در یاگو

    کاربرد انتیتی در سئو چیست؟

    موجودیت‌ها به پر کردن شکاف بین داده‌های ساختار نیافته و ساختار یافته کمک می‌کنند و می‌توانند برای غنی‌سازی معنایی متون ساختار نیافته مورد استفاده قرار گیرند.

    منابع متنی نیز می‌توانند برای استخراج موجودیت‌ها و ذخیره‌سازی آن‌ها در پایگاه‌داده‌ها مورد استفاده قرار گیرند. بنابراین موجودیت‌ها پل ارتباطی بین این دو نوع داده هستند و باعث ارتباط و تعامل بین آن‌ها می‌شوند.

    موجودیت‌ها باعث درک بهتر معنای متن هم برای انسان و هم برای ماشین‌ها می‌شود. هرچند که فهم آن‌ها برای انسان راحت‌تر است و درک آن برای ماشین‌‌ها و یا موتور‌های جستجو با چالش‌هایی همراه است.

    با توجه به تغییرات مداوم دنیا و ظهور حقایق و اطلاعات جدید، پیگیری این تغییرات و بروز نگه داشتن اطلاعات موجودیت‌ها در پایگاه‌ داده‌ها نیازمند تلاش مستمر ویراستاران و مدیران محتوا است که البته کاری دشوار در مقیاس بزرگ است.

    با تحلیل متون حاوی ارتباطات موجودیت‌ها، می‌توان فرآیند یافتن اطلاعات و حقایق جدید یا نیازمند بروزرسانی را آسان کرد یا حتی به کمک ماشین‌ها آن را کاملاً بصورت خودکار درآورد.

    محققان از این مسئله به عنوان «مسئله غنی‌سازی پایگاه داده» یاد می‌کنند و به همین است که دلیل لینک‌دهی به موجودیت‌ها مهم است.

    موجودیت‌ها یا Entities باعث درک معنایی جستجوی کاربر و محتوای سند می‌شوند. و موتورهای جستجو با فهم موجودیت عبارت جستجو شده با دقت بیشتری نتایج مورد نظر کاربر را ارائه می‌دهد.

    بنابراین Entities ابزاری مفید برای درک بهتر نیاز کاربر و محتوا و بهبود فرایند جستجو است و درک معنایی را تسهیل می‌کند.

    در مقاله تحقیقاتی Extended Named Entity، نویسنده حدود ۱۶۰ نوع موجودیت را مورد شناسایی قرار داد که در اینجا یک عکس از فهرست انواع موجودیت‌های مورد بررسی را آورده‌ام.

    نمونه‌ای از فهرست موجودیت‌ها در مقاله extended named-entity

    گرچه برخی از انواع موجودیت‌ها آسان‌تر تعریف می‌شوند، اما درک مفاهیم و ایده‌هایی که جزء موجودیت‌ها محسوب می‌شوند بسیار سخت و پیچیده است.

    گوگل نمی‌تواند به تنهایی آن‌‌ها را به‌طور کامل درک کند و این ابهام را نیز صرفاً با یک فهرست موجودیت‌ها نمی‌توان برای گوگل برطرف کرد.

    درک موجودیت‌های پیچیده‌ای مثل مفاهیم و ایده‌ها توسط ماشین‌ها، مستلزم ایجاد محتوای گسترده و بلند مدت است.

    چرا انتیتی مهم است؟

    گوگل با معرفی قابلیت‌های یادگیری ماشینی و به کمک استفاده از پایگاه‌های اطلاعاتی نیمه ساختاریافته و ساختاریافته، توانست معنای کلمات کلیدی را درک کند.

    اکنون و بعد از گذشت نزدیک به ۱۱ سال، گوگل دیگر صرفاً به دنبال نتایج ساده بر اساس کلمات کلیدی نیست و حال می‌خواهد موجودیت‌‌ها و ارتباطات میان موجودیت‌های مختلف را درک کند تا نتایج بهتری ارائه دهد.

    من فکر می‌کنم در دو سال آینده سئوی انتیتی، مبنای انجام استراتژی‌های سئو خواهد بود. در واقع در آینده موتورهای جستجو مبنای رتبه‌بندی و حرکت خود را بر اساس معنا قرار می‌دهند.

    نمونه‌هایی از انتیتی و موجودیت‌ها

    حال شاید فکر کنید آیا تا به حال با انتیتی‌ها برخورد داشته‌اید یا نه؟

    حتماً تاکنون چندین نمونه از انتیتی‌های SERP که رایج‌ترین آن‌ها نام شهرها، کشورها، افراد مشهور، برندها است را دیده‌اید.

    پروفایل کسب کار گوگل

    پنل دانش

    جستجوی عکس گوگل

    خوشه‌های هدف

    از بهترین نمونه‌‌های موجودیت‌ در صفحات نتایج جستجو، می‌توان به خوشه‌بندی بر اساس هدف و قصد کاربر از جستجو اشاره کرد.

    هرچه یک موضوع برای موتور جستجو بیشتر قابل درک باشد، این ویژگی‌های جستجو بیشتر ظاهر می‌شوند. همچنین به کمک یک کمپین سئو می‌توان با تمرکز بر موجودیت‌ها، چهره صفحات نتایج جستجو را نیز تغییر داد.

    ورودی‌های ویکی‌پدیا نمونه دیگری از موجودیت‌ها هستند. ویکی‌پدیا نمونه‌ای عالی از اطلاعات مرتبط با موجودیت‌ها ارائه می‌کند.

    همانطور که در سمت چپ عکس زیر می‌بینید از بالا تا پایین، موجودیت شامل انواع ویژگی‌های مرتبط با «ماهی» از آناتومی آن گرفته تا اهمیتش برای انسان است.

    موجودیت ماهی در ویکی‌پدیا

    البته این را هم اضافه کنم هر چند که ویکی‌پدیا حاوی اطلاعات زیادی در مورد یک موضوع است، اما به هیچ وجه جامع نیست.

    تاریخچه گوگل در زمینه موجودیت‌ها

    گوگل در سال ۲۰۱۰ با خرید سایت Freebase، اولین گام مهم در زمینه‌ی ایجاد سیستم فعلی جستجوی موجودیت‌ها را برداشت.

    با خرید Freebase، گوگل به یک پایگاه داده بزرگ ساختاریافته در مورد موجودیت‌ها دسترسی پیدا کرد و این نقطه شروعی شد برای توسعه قابلیت‌های موجودیت‌ محور موتور جستجوی گوگل.

    سایت Freebase

    البته گوگل بعد از سرمایه‌گذاری بر Freebase متوجه شد Wikidata گزینه‌ی بهتری برای پایگاه داده موجودیت‌ها می‌تواند باشد و سعی کرد با هر مشکل و دشواری که وجود دارد این دو سایت را با هم ادغام کند.

    از دلایل این تغییر می‌توان به آن اشاره کرد که پایگاه داده Freebase، بر پایه اشیاء، واقعیت‌ها و ویژگی‌ها بنا شده است. و هر شیء در Freebase دارای یک شناسه ثابت به نام mid (مخفف Machine ID) است.

    اما در Wikidata داده‌ها بر مبنای مفاهیم آیتم و توضیح طراحی شده است. هر آیتم نمایانگر یک موجودیت است و دارای یک شناسه ثابت به نام qid می‌باشد.

    همچنین ممکن است هر آیتم دارای برچسب‌ها، شرح و توضیحات و نام‌های مترادف به زبان‌های مختلف باشد. علاوه بر این آیتم‌ها حاوی توضیحات و لینک‌های بیشتری به صفحات مرتبط با آن موجودیت در سایر پروژه‌های ویکی‌مدیا از جمله ویکی‌پدیا هستند.

    همچنین بیانیه‌های Wikidata به دنبال کدگذاری حقایق و واقعیت‌ها نیستند، بلکه ادعاهایی از منابع مختلف را نمایش می‌دهند که ممکن است با هم در تناقض باشند.

    پروژه Schema

    گوگل به کمک شرکت‌های بینگ و یاهو، پروژه Schema.org را برای افزایش دانش موجودیت خود در داده‌های ساختار نیافته مانند متن‌های وبلاگ‌ها راه‌اندازی کرد.

    به کمک دستورالعمل‌های موجود در اسکیما، گوگل محتوای صفحات را بهتر می‌تواند درک کند.

    به گفته‌ی گوگل وب‌مسترها می‌توانند با ارائه داده‌های ساختاریافته در صفحه، به گوگل در درک معنای محتوای صفحه کمک کنند.

    داده‌های ساختاریافته یک قالب استاندارد شده برای ارائه اطلاعات در مورد یک صفحه و طبقه‌بندی محتوای صفحه است.

    برای مثال اگر یک وبلاگ آموزش آشپزی دارید می‌توانید در صفحه‌ای که دستور پخت غذا را یادداشت می‌کنید بصورت ساختاریافته اطلاعاتی مانند مواد لازم، زمان و دمای پخت، میزان کالری و… نیز وارد کنید تا گوگل بهتر بتواند معنای صفحه را درک کند.

    همچنین گوگل می‌گوید برای اینکه یک شیء به صورت پیشرفته به نمایش دربیاید باید تمامی ویژگی‌های مورد نیاز آن درج شود.

    به‌‌طور کلی هرچه اطلاعاتی که شما از آن شیء یا مفهوم بصورت توصیفی از آن درج می‌کنید بیشتر باشد، احتمال اینکه اطلاعات شما با نمایش پیشرفته در نتایج جستجو ظاهر شود بیشتر می‌شود.

    درباره‌ی اسکیما هم باید بگویم یک ابزار باورنکردنی برای سئوکارانی است که به دنبال شفاف‌سازی محتوای صفحه برای موتورهای جستجو هستند.

    گل نهایی گوگل نیز با آخرین اطلاعیه منتشر شده با عنوان «بهبود جستجو برای ۲۰ سال آینده» زده شد.

    ایده‌‌ی اصلی پشت این اطلاعیه، ارتباط و کیفیت سند است. اولین روش گوگل برای تعیین محتوای یک صفحه تمرکز بر کلمات کلیدی بود. سپس گوگل لایه‌های موضوعی را به جستجو اضافه کرد. این لایه به کمک نمودارهای دانش و پالایش و ساختاردهی سیستماتیک داده‌ها در سراسر وب امکان پذیر شد که به کمک آن، سیستم فعلی جستجو امکان‌پذیر شد.

    گوگل در کمتر از ۱۰ سال از ۵۷۰ میلیون موجودیت به ۸ میلیارد موجودیت و از ۱۸ میلیارد دلیل به ۸۰۰ میلیارد دلیل دست یافته است. با رشد و افزایش این اعداد، جستجوی موجودیت نیز بهبود می‌یابد.

    مزیت برتری مدل موجودیت نسبت به مدل‌های جستجوی قبلی چیست؟

    مدل‌های قدیمی بازیابی اطلاعات (IR) که مبتنی بر کلمات کلیدی هستند دارای محدودیت ذاتی در عدم بازیابی اسناد هستند که هیچ انطباق درستی با با عبارت جستجو شده ندارند.

    مدل‌های قدیمی جستجو تنها می‌توانند اسنادی را بازیابی کنند که شامل کلمات کلیدی مشخص شده در عبارت جستجو هستند.

    به عنوان مثال اگر با استفاده از ctrl+f بخواهید کلمه‌ای را در یک صفحه پیدا کنید، از همان اصول مدل‌های سنتی بازیابی اطلاعات استفاده می‌کنید.

    حجم بسیار زیادی از داده‌ هر روز در بستر وب منتشر می‌شود. درک معنای همه‌ی کلمات، پاراگراف‌ها، مقالات و محتویات وب‌سایت‌ها برای گوگل امکان‌پذیر نیست.

    برای این منظور موجودیت‌ها ساختاری برای گوگل فراهم می‌کنند که بتواند با بهره‌گیری از آن، بار محاسباتی را کاهش دهد و در عین حال درک بهتری از موجودیت‌ها داشته باشد.

    موجودیت‌ها به گوگل اجازه می‌دهند به جای تجزیه و تحلیل کل متن، تنها روی بخش‌های کلیدی و ساختاریافته‌ای از اطلاعات متمرکز شود که درک معنایی آن‌ها اهمیت دارد.

    در بخشی از کتاب جستجوی موجودیت‌گرا آمده است: «روش‌های بازیابی اطلاعات مبتنی بر موجودیت، با هدف غلبه بر چنین چالش‌هایی در بازیابی متن، از ساختارهایی مانند واژگان کنترل شده (دیکشنری و فرهنگ جامع)، هستی‌شناسی و موجودیت‌های استخراج شده از مخازن دانش بهره می‌گیرند.

    این ساختارها باعث می‌شوند درخواست‌ها و مدارک از لحاظ موجودیت غنی‌تر شده و در یک فضای معنایی و موجودیت سطح بالاتر قرار گیرند. در نتیجه، تطابق بهتری بین درخواست‌ها و مدارک برقرار می‌شود و بازیابی دقیق‌تر و مرتبط‌تری حاصل می‌گردد.»

    دیدگاه کریستیان بالوگ در مورد انتیتی

    کریستیان بالوگ، که کتاب جستجوی موجودیت‌گرا را نوشته است، سه راه حل ممکن برای مدل سنتی بازیابی اطلاعات را بصورت زیر تعریف می‌کند که البته درک آن بسیار سنگین است:

    • راهکار مبتنی بر توسعه: در آن از موجودیت‌ها به عنوان منبعی برای توسعه و غنی‌سازی درخواست کاربر با اصطلاحات مختلف استفاده می‌شود.
    • راهکار مبتنی بر طراحی: در آن ارتباط بین درخواست کاربران و سند (مثلا صفه وب) از طریق طراحی آن‌ها بر روی فضای نهفته‌ای از موجودیت‌ها درک می‌شود.
    • راهکار مبتنی بر موجودیت: در آن بازنمایی معنای درستی از درخواست‌های کاربران و اسناد در فضای موجودیت‌ها به دست می‌آید تا بازنمایی مبتنی بر اصطلاح را تقویت کند.

    هدف این سه رویکرد بدست آوردن نمایشی غنی‌تر از اطلاعات مورد نیاز کاربر با شناسایی موجودیت‌هایی است که به شدت با کوئری کاربر مرتبط هستند.

    ۶ الگوریتم بالوگ در خصوص انتیتی‌ها

    بالوگ سپس شش الگوریتم را معرفی می‌کند که با روش‌های مبتنی بر طراحی برای نگاشت موجودیت‌ها مرتبط هستند.

    روش‌های طراحی مربوط به تبدیل موجودیت‌ها به فضای سه‌بعدی و اندازه‌گیری بردارها با استفاده از هندسه است. این کار به نوعی یک تصویرسازی است.

    • تحلیل معنایی صریح (ESA): در این الگوریتم، معنای یک واژه با استفاده از یک بردار توصیف می‌شود که این بردار، قدرت ارتباط آن واژه را با موجودیت‌ها استخراج شده از ویکی‌پدیا را ذخیره می‌کند. به عبارت دیگر بردار نشان می‌دهد که آن واژه تا چه حد با هر یک از موجودیت‌ها ویکی‌پدیا مرتبط است. این کار باعث می‌شود معنای واژه به صورت کمی و بر اساس ارتباط آن با موجودیت‌های دیگر توصیف شود.
    • مدل فضای پنهان موجودیت (LES): این الگوریتم مبتنی بر یک چارچوب احتمالی مولد است. این مدل امتیاز بازیابی سند را بر اساس ترکیب خطی از امتیاز مرتبط بودن آن سند با موجودیت‌های نهفته و امتیاز مرتبط بودن آن با خود عبارت جستجو شده محاسبه می‌کند.
    • EsdRank: یک الگوریتم برای رتبه‌بندی اسناد است که از ترکیبی از ویژگی‌های جستار-موجودیت و موجودیت-سند استفاده می‌کند. این ویژگی‌ها به ترتیب موجودیت‌ها تصویرسازی جستار و تصویرسازی سند را در مدل LES منعکس می‌کنند. EsdRank از یک چارچوب یادگیری تشخیصی استفاده می‌کند که اجازه می‌دهد سیگنال‌های اضافی مانند محبوبیت موجودیت یا کیفیت سند به راحتی در الگوریتم لحاظ شوند.
    • رتبه‌بندی معنایی صریح (ESR): این مدل با هدف انجام تطابق متعادل بین درخواست کاربر و اسناد در فضای موجودیت‌ها، از اطلاعات رابطه‌ای موجود در گراف‌های دانش استفاده می‌کند. به عبارت دیگر، این الگوریتم با بهره‌گیری از اطلاعات گراف دانش در مورد روابط بین موجودیت‌ها، قادر است تطابق‌ها و ارتباطات ضمنی و معنایی بین عبارات جستجو شده توسط کاربر و اسناد را در سطح موجودیت‌ها شناسایی کند. به این ترتیب، تطابق‌های معنایی فراتر از سطح واژگان حاصل می‌شود.
    • چارچوب دوطرفه‌ی واژه-موجودیت: این الگوریتم تعاملات بین دو نوع نمایش متن یعنی مبتنی بر واژه و مبتنی بر موجودیت را در نظر می‌گیرد. این چارچوب با در نظر گرفتن چهار نوع تطابق بین جستار و سند شامل تطابق واژگان جستار با واژگان سند، تطابق موجودیت‌های جستار با واژگان سند، تطابق واژگان جستار با موجودیت‌های سند و تطابق موجودیت‌های جستار با موجودیت‌های سند، سعی در لحاظ کردن تطابق‌ها در سطوح مختلف واژگانی و معنایی دارد.
    • مدل رتبه‌بندی مبتنی بر توجه: این مدل پیچیده‌ترین مدل در بین سایر مدل‌های مبتنی بر موجودیت برای رتبه‌بندی اسناد است و توضیح کامل این الگوریتم نیازمند ورود به جزئیات فنی و پیچیده‌ است.

    بالوگ در کتاب خود می‌گوید: «مجموعاً چهار ویژگی، مبتنی بر توجه طراحی شده است که برای موجودیت هر عبارت جستجو شده استخراج می‌شوند. ویژگی‌های ابهام موجودیت قرار است خطر مرتبط با حاشیه‌نویسی موجودیت را مشخص کنند. این ویژگی‌ها عبارتند از:

    1.  آنتروپی احتمال ارتباط شکل سطحی به موجودیت‌های مختلف (مثلاً در ویکی‌پدیا)
    2. اینکه آیا موجودیت تشریح شده معمول‌ترین معنا برای فرم سطحی است (یعنی بیشترین امتیاز مشترک را دارد)
    3. تفاوت در امتیازات مشترک بین محتمل‌ترین و دومین گزینه محتمل برای فرم سطحی داده شده
    4.  نزدیکی که به عنوان شباهت کسینوسی بین موجودیت جستار و خود جستار در یک فضای جانمایی شده تعریف می‌شود

    به‌طور خاص، یک مدل جانمایی مشترک واژه-موجودیت با استفاده از الگوریتم skip-gram روی یک مجموعه داده آموزش داده می‌شود.

    در این مجموعه داده آموزشی، موجودیت‌های ارجاع شده با شناسه‌های موجودیت مربوط به خودشان جایگزین شده‌اند. سپس بردار جانمایی مربوط به جستار، به عنوان مرکز ثقل (میانگین) بردارهای جانمایی واژگان تشکیل دهنده عبارت جستجو شده در نظر گرفته می‌شود.»

    در حال حاضر آشنایی سطحی با این شش الگوریتم موجودیت محور مهم است و خیلی نیاز نیست وارد جزئیات ریز آن شد.

    اما یادتان باشد برای استفاده از موجودیت‌ها در بازیابی اطلاعات دو رویکرد اصلی وجود دارد و آن‌ها طراحی و نگاشت اسناد به یک لایه یا فضای نهان از موجودیت‌ها و حاشیه‌نویسی و برچسب‌گذاری صریح موجودیت‌ها در درون متن اسناد است.

    سه مدل ساختار داده

    سه مدل ساختار داده

    تصویر بالا روابط پیچیده‌‌ی بین موجودیت‌ها را در فضای برداری را نشان می‌دهد. اگرچه این عکس ارتباطات نموداری بین دانش‌ها را نشان می‌دهد اما برای درک بهتر ماهیت موجودیت‌ها، شناخت سه نوع ساختار داده‌ای که الگوریتم‌ها از آن‌ها استفاده می‌کنند، ضروری است:

    هنگام توصیف موجودیت‌های ساختار نیافته، اگر برای توصیف از موجودیت‌های دیگر کمک گرفته شده؛ باید این موجودیت‌ها شناسایی و ابهام‌ زدایی شوند. و مانند شکل بالا پیکان خط نموداری (هایپرلینک‌ها) از هر موجودیت به موجودیت دیگری که در توضیحات آورده شده ذکر شود.

    در یک محیط نیمه ساختاریافته (به عنوان مثال ویکی پدیا)، ممکن است لینک‌های سایر موجودیت‌ها به‌طور صریح و واضح ارائه شده باشند.

    هنگام کار با داده‌های ساختاریافته، سه گانه RDF، یک نمودار (یعنی نمودار دانش) را تعریف می‌کند که منابع موضوع و خود عبارت اصلی (URI) طبق شکل بالا دایره‌های رنگی یا رأس نمودار هستند و دلایل و ویژگی‌ها خط‌های واصل درون نمودار هستند.

    مشکل اصلی حالت نیمه‌ساختاریافته در محاسبه امتیاز IR این است که اگر یک سند برای یک موضوع خاص طراحی نشده باشد و محتوای آن پراکنده باشد، امتیاز IR و رتبه‌ی آن نسبت به سایر اسناد متنی می‌تواند به دلیل وجود بافت‌های مختلف و وجود روابط واژگانی ضعیف و نامناسب و همچنین فاصله نامناسب بین واژگان در سند کاهش یابد.

    برای افزایش امتیاز IR باید کلمات و واژگان مرتبط و مکمل در یک بخش یا سند استفاده شوند تا بافت متن بصورت یکپارچه، واضح‌ و قابل فهم برای سیستم دربیاید.

    در این بین استفاده از ویژگی ها و روابط موجودیت باعث افزایش ۵ تا ۲۰ درصدی امتیاز IR می‌شود. همچنین استفاده از اطلاعات مربوط به نوع موجودیت می‌تواند تا به‌طور حتم امتیاز بازیابی اطلاعات را بهبود می‌بخشد.

    حاشیه نویسی اسناد با موجودیت‌ها می تواند ساختار را به اسناد بدون ساختار بیاورد، که می‌تواند به پر کردن پایگاه‌های دانش با اطلاعات جدید در مورد موجودیت‌ها کمک کند.

    حاشیه نویسی اسناد با موجودیت‌ها

    استفاده از ویکی‌پدیا به عنوان چارچوب موجودیت سئو

    ساختار صفحات ویکی‌پدیا

    ۱) عنوان

    ۲) متن مقدماتی یا lead

    • لینک‌های ابهام‌زدایی
    • جعبه اطلاعات
    • متن مقدماتی

    ۳) فهرست مطالب

    ۴) محتوای اصلی

    ۵) ضمایم و مطالب انتهایی

    • منابع و یادداشت‌ها
    • لینک‌های خارجی
    • دسته‌بندی‌ها

    معمولاً مقالات ویکی‌پدیا با یک مقدمه‌ی کوتاه یا Lead شروع می‌شوند که خلاصه‌ی بسیار کوتاهی از محتوای کل است. تحریر و نگارش مقدمه باید طوری انجام شود که نظر کاربر را جلب کرده و او را علاقه‌مند به مطالعه‌ی ادامه‌ی مقاله کند.

    جمله اول و پاراگراف آغازین، از اهمیت ویژه‌ای برخوردار هستند. در نوشتن مقدمه‌ی مقاله، در جمله‌ی اول می‌توان به تعریفی از موجودیت توصیف شده در مقاله پرداخت. همچنین در پاراگراف ابتدایی نیز تعریفی اجمالی از موضوع مقاله ارائه داد.

    در این بین لینک‌ها بسیار ارزشمند هستند؛ آن‌ها علاوه بر هدایت کاربر به مقصد، روابط معنایی بین مقالات را نیز ثبت می‌کنند. همچنین انکر تکست‌ها نیز یک منبع خوب از انواع نام موجودیت‌ها هستند.

    لینک‌های ویکی‌پدیا علاوه بر دیگر کاربردهایی که دارند می‌توانند برای کمک به شناسایی و ابهام‌زدایی ارجاعات موجودیت‌ها در متن نیز استفاده شوند.

    در ادامه خلاصه‌ای از ویژگی‌های اصلی صفحات ویکی‌پدیا که حاوی اطلاعات کلیدی ساختاریافته درباره موجودیت‌ها هستند را برای شما آورده‌ام که به شرح زیر است:

    • خلاصه‌ای از واقعیت‌های کلیدی در مورد موجودیت (جعبه اطلاعات)
    • معرفی کوتاه و مختصر
    • لینک‌های داخلی (این امکان به ویراستاران داده می‌شود تا به اولین مفهوم یا ارجاع یک موجودیت لینک دهند.)
    • درج تمامی مترادفات رایج برای یک موجودیت
    • تعیین صفحه دسته‌بندی
    • الگوی ناوبری
    • منابع
    • ابزارهای تجزیه ویژه برای فهم صفحات ویکی
    • انواع مولتی‌مدیا

    نحوه‌ی بهینه‌سازی موجودیت‌ها

    در سئو نویسی و برای فهم و درک بهتر موتورهای جستجو از موضوع، رعایت یکسری از نکات اساسی و لازم است. نکاتی مثل:

    • گنجاندن کلمات مرتبط از لحاظ معنایی با موضوع در یک صفحه
    • استفاده‌ی زیاد از کلمات و واژگان در یک صفحه
    • ساماندهی مفاهیم در یک صفحه
    • گنجاندن داده‌های ساختارنیافته، نیمه ساختاریافته و ساختاریافته در یک صفحه
    • افزودن جفت‌های موضوع-گزاره-شیء (SPO)
    • ارائه اسناد وب در یک سایت که مانند صفحات یک کتاب عمل می‌کنند
    • سازماندهی اسناد وب در سطح صفحه و وب‌سایت
    • گنجاندن مفاهیم و ویژگی‌های شناخته شده از موجودیت‌ در سند

    وقتی شما یک عبارت را جستجو می‌کنید، موتور جستجوگر عبارت را با توجه به گزارش‌ جستجوهای سابق شما و سایر قسمت‌های زمینه‌ای تحلیل می‌‌کند و بر اساس آن‌ها نتایج مربوطه را به شما ارائه می‌دهد.

    به همین دلیل ممکن است یک عبارت جستجوی یکسان از سوی دو کاربر مختلف، نتایج متفاوتی داشته باشد.

    کاربران می‌توانند با یک درخواست کاملاً یکسان، قصد و نیت متفاوتی داشته باشند. برای مثال فرض کنید شما در چند وقت اخیر راجب خرید و فروش اجناس و راه‌های فروش جنس دست دوم جستجو کرده‌اید و من نیز راجب ساختمان، و نقاشی ساختمان جستجو کرده‌ام.

    وقتی هر دوی ما کلمه‌ی دیوار را جستجو کنیم، موتور جستجو بر اساس سابقه‌ی جستجوهای ما نتایج متفاوتی را نشان می‌دهد.

    مثلاً در صدر لیست نتایج شما، پلتفرم خرید و فروش دیوار نشان داده می‌شود و برای من در صفحه‌ی نتایج وب‌هایی که در آن به تعریفی از دیوار به معنای حایل و… پرداخته‌اند به نمایش در می‌آیند.

    بنابراین تحلیل قصد و نیت کاربر در کنار سایر عوامل متن برای یک درخواست یکسان می‌تواند منجر به نمایش نتایج شخصی‌سازی شده‌ شود.

    اگر صفحه‌ی شما هر دو نوع قصد و نیت را پوشش دهد، رتبه‌بندی بهتری کسب می‌کند و می‌توانید از ساختار پایگاه‌های دانش برای هدایت الگوهای پرس‌و‌جوی (query-intent) خود استفاده کنید. به‌طور کل پوشش تمامی اهداف و قصد کاربران در یک صفحه، باعث بهبود رتبه‌ی صفحه می‌شود.

    قسمت‌هایی مثل «دیگران همچنین پرسیده‌اند»، «دیگران همچنین جستجو کرده‌اند» و «تکمیل خودکار» در موتورهای جستجو، ارتباط معنایی با درخواست جستجوی کاربر دارند و به جستجوی عمیق‌تر درباره‌ی موضوع و هدایت کاربر به سمت جنبه دیگری از موضوع کمک می‌کنند.

    این ویژگی‌ها با توجه به ارتباط معنایی با درخواست کاربر به او کمک می‌کنند تا جستجوی خود را عمیق‌تر و یا در ابعاد دیگری انجام دهد.

    حال شاید با خود بگویید بعد از دانستن این موارد چگونه بهینه‌سازی را انجام دهیم؟ در ادامه با من همراه باشید تا جواب سوال خود را بگیرید.

    باید سعی کنید محتوایی که درباره‌ی یک عبارت ارائه می‌دهید اکثر اهداف جستجوی آن عبارت را پوشش دهد. تا وب‌سایت شما بتواند شامل تمام اهداف احتمالی جستجو برای مجموعه یا خوشه مربوطه باشد. پایه و اساس خوشه‌بندی، سه نوع شباهت است:

    • شباهت واژگانی
    • شباهت معنایی
    • شباهت کلیک

    پوشش موضوع

    برای اینکه یک محتوای جامع راجع به یک موضوع بنویسید، می‌توانید طبق دستورالعمل زیر پیش بروید:

    1. توضیح موضوع
    2. ایجاد فهرستی از ویژگی‌ها و خصوصیات
    3. اختصاص بخشی به هر یک از ویژگی‌ها و خصوصیات
    4. لینک‌دهی هر بخش به مقاله‌ای که کاملاً به آن موضوع اختصاص دارد
    5. شناسایی مخاطبان هدف و تعیین تعاریف
    6. بررسی نکاتی که باید مورد توجه قرار گیرند
    7. بیان فواید و مزایا
    8. بیان مزایای تکمیلی
    9. توضیح عملکرد موضوع
    10. چگونگی دستیابی به موضوع
    11. نحوه انجام آن
    12. بیان اینکه چه کسانی قادر به انجام آن هستند؟
    13. لینک‌دهی مجدد به همه دسته‌بندی‌ها

    دیگران همچنین پرسیده اند

    Salience Score امتیاز یا نمره‌ای است که گوگل به کمک یکسری ابزار به محتوا اختصاص می‌دهد و یکی از ملاک‌هایی است که نشان می‌دهد محتوا از نظر گوگل چگونه است.

    مثال بالا از یک مقاله‌ در مورد موجودیت‌ها که در سال ۲۰۱۸  نوشته شده برگرفته شده است.

    نتایج به دست آمده به کمک ابزار Google Cloud’s Natural Language API

    نتایج بالا به کمک ابزار Google Cloud’s Natural Language API بدست آمده است. در این مثال، موجودیت‌های فرد (person)، سازمان (organization) و سایر (other) قابل مشاهده هستند.

    هنگامی‌ که راجب یک موجودیت در محتوای خود صحبت می‌کنید هر واژه، جمله و یا پاراگرافی که به کار می‌برید و می‌نویسید اهمیت زیادی دارد.

    هر یک از این واژه‌ها و جملات می‌تواند فهم و درک گوگل از موضوع را تغییر دهد.

    زمانی‌ که می‌خواهید مطمئن شوید گوگل عبارت را همانطور که می‌خواهید درک می‌کند یا نه، بهتر است از ابهام‌زدایی بهره بگیرید.

    به این صورت که یک یا دو پاراگراف به محتوای خود اضافه یا از آن کم کنید و یا به صورت‌های مختلف آن را اصلاح کنید تا ببینید در کدام صورت امتیاز Salience بالاتری کسب می‌کند.

    این را بدانید همواره باید سعی کنید ابهام زبان و کلمات را برای گوگل رفع کنید.

    ملاک‌های ابهام‌زدایی بصورت زیر است:

    • میزان اهمیت موجودیت‌ها و واژه‌هایی که در ابتدا به آن‌ها اشاره می‌کردند نسبت به تغییرات جدید
    • میزان شباهت معنایی موجودیت و متنی که در پیرامون آن ذکر شده
    • میزان انسجام کلی بین تمامی اقدامات صورت گرفته و موجودیت ذکر شده

    نحوه لینک دهی موجودیت‌ها

    در ابهام‌زدایی محتوای نوشته شده، استفاده از Schema یکی از محبوب‌ترین روش‌ها است. در این روش موجودیت‌ها در وبلاگ به منابع و پایگاه دانش ساختاریافته لینک می‌شوند.

    لینک‌ دادن موجودیت‌ها در متن ساختار نیافته به یک پایگاه دانش ساختار یافته، به‌طور چشمگیری توانایی کاربران را در استفاده از اطلاعات افزایش می‌دهد.

    برای مثال وقتی در حال خواندن یک محتوا یا سند هستید می‌توانید با کلیک بر روی موجودیت‌ها، اطلاعات بیشتری در مورد آن‌ها به دست بیاورید و به آسانی به موجودیت‌های مرتبط دسترسی پیدا کنید.

    همچنین می‌توانید هنگام نگارش محتوا، انتیتی‌های موجود در متن را شناسایی و برچسب‌گذاری کنید تا در مراحل بعدی مانند بازیابی اطلاعات و نمایش نتایج به کاربر مورد استفاده قرار گیرند و به‌طور کلی باعث تعامل بهتر کاربر با نتایج جستجو شوند.

    حاشیه نویسی موجودیت‌ها

    در اینجا می‌توانید محتوای سوالات متداول که با استفاده از Schema برای موتور جستجوی گوگل ساختاردهی و برچسب‌گذاری شده‌اند را ببینید.

    در این مثال Schema مواردی چون توصیفی از متن، شناسه و اعلام موجودیت اصلی صفحه را ارائه می‌دهد.

    یادآوری: گوگل برای درک بهتر ساختار اطلاعات موجود در یک صفحه، نیاز به استفاده از عناوین یا تگ هدینگ H1 تا H6 دارد.

    با استفاده از Schema به گوگل کمک می‌کنیم تا بهتر بتواند ارتباط بین متن یک صفحه و پایگاه‌ داده‌های ساختاریافته‌ی مرتبط را تشخیص دهد.

    همچنین Schema با جمع‌آوری نام‌های جایگزین و مترادف برای موجودیت‌ها، قدرت تشخیص گوگل در شناسایی روابط معنایی بین کلمات متفاوت اما مرتبط با یک موجودیت را می‌دهد.

    در واقع شما با بهینه‌سازی اسکیما، NER یا همان تشخیص موجودیت (entity recognition) که با نام‌های entity identification و entity extraction و یا entity chunking نیز شناخته می‌شود را بهینه‌سازی می‌کنید که باعث می‌شود الگوریتم‌های شناسایی و استخراج موجودیت‌ها بهتر عمل کند و موجودیت‌ها دقیق‌تر شناسایی شوند.

    یکی از ایده‌های این بهینه‌سازی، ابهام‌زدایی از موجودیت، ویکی‌سازی و لینک‌دهی به موجودیت‌ است.

    شناسایی موجودیت نامگذاری شده

    در کتاب Entity-Oriented Search آمده است:
    «ویکی‌پدیا با ارائه فهرست جامعی از موجودیت‌ها همراه با منابع ارزشمندی مانند لینک‌ها، دسته‌ها، صفحات تغییر مسیر و ابهام‌زدایی به شناسایی و ابهام‌زدایی موجودیت‌ها بسیار کمک کرده است.»

    چگونه فراتر از پیشنهادات ابزارهای سئو پیش برویم؟

    من در دوره سئو سفینه توضیح داده‌ام که متاسفانه افراد تازه کار در سئو از ابزارهای درون صفحه‌ای (on-page) برای بهینه‌سازی محتوای خود استفاده می‌کنند. قاعدتاً هر کدام از این ابزارها توانایی‌ محدودی در شناسایی محتوای برتر دارند.

    در بیشتر موارد ابزارهای on-page تنها نتایج برتر SERP را جمع‌آوری می‌کنند که بر اساس آن تنها می‌توانید محتوای خود را شبیه‌سازی کنید.

    این را باید به خاطر داشته باشید که گوگل به دنبال همان اطلاعات بازنویسی شده نیست. شما می‌توانید کارهایی که دیگران انجام می‌دهند را کپی کنید و عیناً آن‌ها را در محتوای خود بیاورید، اما دیگر نباید دنبال برتر شدن باشید. چون کلید برتری، خاص و منحصر به فرد بودن اطلاعات است.

    اگر محتوایی را که ارائه می‌دهید کل موضوع را پوشش دهد و سطح جدیدی از اطلاعات مربوط به موجودیت را ارائه دهد، پس از مدتی گوگل محتوای جدید را بررسی می‌کند و با مطالب جدیدی که شما آن‌ها را عنوان کرده‌اید پایگاه دانش مربوط به آن موجودیت را بروز می‌کند.

    در نتیجه با ارائه‌ی این مطالب و بهبود شناسایی موجودیت وب‌سایت شما برای گوگل یک مرجع شناخته می‌شود که این تغییرات بروز شده را به وب‌سایت شما به عنوان منبع اولیه ارجاع می‌دهد.

    به‌طور کلی شما با ارائه‌ی یک محتوای ارزشمند و کامل در رابطه با یک موضوع خاص می‌توانید وب‌سایت خود را در آن حوزه به عنوان یک مرجع معتبر شناخته کنید.

    گوگل نیز با تجزیه‌ و تحلیل محتوا اطلاعات جدید و با ارزشی که توسط شما ارائه می‌شود را شناسایی می‌کند.

    اگر این استراتژی را به همین منوال و در رابطه با موضوعات دیگر ادامه دهید می‌توانید به یک مرجع بزرگ نه بر اساس اتوریتی دامنه، بلکه بر پایه پوشش عمیق موضوعی تبدیل شوید.

    بیایید برایتان یک مثال بزنم. برای مثال عبارت فلای فیشینگ را در ویکی‌پدیا سرچ می‌کنیم و اطلاعاتی مانند گونه‌های ماهی، تاریخچه، خواستگاه، توسعه، پیشرفت‌های تکنولوژیکی، گسترش، روش‌های ماهیگیری، ریخته‌گری، ریخته‌گری ماهیگیری، صید ماهی قزل‌آلا با مگس، تکنیک‌های فلای فیشینگ، ماهیگیری در آب سرد، صید ماهی قزل‌آلا با مگس خشک، پوره‌گیری برای قزل‌آلا، صید قزل‌آلا، رهاسازی قزل‌آلا، ماهیگیری با مگس آب شور و… بالا می‌آید.

    در حالی که این صفحه نمای کلی و عالی از موضوعات را ارائه می‌دهد اما می‌توانیم ایده‌های دیگری که از موضوعات مرتبط از نظر معنایی می‌آیند را نیز اضافه کنیم.

    برای مبحث «ماهی» می‌توانیم چندین موضوع دیگر از جمله ریشه‌شناسی، تکامل، آناتومی و فیزیولوژی، ارتباطات ماهی، بیماری‌های ماهی، حفاظت و اهمیت برای انسان را نیز اضافه کنیم.

    شما می‌توانید با تکیه بر تفکر خلاقانه انسانی، بر تغییرات هدف جستجو متمرکز شوید و آن‌ها را هدف قرار دهید.

    برای مثال ببینید آیا کسی آناتومی ماهی قزل‌آلا را با اثربخشی برخی از تکنیک‌های ماهیگیری مرتبط کرده است؟ آیا یک وب‌سایت ماهیگیری همه گونه‌های ماهی را پوشش داده است و در عین حال انواع تکنیک‌های ماهیگیری، میله‌ها و طعمه‌ها را به هر ماهی ارتباط می‌دهد یا خیر.

    شما باید بتوانید ببینید که چگونه می‌توانید موضوع را گسترش دهید و این‌ها را باید هنگام برنامه‌ریزی کمپین محتوا در نظر داشته باشید.

    سعی کنید از مطالب تکراری استفاده نکنید بلکه منحصر به فرد باشید و ارزش بیشتری به مطالب موجود اضافه کنید.

    نظر شما در مورد این محتوا؟