Опис мов запитів різних пошукових машин. Інтернет-розвідка. Керівництво

13.09.2015

Мова запитів пошукової машини » Яндекс

Краща, на наш погляд, робота по вивченню операторів пошукової машини » Яндекс виконана спеціалістом з Санкт-Петербурга Денисом Фурсовым. На його ресурсі[3] постійно проводяться додаткові дослідження, відслідковуються та оцінюються зміни в роботі операторів зазначеної пошукової машини.

Нижче мова піде про те, як за допомогою спеціальних фільтрів, заснованих на Булевої алгебри, створювати запити, які максимально відповідають потребам фахівця, який шукає інформацію в Інтернеті.

При вивченні цього питання, не слід забувати, що комп’ютер дуже обов’язковий, але позбавлений здатності думати, тому слід складати запит, виходячи з того, що він буде оброблятися комп’ютером буквально, а не з урахуванням того, що ж насправді мав на увазі користувач, створюючи своє звернення.

Краще всіх проілюстрував цю думку влітку 2005 р. Олексій Амилющенко, головний аналітик відділу маркетингу Яндекса на наступному прикладі.

Ось ще одна історія з семінарів, але її доводиться розповідати не дуже часто. Іноді трапляється, що заходить розмова про те, що добре б пошукових систем враховувати не тільки слова, які є в індексованих документах, але і зміст написаного. У відповідь кажу, що знаю фразу, про яку людина не скаже, про що це. Ось вона.

Ці типи сталі є в прокатному цеху.

Та що тут написано? Я знаю, мінімум, три різних сенсу. Не підглядайте у відповідь

відразу нижче). Спробуйте спочатку самостійно…

Звичайно, коли це пропозиція бачить зал, спочатку стає тихо (видно, що думають),

потім починаються смішки (до когось дійшло), потім хихикають вже все.

Але до справи, що ж тут все-таки написано?

1. Нудний такий варіант.

Ці типи сталі (варіанти металопрокату) є (є в наявності) у прокатному цеху.

2. Більш творчий, з елементами мізантропії.

Ці типи (неприємні автору особистості) стали (почали) є (приймати їжу) у прокатному цеху.

3. Дещо надуманий, звичайно, але…

Ці типи сталі (варіанти металопрокату) є (належить приймати в їжу) у прокатному цеху.

Ось бачите, навіть протеїнові мізки не справляються, а ви хочете, щоб у силіконових це виходило.

Текст запиту ми будемо розміщати в квадратні дужки [] для того, щоб візуально виділити його з тексту книги. Якщо шановний читач вирішить ввести наведені нижче запити в пошукову рядок пошукової машини, щоб перевірити їх працездатність на практиці, то ці квадратні дужки вводити не треба.

Отже, перейдемо безпосередньо до операторів запитів Яндекса.

1. Логічне «І».

Яндекс підтримує три різних оператора, що належать до логічного «І», що робить його самим гнучким із всіх пошукачів, які працюють з російською мовою. Настільки розвинена, практично унікальна система операторів пошукових запитів дає можливість максимально точно налаштувати запит і сформувати такий фільтр для даних в Інтернеті, який максимально якісно вибирає потрібну інформацію і відсікає непотрібну.

1.1. Пробіл.

Слова, розділені пробілом, повинні розташовуватися недалеко один від одного. Фахівці пояснюють, що термін «недалеко» аж ніяк не фіксована величина і змінюється в залежності від того, з якими словами зазначений оператор в кожному конкретному випадку використовується. Якщо вони часто вживаються, то «недалеко» – значить, на відстані кількох слів один від одного. Якщо ж вони рідко зустрічаються у побуті, то навіть їх знаходження в різних кінцях документа буде сприйматися як «недалеко».

При цьому, незважаючи на те, що логічне «І» в загальному вигляді Булевої алгебри передбачає присутність всіх згаданих слів, Яндекс, тим не менш, дійсно видає спочатку ті документи, в яких є всі ключові слова, подані у запиті. Після чого починає видавати документи, в яких на одне ключове слово менше, ніж у запиті, потім – на два слова менше і так далі.

Запит: [маркетинг менеджмент]

Результат пошуку: сторінок – 2 442 393, сайтів – не менше 1456

У видачі: Маркетинг. Фінанси, Реклама, Менеджмент

1.2. Амперсанд (&).

Слова, розділені амперсандом, знаходяться в одному реченні. Важливо. амперсанд повинен бути відділений пробілами з двох сторін від будь-яких інших слів.

Запит: [маркетинг & менеджмент]

Результат пошуку: сторінок – 1 190 379, сайтів – не менше 1093

У видачі: … Філіп Котлер у стислій формі представляє всі найбільш значні і цікаві положення найвідомішою своєї роботи «Маркетинг менеджмент »…

1.3. Подвійний амперсанд (&&).

Слова, розділені подвійним амперсандом, знаходяться в будь-якому місці одного і того ж документа.

Важливо. між амперсандами не повинно бути пробілів, але сам оператор повинен бути відділений пробілами з двох сторін від будь-яких інших слів.

Запит: [маркетинг && менеджмент]

Результат пошуку: сторінок – 3 641 056, сайтів – не менше 1 295

У видачі, приміром, будуть присутні навчальні плани внз, у яких слова «маркетинг» і «менеджмент» знаходяться в різних частинах тексту, в тому числі – на різних сторінках, опублікованого в Інтернеті багатосторінкового плану занять.

Щоб побачити це наочно, читачі можуть натиснути в результатах видачі гіперпосилання «Знайдені слова», яка наводиться у всіх підсумки пошуку. І тоді слова, які є в запиті, будуть підсвічені й не доведеться витрачати час на їх «відлов» в тексті.

2. Логічне «НЕ».

Логічне «НЕ» представлено двома операторами.

Перш ніж розповісти про них, відповім на питання, яке часто виникає у людей, які вперше приступили до вивчення операторів пошуку: «Навіщо потрібно логічне „НЕ“? Адже його можна зовсім не вводити, і тоді воно нам не знадобиться!». Відповідаємо: якщо ми самі вирішуємо, що нам писати, а що ні, то це твердження справедливо. Але проблема в тому, що часто у видачі примусово виявляється «сміття» і іншого способу позбавитися від нього, крім як прибрати ці слова за допомогою логічного «НЕ», у нас немає. Так, наприклад, якщо вас цікавить коньок даху, то за словом «коник» у видачі виявиться інформація і про роликових, і про фігурних ковзанах, і навіть про Коники-Горбунок. Для таких випадків логічне «НЕ» і придумано.

Отже, повернемося до нашим операторам.

2.1. Тильда (

Знак тільди – це верхня ліва клавіша на алфавітно-цифровій клавіатурі. Символ вводиться на англійській регістрі з натиснутою клавішею SHIFT. Як і амперсанд, тільда повинна бути відокремлена пробілами з обох сторін. Часто припускаються помилки, «приклеюючи» тильда до наступного за нею речі. Іноді відсутність пробілу між тільдою і наступним словом не впливає на результат, але буває і навпаки, тому краще уважно простежити за пробілами навколо цього знака.

Тільда означає, по аналогії з діаметрально протилежним символом – амперсандом, що слова не повинно бути в реченні.

Запит: [маркетинг

менеджмент]

Результат пошуку: сторінок – 12 604 153, сайтів – не менше 4442

У видачі: … комплексний підхід до послуги інтернет-маркетингу, що охоплює всі можливості для просування інтернет-представництв компаній в мережі Інтернет.

2.2. Подвійна тильда (

За аналогією з подвійним амперсандом, подвійна тільда пишеться разом всередині самого цього оператора, але відокремлюється від інших слів пробілами з обох сторін.

Вона означає, що слова, яке за ній розташоване, не повинно бути в документі зовсім.

Запит: [маркетинг

менеджмент]

Результат пошуку: сторінок – 9 675 995, сайтів – не менше 3 976

У видачі: Форум по маркетингу і рекламі – Маркетинг та Реклама, маркетингові комунікації, види реклами: реклама в ЗМІ (друкована реклама, телереклама, радіореклама), зовнішня реклама, BTL: POS-матеріали, У вас є питання по маркетингу і рекламі?

Зверніть увагу: в результатах видачі слова «маркетинг» і «маркетингу» виділені як релевантні, «маркетингові» ж – немає. Це відбувається тому, що термін «маркетинг» – іменник, а «маркетингу» – його словоформа, тоді як «маркетингові» – зовсім інша частина мови, а аж ніяк не похідне від слова «маркетинг». Подібне явище треба враховувати, якщо ви розраховуєте на здатність Яндекса самостійно перебирати словоформи. Ігнорування цього факту нерідко призводить до спотворення результатів видачі і також є частою помилкою початківців фахівців з пошуку в Інтернеті.

насправді, в Яндексі є ще один оператор логічного «НЕ», який позначається знаком «мінус». На думку Дениса Фурсова, з яким автор повністю згоден, _ «мінус» – це не завжди коректно працює подвійна тільда, тому користуватися ним сенсу немає. Ми не знаємо напевно, але припускаємо, що знак «мінус» в якості логічного «НЕ» – це спосіб уніфікувати Яндекс з іншими пошуковими машинами, оскільки в більшості своїй вони позначають логічне «НЕ» саме цим знаком. Ми не користуємося оператором «мінус» при пошуку в Яндексі.

3. Логічне «АБО» (оператор |).

Логічне «АБО» представлено оператором, який має вигляд вертикальної риси |.

На клавіатурі цей оператор знаходиться зазвичай вище (рідше він розташований нижче) клавіші Enter і вводиться в англійській регістрі, при натиснутій клавіші SHIFT.

У переважній більшості випадків оператор | і слова, з якими він використовується, беруться в дужки, так як найчастіше цей оператор відноситься відразу до двох і більше слів.

Якщо ми хочемо зробити запит, який повинен показати, що нас цікавить документ, що містить в одному реченні слова «маркетинг» і «менеджмент», але при цьому ніде по тексту не повинно бути слів «курс», «робота», «конференція», «теорія», «книга», «семінар», «бізнес», «прибуток», «клієнт», то сформулювати його наступним чином:

[маркетинг & менеджмент

курс | робота | конференція | теорія | книга | семінар | бізнес | прибуток | клієнт)]

Результат пошуку: сторінок – 46 082, сайтів – не менше 1483

У видачі: Форуми Sostav.ru / Дошка оголошень / Продам Маркетинг Менеджмент Котлера

Або:

Відповіді до госам з дисципліни Маркетинг – Менеджмент (за конспектами викладачів Спбду)

Зверніть увагу, що дужки, як в арифметиці при винесенні за дужку спільного множника, дозволяють поширити дію оператора «подвійна тільда» на всі слова, розташовані всередині них.

до Речі, для зручності сприйняття цей запит краще оформити так, щоб слова «маркетинг» і «менеджмент» були згруповані. Смислового навантаження це не несе, а тому і на видачу не впливає, проте знижує ймовірність того, що ви самі заплутаєтеся у своєму запиті, якщо він буде досить довгим. Відповідно, ми б радили звернутися до пошуковику так:

[(маркетинг & менеджмент)

курс | робота | конференція | теорія | книга | семінар | бізнес | прибуток | клієнт)]

4. Яндекс враховує морфологію слів.

Це означає, що Яндекс на запит «Облік» видасть результати, що містять слова «Обліку», «Обліком», «Обліку» і т. п. які він виділяє як релевантні темі пошуку.

Запит: [Облік]

У видачі: Останній день здачі індивідуальних відомостей персоніфікованого обліку закінчується 1 березня 2006 року.

Результат пошуку: сторінок – 23 287 782, сайтів – не менше 13 745

Запит: [Урахуванням]

ведення бухгалтерського обліку постачальника, насамперед обліку реалізації

У видачі: Облік російської морфології Підсвітка знайдених…Yandex пошукова система з врахуванням морфології російської мови Росія…

Результат пошуку: сторінок – 23 675 161, сайтів – не менше 13 745

5. Можна відключити підтримку морфології слів.

Якщо слова з мінливими закінченнями «засмічують» результати, то можна змусити Яндекс шукати тільки слова в потрібній словоформі. Це буває корисно, наприклад, при збігу назви компанії з загальновживаними словами. Скажімо, малоймовірно, щоб фірма «Ріка» згадувалася в публікаціях зі словами «Річці» або «Річку».

Для того щоб примусово шукати тільки потрібну словоформу в Яндексі, використовують оператор знак оклику. Він пишеться разом зі словом, яке за ним слід, як якщо б цей символ був першою його буквою.

Запит: [!Річка]

У видачі: Рекламне агентство Річка – розміщення реклами…

Результат пошуку: сторінок – 2 267 142, сайтів – не менше 4976

А якщо зробити запит без знака оклику: Річка

У видачі: Річкові круїзи по річках Росії і Європи

Результат пошуку: сторінок – 10 470 689, сайтів – не менше 13 932

Видно, що кількість сторінок і сайтів у разі запиту з оператором «знак оклику» зменшується майже у п’ять разів за рахунок виключення форм слова «річка», таких як «річки», «річкою», «річок» та ін.

6. Заголовні і малі літери.

Яндекс періодично змінює деякі нюанси в цьому питанні, намагаючись, однак, дотримуватися головного правила: слова, написані з маленької літери, будуть видаватися і з маленькою, і з великої, а слова, написані з великої літери, будуть видаватися тільки з великої. Зміни, які періодично відбуваються в підходах Яндекса до цієї проблеми, зазвичай стосуються спроб виправити найбільш поширені помилки користувачів. Ознайомитися з поточним станом справ можна на сторінці допомоги самого пошукача, так і в роботі Дениса Фурсова. Однак для ефективної роботи досить просто слідувати наведеним у цьому розділі правилом.

Якщо ж слово написано цілком прописними літерами, Яндекс буде розглядати його як представлене великими. Тобто, результати введення в пошуковий рядок поняття «РІТЕЙЛЕР» будуть такими ж, як і в тому випадку, якщо ми оформимо запит інакше – «рітейлер».

Запит: [бухгалтерський Облік]

Результат пошуку: сторінок – 556 606, сайтів – не менше 1984

У видачі: … Положення бухгалтерського обліку «Облік основних засобів» ПБУ 6/01»

Запит: [бухгалтерський облік]

Результат пошуку: сторінок – 5 742 378, сайтів – не менше 2169

У видачі: …постановка, відновлення і ведення бухгалтерського обліку

7. Обов’язкове включення слів запиту про видачу.

Щоб шукані слова неодмінно присутні в документах до видачі, використовується оператор «плюс» (+) .

Для того, щоб наочно показати роботу цього оператора, зробимо запит зі словами, які рідко опиняються в одному документі. При цьому розділимо їх пропуском.

А потім зробимо точно такий же запит, але поставимо знак «плюс» перед кожним словом, заборонивши тим самим Яндексу видавати документи, в яких набір шуканих термінів неповний.

Результати відрізняються разюче – замість тридцяти трьох тисяч сторінок у першому випадку, у другому ми маємо всього вісім!

Запит: [ливарник провізор стоматолог маркшейдер]

Результат пошуку: сторінок – 33 005, сайтів – не менше 1192

Запит: [+ливарник +провізор +стоматолог +маркшейдер]

Результат пошуку: сторінок – 8, сайтів – не менше 4 У видачі:

ОК 010-93: Загальноросійський класифікатор занять (ОКЗ)

… 222 1 Фахівці в охороні здоров’я (крім медичних сестер) 2221 5 Лікарі 2222 9

Стоматологи 2223 2 Ветеринари 2224 6 Фармацевти 2229 4 Фахівці-…

Освіта в Кузбасі

Ливарник пластмас Ливарник кольорових металів…

№ 257 від 27/07/1995, Покажчик, Класифікатор, Держстандарт України для дитячого і підліткового віку 2222.1 23667 – Науковий співробітник (стоматологія) 2222.2 20459 – Лікар-стоматолог 2222.2 20462 – Лікар-стоматолог… 8122.2 13382 7 Листобойщик 8122.2 13384 2 Ливарник вакуумного, відцентрово-вакуумного й відцентрового лиття 8122.2 13388 19 Ливарник виробів із…

Оператор «плюс» буває незамінний і в тих випадках, коли є необхідність обов’язково включити в видачу стоп-слова.

Дуже добре описано в роботі Дениса Фурсова.

Якщо якісь слова повинні бути в результатах, поставте перед ними +’. Допомагає зі стоп-словами. Зараз Яндекс, здається, враховує стоп-слова тільки в запиті з трьох і менше слів (навіть не операндів!). +не купуй (samsung|lg) дозволить знайти негативні відгуки про продукцію цих фірм (порівняйте з простим ‘не купуй (samsung|lg)).

Запит: [+не купуй (samsung | lg)]

Результат пошуку: сторінок – 5 314, сайтів – не менше 1227

У видачі:

phorum – Основний форум – Re: ЛЮДИ, не купуйте Samsung 753 DFX в Wellcome

ЛЮДИ, не купуйте Samsung 753 DFX в Wellcome нове

Запит: [не купуй (samsung | lg)]

[+не купуй (тролейбус | автобус)]

[не купуй (тролейбус | автобус)] —

дають однакову кількість результатів, в яких слово «не» враховується як значущі. Тим не менш, оскільки немає можливості перевірити, як Яндекс відреагував на запит у кожному конкретному випадку, ми рекомендуємо скористатися порадою Дениса і ставити «плюс» перед стоп-словами, як, втім, і перед тими словами, які ви обов’язково хотіли б бачити у видачі.

8. Пошук точної фрази.

Не виключено, що вам знадобиться знайти певну цитату або рекламний слоган якої-небудь компанії.

Для цього використовується оператор «подвійні лапки», аналогічні тим, що застосовуються у прямій мові.

У видачі під час пошуку цитати будуть присутні документи, що містять всі слова шуканої фрази, в тій же формі і послідовності, що і в оригінальній її версії.

Важливо пам’ятати, що точна цитата буде лише в тому випадку, якщо крім фрази, зазначеної в лапках, у запиті не буде ніяких зайвих слів. Якщо крім фрази в лапках з’явиться ще хоч би одне слово, Яндекс буде видавати документи, які містять всі слова цитати, збереже їх послідовність, варіюючи при цьому їх форми. Як наслідок, кількість документів у видачі помітно зросте. Яндекс називає це «слова йдуть підряд».

Запит: [ «ти завжди думаєш про нас»]

Результат пошуку: сторінок – 2905, сайтів – не менше 778

У видачі:

Tefal – ти завжди думаєш про нас. Онлі!!

Tefal, ти завжди думаєш про нас !

X-файли – Тефаль, ти завжди думаєш про нас .

Тефаль, ти завжди думаєш про нас. (антиреклама 1) (Микола Якимчук) | Проза. ру…

Електронний журнал з вільною публікацією творів. Щоденні редакторські огляди кращих творів.

Цікаво поспостерігати за такої злагодженості результатів за тим, як працює оператор виключення слова з речення:

Запит: [ «ти завжди думаєш про нас»

tefal | тефаль)]

Результат пошуку: сторінок – 307 773, сайтів – не менше 1197

У видачі:

Конференції – АвтоКазань – АвтоКазань. Ru

а я от завжди думав (+) >> OldDaddy 20.05.2005 17:21:24

Chel.ru – Новини бізнесу. Довідник промислових, торговельних, громадських і…

Чомусь я завжди думала. що практичні статті д. б. написані ЗРОЗУМІЛОЮ мовою.

Листівки Завжди думаю про тебе!!

> Красиві фотографії, листівки > Листівки > Завжди думаю про тебе. Я Завжди думаю про тебе!!

9. Слова знаходяться на певній відстані.

Цей оператор дуже часто використовується на практиці, так як дозволяє досить чітко обмежити пошук. Вигляд він має наступний: /n, де n, за визначенням самого Яндекса, – це «максимально допустима відстань між двома будь-якими словами запиту».

Денис Фурсов дає таке визначення оператору: «Відстань між словами».

Ми пропонуємо наступним чином запам’ятати значення цифри в операторі: ця цифра (n) показує, яким за рахунком буде друге слово після першого.

Наприклад, якщо в запиті написано:

[річної /1 звіт],

то у видачі буде присутня фраза «річний звіт». Тому що слово «звіт» буде першим після слова «річної». Якщо в запиті написано:

[річної /2 звіт]

то у видачі може з’явитися «річний фінансовий звіт», тому що слово «звіт» може бути другим після слова «річний», а першим може бути будь-яке інше слово.

Сподіваємося, ми пояснюємо доступно, тому що хочемо розповісти ще про двох нюанси оператора відстані між словами.

насправді, за запитом:

[річної /2 звіт]

документи, що містять вираз «річний звіт», також будуть видані, тому що менше значення відстані можливо, а більше – ні. Мало того, видачу потрапить не тільки поєднання «річний звіт», але і «річний звіт». Відстань між словами поширюється на обидва слова.

Якщо ж є необхідність обмежити видачу фразою «річний звіт», виключивши з неї вираз «річний звіт», то оператор можна написати ось так:

[річної /+1 звіт].

Це практично еквівалентно запиту: [річної /1 звіт

«річний звіт»].

Кількість документів у видачі збігається, і в перших рядах в момент складання запиту документ:

Річний звіт – 2005. Про книгу.

Тільки з «Річним звітом – 2005» від журналу «Головбух» ви отримаєте зручний міні-довідник з річного звіту …

Ми не будемо надмірно завантажувати читача описом оператора відстані між словами, так як сказаного цілком достатньо для роботи, а вивчення всіх нюансів функціонування пошукового движка Яндекса не входить у коло основних наших завдань.

Щоб побачити різницю між наявністю і відсутністю знака «плюс» в операторі відстані між словами, проведемо наостанок такий експеримент: спочатку зробимо запит, який дозволяє з’явитися у видачі документів, що містять, відповідно оператору відстані, як фразі «річний звіт», так і «річний звіт», при цьому виключивши з результатів «річний звіт»; а потім створимо запит, що потребує, за рахунок написання оператора відстані між словами, видачі лише «річного звіту», і переконаємося, що при спробі вилучення конкретної фрази «річний звіт» результат отримати не вдасться.

Запит: [річної /1 звіт

«річний звіт»]

Результат пошуку: сторінок – 2042, сайтів – не менше 701

У видачі:

Енциклопедії та словники

Енциклопедії та словники

РІЧНИЙ ЗВІТ

Запит: [річної /+1 звіт

«річний звіт»]

Результат пошуку: сторінок – 0

10. Числоформы (термін, введений Денисом Фурсовым).

Для того щоб при запиті будь-якого потрібного номера (наприклад, номера наказу або телефону) у видачі вам не потрапляли сторонні ІПН, маркування радіоламп і мікросхем, а також інші зайві результати, рекомендується перед номером, який ви шукаєте, поставити знак оклику або взяти його в лапки.

Короткий опис статті: пошук в гуглі

Джерело: Опис мов запитів різних пошукових машин / Інтернет-розвідка. Керівництво до дії

Також ви можете прочитати