Яндекс Пошук по картинках і хвороби зростання

18.09.2015

Яндекс
Пошук по картинках і хвороби зростання

March 27th 2011, 20:17

В останні дні в блогах обговорюється нібито має місце цензура в пошуку по картинках Яндекса. Насправді у нас трапився технічний форс-мажор, хвороба росту.

на Жаль, технічний збій в сервісах Яндекса інтерпретується як акт цензури не в перший раз – прихильниками різних партій і точок зору. Ми розуміємо, що підозри народжуються легко, а розсіюються довго, тому вважаємо за потрібне докладно розповісти, що саме сталося.

Ми запустили пошук по картинках влітку 2002 року, і тоді в нашій базі було приблизно 12 мільйонів зображень. До грудня 2010 року їх кількість збільшилася до 1,8 мільярдів. При цьому ми переважно індексували картинки, розміщені на російськомовних ресурсах, а в зарубіжному інтернеті відбирали найпопулярніші картинки з найбільш цікавих сайтів. Але для якісного відповіді нашому користувачеві потрібно добре знаходити та індексувати картинки зі всього світового інтернету.

Тому в грудні минулого року команда Яндекс.Картинок приступила до масштабної індексації картинок в світовому інтернеті. Вона поставила перед собою мету збільшити кількість закордонних картинок в 5 разів, при цьому не забуваючи про підвищення якості сервісу. Це велика і цікава задача, яка вимагає архітектурних змін в пошуку по картинках.

Раніше в пошуку по картинках нова пошукова база викладалася раз в тиждень. Щоб викласти нову пошукову базу, недостатньо просто скачати картинки з інтернету. Для них ще потрібно побудувати зменшені копії, знайти і зв’язати між собою дублікати, видалити спам і т. д. Досить сказати, що розмір нашого картіночного індексу зараз — 3 терабайта, а зменшених копій зображень, які теж зберігаються у нас на серверах, — 25 терабайт.

На жаль, при такому різкому розширенні індексу трапилася хвороба росту. Створення зменшених копій, склейка дублікатів та інші процеси формування бази стали займати значно більше часу.

Ми сподівалися, що ось-ось впораємося і викладемо нову базу картинок, але недооцінили масштаб того, що відбувається. Ми занадто різко натиснула на педаль газу, але забули пристебнути ремені. В результаті накопичився великий розрив між датою, коли наш робот скачав картинку, і датою її появи в пошуку.

Сьогодні цей розрив становить непрощенні 6 тижнів. Найсвіжіша картинка в базі датується 13 лютого, а сама база була викладена в пошук 10 березня. Відповідно, зараз наші користувачі не можуть знайти фотографії, які з’явилися в інтернеті пізніше 13 лютого. Наприклад, зображення наслідків землетрусу в Японії, який стався 11 березня, конкурс плакатів у блозі Олексія Навального або фото з громадянської війни в Лівії.

У вівторок відбудеться найбільше оновлення зарубіжної частини бази в історії нашого картіночного сервісу. Її загальний обсяг складе 3,9 млрд зображень, що більш ніж в 2 рази більше грудневих показників. У цій базі будуть зображення, які з’явилися в інтернеті до 27 лютого, наприклад, конкурс плакатів і початок війни в Лівії, а події в Японії – ні, тому що вони сталися у березні.

Таким чином, відставання скоротиться з 6 тижнів до 4, що все одно неприйнятно. Але вже через тиждень, коли відбудеться наступне збільшення бази, ми скоротимо цей розрив до 2 тижнів.

А скоро на Яндексі з’явиться пошук по зображеннях зі всього інтернету з повністю актуальною базою.

Дмитро Бєляєв,

Керівник мультимедійних пошуків Яндекса

P. S. Приношу вибачення нашим користувачам за тимчасові проблеми з якістю сервісу.

Короткий опис статті: пошук по картинках В останні дні в блогах обговорюється нібито має місце цензура в пошуку по картинках Яндекса. Насправді у нас трапився технічний форс-мажор, хвороба…

Джерело: Яндекс — Пошук по картинках і хвороби зростання

Також ви можете прочитати