Як змусити машину шукати образи

15.09.2015

Фоторобот

Дмитро Навколо «Expert Online» 02 січ 2013

Ілюстрація: Експерт Online

Як змусити машину шукати образи

«Яндекс» слідом за гігантом Google запустив новий пошуковик не за словами, а за картинками. CBIR (Content-based image retrieval – «Пошук зображень за змістом») – в просторіччі «Сибір». В «Яндексі» є правило, яке впровадив гендиректор Аркадій Волож. Він сформулював це так: не треба братися за розробку продукту, якщо не зможеш пояснити мамі, в чому його необхідність.

Сюжети
Нові технології:
Теги

CBIR – це технологія комп’ютерного зору, яка допомагає шукати картинки, повністю ідентичні з завантаженої людиною. Втім, важливо розуміти, що, на відміну від пошуку за словами, це нововведення не буде таким популярним. По-хорошому, сервіс по пошуку зображень буде необхідний не частіше разу на тиждень, а то й на місяць. Навіщо людству пошук по картинках, «РР» з’ясовував у Олександра Крайнова, керівника технологій комп’ютерного зору компанії «Яндекс».

Навіщо взагалі потрібно освоювати «Сибір»?

Один з частих сценаріїв: людині потрібно дізнатися, що за «звір» на картинці. Чи не можна дізнатися вченого по фотографії. Інший випадок: для презентації вам потрібна точно така ж картинка, але в іншій якості. «Сибір» допоможе знайти картинку більшого дозволу і, що досить часто потрібно, без логотипів.

Технологія також може бути корисна, якщо ви зацікавитесь фотографією конкретного офісного стільця з невідомого вам каталогу. Сервіс покаже, на яких сайтах інтернет-магазинів опублікований знімок.

Що відбувається з картинкою після її завантаження?

Для користувача все виглядає просто: заходиш в «Яндекс.Картинки», завантажуєш зображення або даєш на нього посилання – вирішуєш свою задачу. Наприклад, дізнаєшся, що або хто на ній зображений. З точки зору технологій-це дуже складне завдання. За лічені частки секунди пошукова машина перетворює картинку в набір так званих «візуальних слів».

«Візуальні слова» – це зручні для пошуку чисельні подання ключових точок зображення. Що цікаво, колір картинки не має значення – технологія «бачить» чорно-білі тони. Після цього машина вибирає серед десятків мільярдів картинок інтернету ті, де зустрічаються ті ж самі «візуальні слова». І відбирає ідентичні.

Скільки часу потрібно на розробку «Сибіру»?

Важко підрахувати. Ми запустили проект пару тижнів тому – 9 вересня. Втім, від розмови: «Круто б зробити таку річ, а давайте спробуємо» – пройшло близько двох років. При цьому запуску «Сибіру» дуже допомогли попередні розробки. Ми використовуємо технології комп’ютерного зору в різних проектах більше п’яти років. Але цей запуск – найбільш складний з точки зору технологій.

чи Є зв’язок між появою пошуку і популярністю соцмереж, де головне повідомлення – це картинка?

Прямого зв’язку немає, проте є досить багато сценаріїв, коли пошук за схожим картинок може бути корисний для користувачів соціальних мереж. Наприклад, можна перевірити, справжню фотографію розмістив користувач на сторінці. Якщо це фотографія селебріті, вона з великим ступенем ймовірності знайдеться. Інший випадок: хтось опублікував фотографію пам’ятки, але не вказав джерело. Пошук по фотографіях допоможе знайти сайти, де опублікований знімок. В принципі в майбутньому можливо захоплювати контент «Инстаграма» і «Тумблера». Складнощів у плані технологій тут немає.

Зараз актуальна тема «піратства». Депутати прийняли заборону на поширення відео, на черзі – тексти та аудіо, а за допомогою технології можна виявити порушення авторських прав з зображень?

Ні, ми можемо показати, хто перший опублікував зображення в інтернеті. Однак автор міг викласти фотографію в інтернет пізніше за інших, тому черговість – це недостатня інформація. Встановлювати правоволодільця за розміром зображення також некоректно – викласти картинку в гарному якості може хто завгодно.

Де ще використовуються технології комп’ютерного зору?

Насамперед, розповім, де використовується в «Яндексі». Для нас, наприклад, цікавий досвід був у Туреччині, коли ми знімали міста для «Яндекс.Панорам». Місцеве законодавство забороняє публікацію осіб та номерів автомобілів в інтернеті, і нам довелося розробляти свою систему детектування, що виявилося непростим завданням. Як показують дослідження, ми можемо дізнатися знайомого на дуже маленькій картинці – розміром всього 14х14 пікселів. При цьому жодна особа не повинно було бути видним на цих «Панорама». З машинами також була своя специфіка. Крім того, при фотозйомці «Панорам» номери автомобілів розташовуються під різними кутами, що ускладнювало завдання.

Варто розуміти, що комп’ютерне зір використовується в самих різних галузях, наприклад, у медичній сфері – рентгенографії. Завдяки машинному аналізу зображення можна виявити різні патології. Також цим технологіям знайшли застосування в геологорозвідці та біології.

Поступово ми будемо розвивати здібності до узагальнення, наприклад, знаходити не просто таку ж картинку, а інше зображення, що містить такий об’єкт. Наприклад, автомобіль на постері до прем’єри фільму. В цю сторону зараз дивиться вся наука і індустрія розпізнавання

Наскільки сервіс може бути корисний для розпізнавання осіб?

Детектор осіб використовується і в інших сервісах компанії, наприклад, для фільтра за портретами в «Яндекс.Картинках». Він дозволяє залишити у видачі особи крупним планом. Або в «Яндекс.Фотках». Там у нас працює не тільки детектор, але і розпізнавання осіб. Це допомагає користувачам відзначати друзів на зображеннях.

Зараз вже можна оцінити, який відгук у користувачів отримав запуск сервісу?

Поки рано узагальнювати результати! Зараз користувачі більше «пробують» сам сервіс – шукають схожі картинки по відомим місцям, людям. І поки це більше «фан», ніж вирішення конкретних практичних завдань.

Поступово ми будемо розвивати здібності до узагальнення, наприклад, знаходити не просто таку ж картинку, а інше зображення, що містить такий об’єкт. Наприклад, автомобіль на постері до прем’єри фільму. В цю сторону зараз дивиться вся наука і індустрія розпізнавання.

Можна назвати пошук по відео і музики новим викликом для комп’ютерного зору? По стоп-кадру можна зрозуміти, про який стрічці йдеться? Або видеопоиск призведе до навантаження на сайт, схожою з DDOS-атакою?

Пошук по статичній картинці з відео можливий, але вимагає великих інфраструктурних витрат. Що стосується музики, мобільний додаток «Яндекс.Музика» вже вміє шукати по фрагменту композиції, але це інша технологія.

Навесні китайський Baidu анонсував слідом за американцями запуск технології на зразок окулярів Google Glass. За їх словами, це гарнітура з LCD-дисплеєм, який буде розпізнавати обличчя і робити пошук за картинками. У чому ж відмінність Google Glass і подібних від «Сибіру»?

Проект очок – це не засіб розпізнавання. Це дисплей і камера, зображення з якої через Bluetooth передається на телефон, а з нього – на сервер. Потім з тієї ж ланцюжку назад.

Багато проектів, зайняті пошуком зображень, були закриті із-за маленького фотобанку. Стратегічна перевага, як я розумію, – це «Яндекс.Картинки», ними щомісяця користується понад 30 млн осіб. У чому ще унікальність «Сибіру», якщо порівнювати з сервісами конкуруючих компаній – Google і Tin E ye?

Все-таки не зовсім коректно говорити про те, що компанії конкурують між собою, скоріше, є спільні глобальні виклики. З точки зору користувача, ми практично нічим не відрізняємося. Користувач завантажує потрібну картинку, а пошукова система знаходить такі ж картинки в інтернеті. Для користувача помітні хіба що відмінності в інтерфейсах. Основні відмінності – у використовуваних технологіях. При цьому порівнювати повноту пошуку досить важко: якісь зображення шукає краще один пошуковик, інші – інший.

Baidu, наприклад, менше знаходить «наші» картинки. При цьому цілком можливо, що Baidu краще шукає картинки, які завантажують китайські користувачі. Зі світових компаній не можна не відзначити Microsoft і Google – вони приділяють комп’ютерного зору дуже багато уваги. При цьому комп’ютерне зір – це настільки передова область, що правильніше говорити не про конкуренцію, а про однаково складні виклики.

Короткий опис статті: мобільний пошук по картинці Як змусити машину шукати образи Нові технології,Яндекс,Бізнес-лідери,Практика бізнесу,Стратегія розвитку,Росія

Джерело: Як змусити машину шукати образи

Також ви можете прочитати