АРМАДА
Яндекс научился находить одинаковые изображения в Интернете
Новая тема Написать ответ

Fraud
Опытный
Зарегистрирован: 27.07.2007
Сообщений: 309
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 1:10 amДобавить в избранноеОтветить с цитатой
А вы думали почему яндекс снова глючит, просто все силы были направлены на поиск клонов картинок Smile

Ссылка на источник

Яндекс.Картинки научились находить одинаковые изображения в интернете. Поиск точных копий картинок никогда не был сложным для поисковиков, но любые небольшие модификации, изменение размеров, добавление надписей и даже просто пережатие JPG помогали картинке стать уникальной и попасть в результаты поиска в виде дубликата.

Наше исследование картинок Рунета показало, что из 600 млн картинок половина уникальна (300 млн), вторая половина склеивается в отношении 3:1, 200 из 300 млн имеют дубликаты только на своем сайте.

Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.

Самый многочисленный класс картинок, оказавшийся в выигрыше, это пары - исходное изображение и его уменьшенная копия, лежащие на одном сайте. Оказывается, что маленькие картинки гораздо чаще хорошо подписаны, но они не попадают на первые страницы поисковиков из-за своих размеров. Благодаря новой технологии мы научились находить маленькую картинку, а показывать ее большой оригинал.

На странице просмотра картинки мы показываем табличку копий картинки на разных сайтах. Сами того не желая, мы рассказываем веб-мастерам о сайтах, которые без разрешения или же во благо воспользовались их творениями. Для этого достаточно лишь найти свою картинку в поиске.

Задача поиска дубликатов оказалась технически сложной. Есть много научных работ на тему интеллектуального сравнения двух изображений, а для специалистов по "компьютерному зрению" задача опознать пару изображений, полученных изменением размеров, не является серьезной задачей. Однако никто из этих специалистов не имел возможности поработать с базой из 600 млн картинок. Попарное их сравнение на одном компьютере потребовало бы около 300 млн лет. К сожалению, обычными методами с помощью хеш-функций задачу решить тоже не удается. Но мы это сделали!

Rabbit
Кролики - это не только ценный мех
Зарегистрирован: 01.08.2005
Сообщений: 19788
Star (Сумма: 1)
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 8:02 amОтветить с цитатой
Laughing Блин лучше бы поиск улучшили
Новое. Прибыльное. Скоро!

m_Stasuk
Дизайнер
Зарегистрирован: 23.12.2007
Сообщений: 5967
Contest (Сумма: 2)
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 8:17 amОтветить с цитатой
так и знал, хреново это )) теперь не только текст надо уникальным делать
Цитата:
Склейка дубликатов позволила найти тот небольшой процент изображений, который интересен многим веб-мастерам, а значит и пользователям. Для таких картинок у нас много подписей, мы можем сравнить их друг с другом и с запросом, чтобы понять, насколько картинка хорошо ему соответствует.



вот что интересно
Зарабатываю на рускамзе
Ростов-на-Дону

eff
V.I.P.
Зарегистрирован: 20.07.2008
Сообщений: 1644
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 10:17 amОтветить с цитатой
Интересно, они научились находить картинку-первоисточник, или как с контентом... источник выкидывать, а потыренное оставлять... r5
Лучшая образовательная партнерка для рунета. Выплаты от 150 руб в любой день по запросу.

vitvirtual
виртуальный
Зарегистрирован: 11.06.2007
Сообщений: 8159
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 11:49 amОтветить с цитатой
да они не будут париться, все что не является первоисточником, будут удалять из Яндекса, либо фильтровать, чаще удалять Wink
Stimul-Cash дает добро $$$$$ | www.King-Servers.com - Dedicated Servers от 65$, VDS от 25$

captain Keen
Опытный
Зарегистрирован: 22.10.2008
Сообщений: 206
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 1:54 pmОтветить с цитатой
Яндекс пиарит себя Laughing
Смешно вообще этот их рекламный пресс-релиз читать. Обойти их "супер-пупер систему" труда не составляет. Они же обрабатывают точные копии, только измененные в размерах. Достаточно crop'нуть картинку и будет она уникальной для яндекс-картинок, ну уж про изменение saturation, наложение сверху watermark'ов я вообще молчу.

[weber]
Опытный
Зарегистрирован: 10.08.2008
Сообщений: 247
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 3:41 pmОтветить с цитатой
Баян. Еще весной обсуждалось, что в серпе по картинкам нету дублей...
Get The F*cking Out - пристанище одинокого и циничного безумца...
Блокнотик и бакстер - не моё Wink

eff
V.I.P.
Зарегистрирован: 20.07.2008
Сообщений: 1644
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 4:01 pmОтветить с цитатой
vitvirtual писал(а):
да они не будут париться, все что не является первоисточником, будут удалять из Яндекса, либо фильтровать, чаще удалять Wink


Ну по контенту они первоисточник не очень-то научились определять... получается, что первоисточник и выкидывают. Sad
Лучшая образовательная партнерка для рунета. Выплаты от 150 руб в любой день по запросу.

semtler
Профессионал
Зарегистрирован: 15.10.2008
Сообщений: 905
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 4:19 pmОтветить с цитатой
m_Stasuk писал(а):
так и знал, хреново это )) теперь не только текст надо уникальным делать


ниче) на пхп можно таково наделать)))))
Автоматические webmoney кредиты: WMCoin

Rabbit
Кролики - это не только ценный мех
Зарегистрирован: 01.08.2005
Сообщений: 19788
Star (Сумма: 1)
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 4:29 pmОтветить с цитатой
[weber] писал(а):
Баян. Еще весной обсуждалось, что в серпе по картинкам нету дублей...

Как это нету... Есть, и еще как. Конечно, если искать "бабочка крылатая" - то нету дублей, а если искать к примеру "сундук сокровищ" - ого-го сколько дублей.
Новое. Прибыльное. Скоро!

Dolphin
Гуру
Зарегистрирован: 23.07.2007
Сообщений: 1326
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 4:31 pmОтветить с цитатой
Да брет это все.
У гугла нет такой системы, а в яндексе подавно.
Rabbit, +1 - лучше бы выдачу улучшили

vitvirtual
виртуальный
Зарегистрирован: 11.06.2007
Сообщений: 8159
Contest (Сумма: 1)
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 9:56 pmОтветить с цитатой
под впечатлением этого топика нарыл (причем у себя на компе!) картинки, которые не знает Яндекс, как раз под рунет тема r5
Stimul-Cash дает добро $$$$$ | www.King-Servers.com - Dedicated Servers от 65$, VDS от 25$

[weber]
Опытный
Зарегистрирован: 10.08.2008
Сообщений: 247
Обратиться по нику
# Добавлено:Чт Ноя 13, 2008 10:36 pmОтветить с цитатой
Цитата:
Как это нету... Есть, и еще как. Конечно, если искать "бабочка крылатая" - то нету дублей, а если искать к примеру "сундук сокровищ" - ого-го сколько дублей.


Ну введи. Нет, конечно, дубли будут по-любому. Но в топе дублей нету. В текстовом поиске есть, а здесь - нету.

Мы это давно обсуждали уже. Была найдена программа какая-то, которая сравнивает изображения и выявляет процент схожести. Берем 2 картинки одинаковые. 100% схожести прога выдает. Ставим на одну вотермарку - схожесть 99-100%. То есть, либо вотермарка должна быть на полкартинки, либо она не решает. Затем меняли тональность, цвет и т.д. Меньше 80% сходства не удавалось достичь. Потом одному пришла в голову идея обрубить пикселей 10 с одного боку. После этого действия программа показала меньше 50% схожести. Добавляем к этому вотермарку и немного шаманства, и получаем уник. Это чисто по той программе. Может быть, у яндекса другие заскоки.

Для тех, кто не верит во все это - потыкайтесь по картинкам. У него там даже поиск специально по гаммам есть. Очень наблюдательные заметят, как в 2-3 апа вывести в топ оп любому запросу любую картинку =) По крайней мере, в начале лета я пытался там что-то делать. Как сейчас - не знаю. Давно это было, а кажется, что вот только что...
Get The F*cking Out - пристанище одинокого и циничного безумца...
Блокнотик и бакстер - не моё Wink

Rabbit
Кролики - это не только ценный мех
Зарегистрирован: 01.08.2005
Сообщений: 19788
Star (Сумма: 1)
Обратиться по нику
# Добавлено:Пт Ноя 14, 2008 12:49 pmОтветить с цитатой
[weber], уговорил. На первой странице и правда нету. Но вообще - в выдаче дубли есть Cool
Новое. Прибыльное. Скоро!

captain Keen
Опытный
Зарегистрирован: 22.10.2008
Сообщений: 206
Обратиться по нику
# Добавлено:Пт Ноя 14, 2008 3:55 pmОтветить с цитатой
[weber], важны не программы, а алгоритм. Ты сам подтвердил, что я там выше писал, что достаточно обрезать картинку и она уже уникальная для яндекса. Про тональности и цвет ты не прав. Тональность и цвет надо менять не на одинаковую величину по всей картинке, а на разные, по типу градиентной заливки. Наконец, можно элементарно повернуть картинку на 3 градуса, человеку это будет незаметно, а для компа разница ого-го какая.
Про распознавание образов инфы в Сети до фига, да и книг издано немало и все уязвимости аглоритмов распознавания образов широко известны, кто мешает эксплутировать эти уязвимости?! Элементарный скрипт на PHP наделает тебе из одной картинки тонну "уникальных для яндекс" за минуту.
Весь этот пиар яндекса с дублированными картинками топорный какой-то. То ли их пиарщики сами не понимают о чем пишут, то ли считают читателей за идиотов.
Новая тема Написать ответ    ГЛАВНАЯ ~ БИЗНЕС В РУНЕТЕ

Перейти:  





Генеральный спонсор



Партнеры