АРМАДА
Универсальное распознавание каптчи
На страницу Пред.  1, 2, 3, 4  След.
Новая тема Написать ответ
Сб Май 06, 2006 3:31 am Start Post: Универсальное распознавание каптчи 

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11544
Обратиться по нику
# Добавлено:Ср Май 10, 2006 9:02 amОтветить с цитатой
Ваще мнение, сколько будет стоить весь комплекс такого софта который будет спамить форумы, конфирмить сам тоже, при этом удаленному компу будет отдавать на распознавание капчу, т.е. на экране челочек видит 2 вещи, капчу и поле для ввода капчи, вводит, жмет ентер, получает следующую капчу.

kio
Профессионал
Зарегистрирован: 04.10.2005
Сообщений: 942
Обратиться по нику
# Добавлено:Ср Май 10, 2006 9:37 amОтветить с цитатой
это надо обращаться к тем кто писал самого робота - приставка передающая каптчу туда и набор символов обратно стоит немного весьма...

Botmaster + + + + + + +
Опытный
Зарегистрирован: 21.01.2006
Сообщений: 283
Обратиться по нику
# Добавлено:Чт Май 11, 2006 1:59 amОтветить с цитатой
kio писал(а):
там искажения детские, буквы не качаются набок а только по величине шрифта и по высоте строки, на яхе к примеру фона нет но буквы кладут на бок в разнобой и переплетают постоянно линиями прервистыми самому иногда не понять только догадываешься что там будет зная закономерности как они каптчи рисуют...
P.S.
возвращаясь к теме топика думаю что в ПРОМЫШЛЕННОМ масштабе универсальный распознаватель нереально сделать...



Во-первых, на http://www.botmaster.ru/pictocod/ есть капчи и с "недетскими" искажениями (например, волной и поворотом), просто невнимательно смотрел. Тем более там многие не приведены, например есть распознавалка капчей с http://www.tripod.com - но это просто не в спамилке а в аторегилке на фрихостингах.
А во-вторых, распознавалка проектировалась как максимально быстрая, т.е. чтобы распознавание занимало не более 2-х секунд (!!!) даже при загруженном процессоре. И такая скорость была достигнута по совершенно банальной причине: на 99% форумах используются НУ ОЧЕНЬ простые капчи. Это и сыграло в нашу пользу.
Разумеется, со временем ситуация изменится, но на это уйдёт очень и очень много времени.

С универсальностью, разумеется, дело обстоит очень и очень непросто. И проблема лишь в одном - в быстродействии процессора. Алгоритмы с универсальным распознаванием с достоверностью 70-80%существуют, но они требуют немалых мощностей. Мы работаем над оптимизацией.

Botmaster + + + + + + +
Опытный
Зарегистрирован: 21.01.2006
Сообщений: 283
Обратиться по нику
# Добавлено:Чт Май 11, 2006 2:01 amОтветить с цитатой
Li-Hua писал(а):
Ваще мнение, сколько будет стоить весь комплекс такого софта который будет спамить форумы, конфирмить сам тоже, при этом удаленному компу будет отдавать на распознавание капчу, т.е. на экране челочек видит 2 вещи, капчу и поле для ввода капчи, вводит, жмет ентер, получает следующую капчу.



Зачем далеко ходить? Посмотри описание здесь - http://www.botmaster.ru/more1/ (только там программа не просит юзера ничего вводить, все распознается автоматом).

Программа изначально разрабатывалась для форумов (а потом уже и для гостевых, блогов), поэтому распознаёт более 90% всех существующих капчей на таких движках как phpBB, YaBB, IPB, VBulletin, exBB - именно эти форумы и занимают основную долю среди остальных, и наиболее "вкусные" и суперпосещаемые форумы используют эти движки.

kio
Профессионал
Зарегистрирован: 04.10.2005
Сообщений: 942
Обратиться по нику
# Добавлено:Чт Май 11, 2006 2:31 amОтветить с цитатой
каждый кулик своё болото хвалит, я по форумам ничего сказать не могу, но например в моём случае при работе с яху 90 процентов это слишком мало... они блокируют всю подсеть как только подозрения на робота появляются... даже при работе с вручную зарегситрированными акаутами надо постоянно менять время таймаута с которым бот обращается к их серверу, ip адреса........ короче изъёбываться приходится всяко...


вот тут написано " c r 4 X " (проверил в момент регистрации) и всё.... и хрена распознаешь...
любая распознавалка в лучшем случае выдаст " d 1 4 X "....

и вообще вопрос стоял изначально не про тот или иной софт какой хорош или чем плох, который что-то спамит одно или другое, а вообще про УНИВЕРСАЛЬНЫЙ распознаватель, по моему вывод таков, что нет такого универсального в природе и ждать его не нужно..
надо покупать очки типа "окуляры" , большие мониторы, и новые мягкие клавиатуры, запасаться терпением и работать и работать.....
P.S.
всё собирался сделать форум для дрочеров и блог, уже двигло поставил и протестировал и вот сегодня удалил ссылку с ресурса на форум и блог до тех пор пока не приделаю каптчу на все действия ведущие к размещению ссылок в системе....)))) такая вот селяви... ибо времни чистить потом всё от собратьев по оружию нет желания и времени...))))

Botmaster + + + + + + +
Опытный
Зарегистрирован: 21.01.2006
Сообщений: 283
Обратиться по нику
# Добавлено:Чт Май 11, 2006 2:52 amОтветить с цитатой
1. При чем здесь бан подсети, если робот по любому через список прокси может лезть?
2. Регулировка и разброс времени обращений для бота тоже не проблема - решается элементарно, уже делали такое
3. Зачем тебе достоверность распознавания больше 90% при массовом-то подходе?! (см. п.1 и п.2). Даже если распознаваемость будет 10% и скорость допустим 1 акк в 10 секунд (бот в отличие от человека может быть и многопоточным, делай выводы) - всяко лучше чем распознавать вручную. По крайней мере у тебя будет замечательная возможность ночью хорошо выспаться вместо того, чтобы пялиться в монитор а потом смотреть обалденные кошмарики в виде летающих перечеркнутых цифр))

ИМХО, ты неправильно изначально позиционируешь проблему. 100% распознавание невозможно даже человеком, но оно и не нужно! Пусть стабильно распознается хотя бы 1 картинка из 10 - это уже отличный результат, главное чтобы это было быстро. Ведь речь идет о МАССОВОЙ регистрации. Да, попыток зарегистрироваться будет не 100 а 1000, но боту-то какая разница? Он не устанет никогда.

А если по теме топика... смысла создания УНИВЕРСАЛЬНОЙ распознавалки на данный момент нет. Под каждый движок лучше затачивать алгоритм отдельно, и скорость будет выше и написать такое проще. И твой Yahoo - не исключение.

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11544
Обратиться по нику
# Добавлено:Чт Май 11, 2006 8:45 amОтветить с цитатой
kio писал(а):


вот тут написано " c r 4 X " (проверил в момент регистрации) и всё.... и хрена распознаешь...
любая распознавалка в лучшем случае выдаст " d 1 4 X "....




я бы тоже не распознал, первый символ вообще пиздец.

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11544
Обратиться по нику
# Добавлено:Чт Май 11, 2006 8:47 amОтветить с цитатой
Botmaster писал(а):
3. Зачем тебе достоверность распознавания больше 90% при массовом-то подходе?! (см. п.1 и п.2). Даже если распознаваемость будет 10% и скорость допустим 1 акк в 10 секунд (бот в отличие от человека может быть и многопоточным, делай выводы) - всяко лучше чем распознавать вручную. По крайней мере у тебя будет замечательная возможность ночью хорошо выспаться вместо того, чтобы пялиться в монитор а потом смотреть обалденные кошмарики в виде летающих перечеркнутых цифр))




ну вот такую каптчу как Кио привел можно распознать с 90% вероятностью?

Botmaster + + + + + + +
Опытный
Зарегистрирован: 21.01.2006
Сообщений: 283
Обратиться по нику
# Добавлено:Чт Май 11, 2006 12:34 pmОтветить с цитатой
Li-Hua писал(а):
Botmaster писал(а):
3. Зачем тебе достоверность распознавания больше 90% при массовом-то подходе?! (см. п.1 и п.2). Даже если распознаваемость будет 10% и скорость допустим 1 акк в 10 секунд (бот в отличие от человека может быть и многопоточным, делай выводы) - всяко лучше чем распознавать вручную. По крайней мере у тебя будет замечательная возможность ночью хорошо выспаться вместо того, чтобы пялиться в монитор а потом смотреть обалденные кошмарики в виде летающих перечеркнутых цифр))




ну вот такую каптчу как Кио привел можно распознать с 90% вероятностью?



Откровенно странные вопросы вы задаете, батенька. Как робот распознает картинку, которую с большой долей вероятности не распознает человек? Ну ошибется робот на этой, запросит другую. Это вопрос долей секунды.
Мислите шире. Вот к примеру в бизнесе спам-рассылок. Спамер знает, что львина доля спама будет заблокирована фильтрами. И что с того? Зачем ему 100%, когда в его базе сотни миллионов адресов? То же самое и тут - зачем нам 100%, когда количество попыток НИЧЕМ не ограничено?

kio
Профессионал
Зарегистрирован: 04.10.2005
Сообщений: 942
Обратиться по нику
# Добавлено:Чт Май 11, 2006 10:33 pmОтветить с цитатой
как это ничем не ограничено !!!!! многие системы ограничивают количество неверных обращений к странице регистрации !!! меняем прокси ??? они тоже не бесконечны...
а прикинь если админ не будет хлопать ушами и влепит каптчи на страницу и регитрации,и при входе, а потом ещё и там где пост надо добавлять... и при неверном 3-х кратном заполнении в одном из 3 мест блокирует систему с которй запрсы идут..
всё это выполнить значительно проще чем писать распознаватели...
в сраном нюке из админки уже можно решить где будет стоять каптча только при регистрации или и при входе или ещё и при посте в систему...
времена меняются и не в лучшую сторону...
окуляры и хорошие мониторы и желание работать спасут нас !)))))

Joshua5
Опытный
Зарегистрирован: 29.07.2005
Сообщений: 245
Обратиться по нику
# Добавлено:Чт Май 11, 2006 11:32 pmОтветить с цитатой
самое смешное что обе стороны правы.
- если забуть о том что "кво проксей небезпредельно", то ресурсы, не имеющие ограничений на кво проверок, можно долбить пока не удастся распознать.
- на ресурсах, имеющих ограничение, даже 99% вероятность угадывания не гарантирует от бана.
мне кажется что нельзя достичь успеха на обоих типах ресурсов при помощи одной и тойже технологии.
для первого типа неизбежен уклон в сторну наращивания вычислительной мощности, для второго - в сторону гарантированности распознавания.
по поводу "капча- подтверждение каждого значимого действия в системе" мое мнение таков: если это и произойдет - оно произойлет одномоментно по всем ресурсам и вот почему:
если ктото вводит некое "неудобство" - юзер просто уйдет к соседу. (а дополнительный ввод кода - это именно неудобсвто. и в первую очередь для юзера а не для нас)
поэтому либо все владельцы вводят такой подход одновремено, либо этот подход будет практиковаться на очень ограниченном перечне ресусов, и их выпадение не может повлиять на обьемы валидных баз.
лично мне более симпатичен подход "долбить пока не распознается" (стандартные капчи распознаются за милисекунды. пусть и не с 100% вероятностью, но зато именно милисекунды)

Joshua5
Опытный
Зарегистрирован: 29.07.2005
Сообщений: 245
Обратиться по нику
# Добавлено:Чт Май 11, 2006 11:37 pmОтветить с цитатой
Botmaster писал(а):
.....зачем нам 100%, когда количество попыток НИЧЕМ не ограничено?


к сожалению, ограничено.
квом работоспособных проксей, способных выдержать мегабитные прокачки.
где взять нормальные прокси.. вот в чем вопрос! (а не в том с какой вероятностью я распознаю стандартную капчу. 100%, 99% или 20%).
и я готов рассмотреть любые предложения о продаже/аренде
Smile

kio
Профессионал
Зарегистрирован: 04.10.2005
Сообщений: 942
Обратиться по нику
# Добавлено:Пт Май 12, 2006 12:26 amОтветить с цитатой
Если у человека раскрученный ресурс, чистый от спама, с уникальным контентом и хорошей репутацией на котором постоянно толкётся большое количество людей, а мы именно на таких ресурсах хотим оставлять свои следы, он вынужден будет ставить каптчи, ибо лешится юзеров из-за замусоривания ресурса спамерскими ссылками и флудом. Ему просто придётся выбирать золотую середину... Насколько возможно усложнить жизнь юзеру ушастому, одновременно отсекая спамера, но так чтобы юзер в сердцах не ушёл к соседу...
P.S.
я не хочу ни в коем случае сказать что бутмастер сделал говно и тому подобное ... нет там всё ок оно работает и приносит свои результаты, и респект ему за это....но как и всё что мы делаем оно работает не везде, как только админ делает отход от стандарта то вся наша автоматизация идёт лесом и так было и всегда будет...

Bronxx
Свой
Зарегистрирован: 26.03.2006
Сообщений: 5
Обратиться по нику
# Добавлено:Пт Май 12, 2006 1:42 pmОтветить с цитатой
А никто и не спорит, это и так очевидно Smile

grozny
Опытный
Зарегистрирован: 03.02.2006
Сообщений: 121
Обратиться по нику
# Добавлено:Пт Май 12, 2006 3:33 pmОтветить с цитатой
Li-Hua писал(а):
Ваще мнение, сколько будет стоить весь комплекс такого софта который будет спамить форумы, конфирмить сам тоже, при этом удаленному компу будет отдавать на распознавание капчу, т.е. на экране челочек видит 2 вещи, капчу и поле для ввода капчи, вводит, жмет ентер, получает следующую капчу.


"Себестоимость" - баксов 200.
Тут вообще писать нефиг делать, если даже капчи распознавать не надо.
Скока запросит продавец - хзSmile
What to do, how to be...
Новая тема Написать ответ    ГЛАВНАЯ ~ ПОИСКОВЫЕ СИСТЕМЫ

Перейти:  





Генеральный спонсор



Партнеры