АРМАДА
Нужен инструмент
Новая тема Написать ответ Advanced Hosters - профессиональный хостинг

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11547
Обратиться по нику
# Добавлено:Ср Май 13, 2009 7:24 pmДобавить в избранноеОтветить с цитатой
Каким софтом(кроме самописного скрипта) можно обработать текстовый файл в формате:
рандомный_текст-домен
рандомный_текст-домен
рандомный_текст-домен
рандомный_текст-домен

Из которого мне нужно удалить все домены(строки полностью) которые например .ru
А также все строки в которых встречается упоминание определенных букв, например ft.com, удаляется строка microsoft.com

creator123
Гуру
Зарегистрирован: 25.07.2007
Сообщений: 1146
Обратиться по нику
# Добавлено:Ср Май 13, 2009 7:54 pmОтветить с цитатой
либо скрипт на bash в пару строк. либо на php в 5 строк.
Дольше искать софт, чем писать скрипт.
зачем искать проблемы там где их нет.
<----- если понравился пост, жмакай сюды <-----

creator123
Гуру
Зарегистрирован: 25.07.2007
Сообщений: 1146
Обратиться по нику
# Добавлено:Ср Май 13, 2009 7:55 pmОтветить с цитатой
точнее даже не так: на любом любимом языке это пишется за 10 минут
<----- если понравился пост, жмакай сюды <-----

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11547
Обратиться по нику
# Добавлено:Ср Май 13, 2009 7:57 pmОтветить с цитатой
Цитата:
точнее даже не так: на любом любимом языке это пишется за 10 минут


ясно, просто нет у меня любимого языка, программингом не владею совсем. мне проще софтину качнуть и обработать файлы.

lizendir
Свой
Зарегистрирован: 07.07.2006
Сообщений: 65
Обратиться по нику
# Добавлено:Ср Май 13, 2009 8:02 pmОтветить с цитатой
Знать язык очень даже полезно. На python это выглядело бы, примерно, так:

Код:

import sys

BLACK_LIST = ['foo', 'bar', 'st.com']

lines = [x.split() for x in file(sys.argv[1]) if x.split()]

for line in lines:
    tld = line.rstrip('.', 1)[-1]
    if tld == 'ru':
        continue
    for item in BLACK_LIST:
        if item in line:
            continue
    print line

Парсинг сайтов, сбор и обработка данных

Li-Hua
Чинамэн
Зарегистрирован: 25.12.2005
Сообщений: 11547
Обратиться по нику
# Добавлено:Чт Май 14, 2009 12:31 pmОтветить с цитатой
А на пхп? чтобы уж на практике применить так сказать Smile

Venator
Опытный
Зарегистрирован: 23.12.2006
Сообщений: 437
Обратиться по нику
# Добавлено:Чт Май 14, 2009 12:57 pmОтветить с цитатой
Использую для подобных целей TextPipe: http://www.datamystic.com/textpipe.html
Это прога, в которой можно быстро создавать любые фильтры для обработки всевозможных текстов и текстовых файлов.
НЕТ налогу на недвижимость!

lizendir
Свой
Зарегистрирован: 07.07.2006
Сообщений: 65
Обратиться по нику
# Добавлено:Чт Май 14, 2009 3:04 pmОтветить с цитатой
> А на пхп? чтобы уж на практике применить так сказать
А что вам мешает python скачать и применить вышенаписанный скрипт на практике? )
http://python.org/download/releases/2.5.4/
Парсинг сайтов, сбор и обработка данных

pepper
Опытный
Зарегистрирован: 10.04.2008
Сообщений: 184
Обратиться по нику
# Добавлено:Чт Май 14, 2009 5:45 pmОтветить с цитатой
lizendir писал(а):

http://python.org/download/releases/2.5.4/


Вроде 2.6.2 посвежее будет
http://python.org/download/releases/2.6.2/

lizendir
Свой
Зарегистрирован: 07.07.2006
Сообщений: 65
Обратиться по нику
# Добавлено:Чт Май 14, 2009 7:05 pmОтветить с цитатой
> Вроде 2.6.2 посвежее будет
В mainstream пока 2.5 юзают. В 2.6 программы могут работать не так, как ожидалось раньше, т.к. он задумывался как переходная версия между 2.5 и 3.0
Парсинг сайтов, сбор и обработка данных

pepper
Опытный
Зарегистрирован: 10.04.2008
Сообщений: 184
Обратиться по нику
# Добавлено:Чт Май 14, 2009 7:55 pmОтветить с цитатой
Тоже сначала сидел на 2.5, но прочитал what's new лист и не нашел критичных для моих скриптов изменений. Рано или поздно надо будет и к 3 привыкать.
По теме: TextPipe должен помочь
Новая тема Написать ответ    ГЛАВНАЯ ~ ТЕХНИЧЕСКИЕ ВОПРОСЫ

Перейти:  





Генеральный спонсор



Партнеры