Помогите создать скрипт удаления лишних строк

Тема в разделе "Прикладное программное обеспечение", создана пользователем namin78, 23 мар 2016.

  1. namin78

    namin78 New Member

    Существует текстовый файл. В нем много мусорных строк содержащих
    1 всего один символ(букву) .
    2 Только цифры.
    3 Два символа вместе или через пробелы
    4 Три символа один из которых не относится ни кирилице, ни цифрам, ни к латинице, символы вместе или через пробелы
    Эти строки надо удалить. Объясню зачем. После разных распознавалок типа FineReader и CuneiForm в тексте остается много мусора, и ни какие пост-OCR обработчики в автомате такие строки не вычищают.
    Заранее благодарен!
     
    Последнее редактирование: 24 мар 2016

Поделиться этой страницей