Pages in topic:   [1 2 3] >
Обслуживание больших ТМ. Советы.
Thread poster: Sergei Leshchinsky
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
Oct 28, 2009

Многие из нас используют большие ТМ с сотнями тысяч сегментов. Периодически они нуждаются в обслуживании: удалении дубликатов, устаревших сегментов и прочего мусора. Порой приходится укрупнять базы, объединяя несколько в одну. Предлагаю высказываться.

Обсуждаем с�
... See more
Многие из нас используют большие ТМ с сотнями тысяч сегментов. Периодически они нуждаются в обслуживании: удалении дубликатов, устаревших сегментов и прочего мусора. Порой приходится укрупнять базы, объединяя несколько в одну. Предлагаю высказываться.

Обсуждаем следующие направления:
• вопросы программного обеспечения (основные средства CAT и вспомогательные программы);
• рекомендации по оборудованию (какой должен быть компьютер у переводчика);
• разное (ну, этот пункт всегда вставляют ).
Collapse


 
Pavel Nikonorkin
Pavel Nikonorkin  Identity Verified
Local time: 20:18
Member (2007)
English to Russian
Перед любой модификацией ТМ делаем резервную копию Oct 29, 2009

в виде txt или tmx. При многочисленных изменениях желательно делать копию после каждого этапа, чтобы потом не было мучительно больно...
Лично я предпочитаю экспортировать txt-файл, открыть его в Olifant, отфильтровать сегменты, которые нужно исправить, далее экспортировать их в
... See more
в виде txt или tmx. При многочисленных изменениях желательно делать копию после каждого этапа, чтобы потом не было мучительно больно...
Лично я предпочитаю экспортировать txt-файл, открыть его в Olifant, отфильтровать сегменты, которые нужно исправить, далее экспортировать их в отдельный файл, а затем править в любом текстовом редакторе. Затем импортирую в исходную ТМ с перезаписью.
Пробовал настраивать атрибуты и фильтры, но обычно не хватает организованности следить за ними, поэтому все дополнительные атрибуты сегментов удаляю.
Collapse


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
TOPIC STARTER
Эксперименты с ТМ. Oct 29, 2009

Упорядочивание ТМ

1. Было TMW - 227 МБ (было 510473 TU)
2. Экспортировал из TWB в TMX и получил TMX - 610 МБ
3. Xbench его не принял (не хватило памяти)
4. Экспортировал из TWB в TXT и получил TXT - 220 МБ
5. Xbench его принял (открывал ок. 20 минут)
6. Экспортир
... See more
Упорядочивание ТМ

1. Было TMW - 227 МБ (было 510473 TU)
2. Экспортировал из TWB в TMX и получил TMX - 610 МБ
3. Xbench его не принял (не хватило памяти)
4. Экспортировал из TWB в TXT и получил TXT - 220 МБ
5. Xbench его принял (открывал ок. 20 минут)
6. Экспортировал в TMX "с удалением повторов" и получил TMX - 406 МБ
7. Импортировал TMX в TWB, получил TMW - 201 МБ (стало 509576 TU)
8. экспортировал снова в TMX и получил 443 МБ (см. п. 2)

Удалено 897 TU (реорганизацией TM в TWB этого добиться не удалось). Ощутимо возросла скорость конкорданса (вероятно, за счет пересоздания базы с нуля). TWB дает прирост в размере при экспорте к TMX. Файл TMX, созданный в TWB, в полтора раза больше, чем TMX от Xbench: 600 и 400 МБ. При этом в сжатом виде (RAR) они имею практически одинаковые размеры (см. ниже). Т.е. в первом случае присутствуют неиспользуемые поля, которые идентичны во всех TU и поэтому хорошо сжимаются.

• Описанная процедура упорядочивания может немного отодвинуть срок модернизации компьютера, если вы уже почувствовали, что "начало тормозить".

Игры с архивацией ТМ (стандартное сжатие)

TMW (п. 1 выше) - 227 МБ > RAR = 110 МБ (5 файлов в архиве)
TMX (п. 2 выше) - 601 МБ > RAR = 28 МБ
TXT (п. 4 выше) - 220 МБ > RAR = 23 МБ
TMX (п. 8 выше) - 443 МБ > RAR = 26 МБ

Хранить архивированные ТМ лучше в формате TMX, как наиболее распространенном.

[Редактировалось 2009-10-29 10:13 GMT]
Collapse


 
Nadiia and Vatslav Yehurnovy
Nadiia and Vatslav Yehurnovy
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
А дустом не пробовали? Oct 29, 2009

Вполне сравнимый результат для всеми любимого Традоса дает следующая комбинация:
1. Экспорт в какой-нибудь формат.
2. Импорт с реорганизацией в ТМ с языками "наоборот".
3. Экспорт из этой ТМ, которая "шиворот-навыворот".
В результате кучи мусора (сегменты с точностью до опечатки) самоликвидируются.

Ну и поиск-замена в Maintenance очень сильно помогают. Особенно в случае причесывания многолетних наслоений коллективного разума.


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
TOPIC STARTER
просто еще один способ Oct 30, 2009

Nadezhda & Vatslav Yehurnovy wrote:
Вполне сравнимый результат для всеми любимого Традоса дает следующая комбинация:


- Времени это займет больше.
- ТМ, например, я храню в TMX и составляют икэбаны из нескольких под конкретный проект.
- Дустом попробую.
- Традос не смог удалить почти тысячу повторов. В том и дело.
- На вкус и цвет все фломастеры разные.
- Традос создает слишком большие TMX. Их надо иногда "сжимать" описанным способом.


 
yanadeni (X)
yanadeni (X)  Identity Verified
Canada
Local time: 12:18
French to Russian
+ ...
ДежаВю Oct 30, 2009

Не знаю, насколько мой опыт может пригодиться... Кошками пользуюсь относительно недавно. Самая большая ТМ по конкретной тематике насчитывает порядка 35 тыс. двуязычных сегментов и весит 45 Мб. Но она у меня в родном формате ДежаВю .dvmdb. И указанное количество сегментов осталос... See more
Не знаю, насколько мой опыт может пригодиться... Кошками пользуюсь относительно недавно. Самая большая ТМ по конкретной тематике насчитывает порядка 35 тыс. двуязычных сегментов и весит 45 Мб. Но она у меня в родном формате ДежаВю .dvmdb. И указанное количество сегментов осталось после чистки вот такой встроенной функцией ДВ:

Collapse


 
mk_lab
mk_lab  Identity Verified
Ukraine
Member (2004)
English to Russian
+ ...
Как объять необъятное Nov 1, 2009

Sergei Leshchinsky wrote:
Многие из нас используют большие ТМ с сотнями тысяч сегментов.

Чрезмерности всегда превращаются в свою противоположность.

По-моему, общее число "многих из нас", откликнувшихся на ваше хобби - коллекционировать ТМ-ки в 610 МБ красноречиво свидетельствует о молчаливо высказанном совете:
Администрирование таких "полезных" ТМ должно быть волевым - выбросить их поскорее, и мусорное ведро тщательно вымыть, иначе очень скоро придется выкидывать компьютер

[Edited at 2009-11-01 14:53 GMT]


 
Nikolai Muraviev
Nikolai Muraviev  Identity Verified
Russian Federation
Local time: 20:18
English to Russian
+ ...
А поиск-замена - поподробней можно? Nov 1, 2009

Nadezhda & Vatslav Yehurnovy wrote:

Ну и поиск-замена в Maintenance очень сильно помогают. Особенно в случае причесывания многолетних наслоений коллективного разума.


Вы говорите о "причесывании" терминологии или о чем-то еще?


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
TOPIC STARTER
поспорю Nov 1, 2009

mk_lab wrote:
Чрезмерности всегда превращаются в свою противоположность

Не всегда, поверьте. Может, "зачастую" или "временами", но точно не "всегда".
Администрирование таких "полезных" ТМ должно быть волевым - выбросить их поскорее, и мусорное ведро тщательно вымыть, иначе очень скоро придется выкидывать компьютер

И опять поспорю. Это ТМ по проектам MS. Там оч. много повторов и при получении заказов я подключаю еще и свою ТМ и, поверьте, получаю оч. неплохой leverage. (Не велика беда, если в ТМ находится старая лексика ("узлы", а не "сайты", "контент", а не "содержимое" и пр.). Главное — там попадаются целые абзацы. А поменять лексику гораздо проще.)

---

Или, скажем, как можно выкинуть ТМ по кипрским оффшорам?! Да, там куча похожего. Иногда абзац с перечислением видов деятельности компании отличается одним словом. Или имя регистратора поменялось... Но это карман не тянет, а работу ускоряет. И тут рациональнее задуматься об увеличении оперативной памяти компа, а не о сокращении ТМ, если она дает leverage.

Или... ?


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
TOPIC STARTER
и еще Nov 1, 2009

mk_lab wrote:
Чрезмерности всегда превращаются в свою противоположность.

Поверьте, тут есть люди, у которых ТМ измеряются гигабайтами, но они пока мой вопрос не задали. А я задал.


 
Nikolai Muraviev
Nikolai Muraviev  Identity Verified
Russian Federation
Local time: 20:18
English to Russian
+ ...
А вот еще 2 вопроса. Nov 2, 2009

1) У меня в ТМ-ке (ТРАДОС) часть русского текста "завернут" Юникодом, то есть перед каждой буквой кириллицы стоит ее юникодный код. Текст в окне Edit Совершенно нечитаемый. Что с этим делать?

2) Часть сегментов ТМ невозможно редактировать: кнопки EDIT и DELETE неактивны. Как их "расктрыть"? ИЛи это - потеряно навсегда?


 
mk_lab
mk_lab  Identity Verified
Ukraine
Member (2004)
English to Russian
+ ...
Дело вкуса... Nov 2, 2009

[quote]Sergei Leshchinsky wrote:

есть люди, у которых ТМ измеряются гигабайтами

... но, по-моему, для того, чтобы ТМ оставалась полезной, ее нужно "причесывать" после каждого проекта, выбрасывая длинные фразы, сегменты с тегами, и пр. "мусор", который составляет процентов 90 содержимого и вряд-ли будет повторяться в других текстах. Таким образом, база сразу становится небольшой, удобоваримой и безопасной в работе.


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
TOPIC STARTER
некоторые CAT Nov 2, 2009

в процессе перевода сразу вносят в ТМ сегменты уже без тегов.

 
Nadiia and Vatslav Yehurnovy
Nadiia and Vatslav Yehurnovy
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
А поподробнее - лЁгко Nov 2, 2009

Nikolai Muraviev wrote:

Вы говорите о "причесывании" терминологии или о чем-то еще?

И о ней тоже.
0. С помощью Конкорданса обнаруживаем, что именно желательно поменять во всей памяти.
1. Если открыть ТМ с галкой Exclusive, станет доступным пункт меню Maintenance.
2. В одноименном диалоговом окошке есть кнопка Find and Replace...
3. В очередном окошке можно задать, что искать и на что менять.
Например, в Target ввести from: "соединения типа папа" to:"охватываемого соединения", в Source можно дополнительно прописать "male connection". Там еще по куче полей можно уточнять этот запрос на замену.
4. Нажать ОК.
5. Станет доступна кнопка Change, жмем ее и выбираем All translation units. Если память отличается особо крупными размерами - самое время заварить чаю или еще как-нибудь отвлечься от компьютера.
6. Проверяем результаты конкордансом, но если кнопку Search не нажать - будут отображаться старые значения.

Если замену нужно делать с разными падежами - для каждого из падежей приходится запускать этот маховик по отдельности...
Но этот процесс очень сильно помогает, особенно для запущенных случаев с присланной ТМ заказчика, например когда Magenta - это и красный, и фиолетовый, и сиреневый, и пурпурный, причем во всех падежах.


[Редактировалось 2009-11-02 22:13 GMT]


 
Sergei Leshchinsky
Sergei Leshchinsky  Identity Verified
Ukraine
Local time: 19:18
Member (2008)
English to Russian
+ ...
TOPIC STARTER
примечания Nov 2, 2009

Спасибо за подробное описание, но мне такой способ кажется довольно трудоемким. Приходилось мне как-то менять термины автозаменой во всех падежах. Проблема иногда заключается в том, что надо заменить однословный термин на фразу и эта фраза начинает себя вести в каждом пре�... See more
Спасибо за подробное описание, но мне такой способ кажется довольно трудоемким. Приходилось мне как-то менять термины автозаменой во всех падежах. Проблема иногда заключается в том, что надо заменить однословный термин на фразу и эта фраза начинает себя вести в каждом предложении по-своему, порой разделяя и пуская внутрь себя наречия или проявляя другие странности русской грамматики. Не все так просто...

Тут сейчас обсуждают подобную тему, только на английском, но пока ничего ценного не сказали. Все ответы сводятся к двум мыслям:
а посмотрите, какие у вас там программы есть, и что-то там себе придумайте
и
а у меня иначе.


[Редактировалось 2009-11-02 16:07 GMT]
Collapse


 
Pages in topic:   [1 2 3] >


To report site rules violations or get help, contact a site moderator:


You can also contact site staff by submitting a support request »

Обслуживание больших ТМ. Советы.


Translation news in Russian Federation





Anycount & Translation Office 3000
Translation Office 3000

Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.

More info »
Trados Business Manager Lite
Create customer quotes and invoices from within Trados Studio

Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.

More info »