Pages in topic: [1 2 3] > | Обслуживание больших ТМ. Советы. Thread poster: Sergei Leshchinsky
|
Многие из нас используют большие ТМ с сотнями тысяч сегментов. Периодически они нуждаются в обслуживании: удалении дубликатов, устаревших сегментов и прочего мусора. Порой приходится укрупнять базы, объединяя несколько в одну. Предлагаю высказываться.
Обсуждаем с�... See more Многие из нас используют большие ТМ с сотнями тысяч сегментов. Периодически они нуждаются в обслуживании: удалении дубликатов, устаревших сегментов и прочего мусора. Порой приходится укрупнять базы, объединяя несколько в одну. Предлагаю высказываться.
Обсуждаем следующие направления:
• вопросы программного обеспечения (основные средства CAT и вспомогательные программы);
• рекомендации по оборудованию (какой должен быть компьютер у переводчика);
• разное (ну, этот пункт всегда вставляют ). ▲ Collapse | | | Перед любой модификацией ТМ делаем резервную копию | Oct 29, 2009 |
в виде txt или tmx. При многочисленных изменениях желательно делать копию после каждого этапа, чтобы потом не было мучительно больно...
Лично я предпочитаю экспортировать txt-файл, открыть его в Olifant, отфильтровать сегменты, которые нужно исправить, далее экспортировать их в ... See more в виде txt или tmx. При многочисленных изменениях желательно делать копию после каждого этапа, чтобы потом не было мучительно больно...
Лично я предпочитаю экспортировать txt-файл, открыть его в Olifant, отфильтровать сегменты, которые нужно исправить, далее экспортировать их в отдельный файл, а затем править в любом текстовом редакторе. Затем импортирую в исходную ТМ с перезаписью.
Пробовал настраивать атрибуты и фильтры, но обычно не хватает организованности следить за ними, поэтому все дополнительные атрибуты сегментов удаляю. ▲ Collapse | | | Sergei Leshchinsky Ukraine Local time: 19:18 Member (2008) English to Russian + ... TOPIC STARTER Эксперименты с ТМ. | Oct 29, 2009 |
Упорядочивание ТМ
1. Было TMW - 227 МБ (было 510473 TU)
2. Экспортировал из TWB в TMX и получил TMX - 610 МБ
3. Xbench его не принял (не хватило памяти)
4. Экспортировал из TWB в TXT и получил TXT - 220 МБ
5. Xbench его принял (открывал ок. 20 минут)
6. Экспортир... See more Упорядочивание ТМ
1. Было TMW - 227 МБ (было 510473 TU)
2. Экспортировал из TWB в TMX и получил TMX - 610 МБ
3. Xbench его не принял (не хватило памяти)
4. Экспортировал из TWB в TXT и получил TXT - 220 МБ
5. Xbench его принял (открывал ок. 20 минут)
6. Экспортировал в TMX "с удалением повторов" и получил TMX - 406 МБ
7. Импортировал TMX в TWB, получил TMW - 201 МБ (стало 509576 TU)
8. экспортировал снова в TMX и получил 443 МБ (см. п. 2)
Удалено 897 TU (реорганизацией TM в TWB этого добиться не удалось). Ощутимо возросла скорость конкорданса (вероятно, за счет пересоздания базы с нуля). TWB дает прирост в размере при экспорте к TMX. Файл TMX, созданный в TWB, в полтора раза больше, чем TMX от Xbench: 600 и 400 МБ. При этом в сжатом виде (RAR) они имею практически одинаковые размеры (см. ниже). Т.е. в первом случае присутствуют неиспользуемые поля, которые идентичны во всех TU и поэтому хорошо сжимаются.
• Описанная процедура упорядочивания может немного отодвинуть срок модернизации компьютера, если вы уже почувствовали, что "начало тормозить".
Игры с архивацией ТМ (стандартное сжатие)
TMW (п. 1 выше) - 227 МБ > RAR = 110 МБ (5 файлов в архиве)
TMX (п. 2 выше) - 601 МБ > RAR = 28 МБ
TXT (п. 4 выше) - 220 МБ > RAR = 23 МБ
TMX (п. 8 выше) - 443 МБ > RAR = 26 МБ
Хранить архивированные ТМ лучше в формате TMX, как наиболее распространенном.
[Редактировалось 2009-10-29 10:13 GMT] ▲ Collapse | | | А дустом не пробовали? | Oct 29, 2009 |
Вполне сравнимый результат для всеми любимого Традоса дает следующая комбинация:
1. Экспорт в какой-нибудь формат.
2. Импорт с реорганизацией в ТМ с языками "наоборот".
3. Экспорт из этой ТМ, которая "шиворот-навыворот".
В результате кучи мусора (сегменты с точностью до опечатки) самоликвидируются.
Ну и поиск-замена в Maintenance очень сильно помогают. Особенно в случае причесывания многолетних наслоений коллективного разума. | |
|
|
Sergei Leshchinsky Ukraine Local time: 19:18 Member (2008) English to Russian + ... TOPIC STARTER просто еще один способ | Oct 30, 2009 |
Nadezhda & Vatslav Yehurnovy wrote:
Вполне сравнимый результат для всеми любимого Традоса дает следующая комбинация:
- Времени это займет больше.
- ТМ, например, я храню в TMX и составляют икэбаны из нескольких под конкретный проект.
- Дустом попробую.
- Традос не смог удалить почти тысячу повторов. В том и дело.
- На вкус и цвет все фломастеры разные.
- Традос создает слишком большие TMX. Их надо иногда "сжимать" описанным способом. | | | yanadeni (X) Canada Local time: 12:18 French to Russian + ...
Не знаю, насколько мой опыт может пригодиться... Кошками пользуюсь относительно недавно. Самая большая ТМ по конкретной тематике насчитывает порядка 35 тыс. двуязычных сегментов и весит 45 Мб. Но она у меня в родном формате ДежаВю .dvmdb. И указанное количество сегментов осталос... See more Не знаю, насколько мой опыт может пригодиться... Кошками пользуюсь относительно недавно. Самая большая ТМ по конкретной тематике насчитывает порядка 35 тыс. двуязычных сегментов и весит 45 Мб. Но она у меня в родном формате ДежаВю .dvmdb. И указанное количество сегментов осталось после чистки вот такой встроенной функцией ДВ:
▲ Collapse | | | mk_lab Ukraine Member (2004) English to Russian + ... Как объять необъятное | Nov 1, 2009 |
Sergei Leshchinsky wrote:
Многие из нас используют большие ТМ с сотнями тысяч сегментов.
Чрезмерности всегда превращаются в свою противоположность.
По-моему, общее число "многих из нас", откликнувшихся на ваше хобби - коллекционировать ТМ-ки в 610 МБ красноречиво свидетельствует о молчаливо высказанном совете:
Администрирование таких "полезных" ТМ должно быть волевым - выбросить их поскорее, и мусорное ведро тщательно вымыть, иначе очень скоро придется выкидывать компьютер
[Edited at 2009-11-01 14:53 GMT] | | | А поиск-замена - поподробней можно? | Nov 1, 2009 |
Nadezhda & Vatslav Yehurnovy wrote:
Ну и поиск-замена в Maintenance очень сильно помогают. Особенно в случае причесывания многолетних наслоений коллективного разума.
Вы говорите о "причесывании" терминологии или о чем-то еще? | |
|
|
Sergei Leshchinsky Ukraine Local time: 19:18 Member (2008) English to Russian + ... TOPIC STARTER
mk_lab wrote:
Чрезмерности всегда превращаются в свою противоположность
Не всегда, поверьте. Может, "зачастую" или "временами", но точно не "всегда".
Администрирование таких "полезных" ТМ должно быть волевым - выбросить их поскорее, и мусорное ведро тщательно вымыть, иначе очень скоро придется выкидывать компьютер
И опять поспорю. Это ТМ по проектам MS. Там оч. много повторов и при получении заказов я подключаю еще и свою ТМ и, поверьте, получаю оч. неплохой leverage. (Не велика беда, если в ТМ находится старая лексика ("узлы", а не "сайты", "контент", а не "содержимое" и пр.). Главное — там попадаются целые абзацы. А поменять лексику гораздо проще.)
---
Или, скажем, как можно выкинуть ТМ по кипрским оффшорам?! Да, там куча похожего. Иногда абзац с перечислением видов деятельности компании отличается одним словом. Или имя регистратора поменялось... Но это карман не тянет, а работу ускоряет. И тут рациональнее задуматься об увеличении оперативной памяти компа, а не о сокращении ТМ, если она дает leverage.
Или... ? | | | Sergei Leshchinsky Ukraine Local time: 19:18 Member (2008) English to Russian + ... TOPIC STARTER
mk_lab wrote:
Чрезмерности всегда превращаются в свою противоположность.
Поверьте, тут есть люди, у которых ТМ измеряются гигабайтами, но они пока мой вопрос не задали. А я задал. | | | А вот еще 2 вопроса. | Nov 2, 2009 |
1) У меня в ТМ-ке (ТРАДОС) часть русского текста "завернут" Юникодом, то есть перед каждой буквой кириллицы стоит ее юникодный код. Текст в окне Edit Совершенно нечитаемый. Что с этим делать?
2) Часть сегментов ТМ невозможно редактировать: кнопки EDIT и DELETE неактивны. Как их "расктрыть"? ИЛи это - потеряно навсегда? | | | mk_lab Ukraine Member (2004) English to Russian + ... Дело вкуса... | Nov 2, 2009 |
[quote]Sergei Leshchinsky wrote:
есть люди, у которых ТМ измеряются гигабайтами
... но, по-моему, для того, чтобы ТМ оставалась полезной, ее нужно "причесывать" после каждого проекта, выбрасывая длинные фразы, сегменты с тегами, и пр. "мусор", который составляет процентов 90 содержимого и вряд-ли будет повторяться в других текстах. Таким образом, база сразу становится небольшой, удобоваримой и безопасной в работе. | |
|
|
Sergei Leshchinsky Ukraine Local time: 19:18 Member (2008) English to Russian + ... TOPIC STARTER некоторые CAT | Nov 2, 2009 |
в процессе перевода сразу вносят в ТМ сегменты уже без тегов. | | | А поподробнее - лЁгко | Nov 2, 2009 |
Nikolai Muraviev wrote:
Вы говорите о "причесывании" терминологии или о чем-то еще?
И о ней тоже.
0. С помощью Конкорданса обнаруживаем, что именно желательно поменять во всей памяти.
1. Если открыть ТМ с галкой Exclusive, станет доступным пункт меню Maintenance.
2. В одноименном диалоговом окошке есть кнопка Find and Replace...
3. В очередном окошке можно задать, что искать и на что менять.
Например, в Target ввести from: "соединения типа папа" to:"охватываемого соединения", в Source можно дополнительно прописать "male connection". Там еще по куче полей можно уточнять этот запрос на замену.
4. Нажать ОК.
5. Станет доступна кнопка Change, жмем ее и выбираем All translation units. Если память отличается особо крупными размерами - самое время заварить чаю или еще как-нибудь отвлечься от компьютера.
6. Проверяем результаты конкордансом, но если кнопку Search не нажать - будут отображаться старые значения.
Если замену нужно делать с разными падежами - для каждого из падежей приходится запускать этот маховик по отдельности...
Но этот процесс очень сильно помогает, особенно для запущенных случаев с присланной ТМ заказчика, например когда Magenta - это и красный, и фиолетовый, и сиреневый, и пурпурный, причем во всех падежах.
[Редактировалось 2009-11-02 22:13 GMT] | | | Sergei Leshchinsky Ukraine Local time: 19:18 Member (2008) English to Russian + ... TOPIC STARTER
Спасибо за подробное описание, но мне такой способ кажется довольно трудоемким. Приходилось мне как-то менять термины автозаменой во всех падежах. Проблема иногда заключается в том, что надо заменить однословный термин на фразу и эта фраза начинает себя вести в каждом пре�... See more Спасибо за подробное описание, но мне такой способ кажется довольно трудоемким. Приходилось мне как-то менять термины автозаменой во всех падежах. Проблема иногда заключается в том, что надо заменить однословный термин на фразу и эта фраза начинает себя вести в каждом предложении по-своему, порой разделяя и пуская внутрь себя наречия или проявляя другие странности русской грамматики. Не все так просто...
Тут сейчас обсуждают подобную тему, только на английском, но пока ничего ценного не сказали. Все ответы сводятся к двум мыслям:
а посмотрите, какие у вас там программы есть, и что-то там себе придумайте
и
а у меня иначе.
[Редактировалось 2009-11-02 16:07 GMT] ▲ Collapse | | | Pages in topic: [1 2 3] > | To report site rules violations or get help, contact a site moderator: You can also contact site staff by submitting a support request » Обслуживание больших ТМ. Советы. No recent translation news about Russian Federation. |
Anycount & Translation Office 3000 | Translation Office 3000
Translation Office 3000 is an advanced accounting tool for freelance translators and small agencies. TO3000 easily and seamlessly integrates with the business life of professional freelance translators.
More info » |
| Trados Business Manager Lite | Create customer quotes and invoices from within Trados Studio
Trados Business Manager Lite helps to simplify and speed up some of the daily tasks, such as invoicing and reporting, associated with running your freelance translation business.
More info » |
|
| | | | X Sign in to your ProZ.com account... | | | | | |