?

Log in

No account? Create an account
ts vs connectivity - Разнопись

> Свежие записи
> Архив
> Друзья
> Личная информация

Links
Lvova@SUL
stasielvova@twitter

Пожертвования
Подари жизнь!
AdVITA
Фонд помощи хосписам Вера

Старость в радость
Википедия
Справедливая помощь
Доктор Клоун

Отдать ненужные вещи в Питере
Отдать ненужные вещи в Москве

Март 30, 2010


Previous Entry Поделиться Next Entry
01:23 pm - ts vs connectivity
(GFDL | CC-BY-SA-3.0,2.5,2.0,1.0 / PawełMM)

Админы немецкого тулсервера урезали выделяемые пользователю ресурсы так, что проект "Связность" работать сейчас не может. Дискуссия идёт здесь (и стартует тут); мнение Машиаха - необходимо убедить Ривера в нужности проекта, т.е. необходимы массовые обращения. Срочная помощь в решении технических вопросов с нашей стороны тоже принимается, при этом в дискуссии уже упомянуты многие ключевые проблемы, мешающие тому или иному способу решения.
Одно из возможных решений, которому "ничего" не мешает - покупка 4 гигабайт памяти немецкому тулсерверу (впрочем, по-моему, это наглость со стороны Ривера - ему платят деньги за то, чтобы всё работало, а Фонд Викимедиа и WM-DE выделяют деньги TS-de в том числе из пожертвований пользователей нашего проекта). При этом названа цена в 2500 евро, неясно, откуда взявшаяся за плашку памяти.

Польский тулсервер проект не потянет; о норвежском я ещё ничего не успела узнать. На конференции был задан вопрос, не хотим ли мы связаться с Usability project, но на сайте того написано, что U-p работает до апреля включительно, и мне вообще не ясно, действительно ли мы с ними работаем в одном направлении, и у кого про это можно спросить.

Сборная солянка цитат о ситуации на русском: Самое тонкое место (скрипта) в том, что ссылок между статьями очень много, и работать с ними в том виде, как они лежат в языковой базе совершенно невозможно. Их приходится кешировать и "прошивать". Связность википедии можно определить только работая с множеством всех статей и множеством всех ссылок. по кускам не получится, невозможно сделать алгоритм, которому понадобится только 3 ссылки. Бот работает как можно ближе к языковым базам данных аж на 3-х sql серверах - в зависимости от того, где расположен текущий язык. Для сбора советов он работает сразу на всех трёх серверах в параллель, ибо разные вики - на разных серверах. Доступное описание алгоритма есть разве что в комментариях к коду. Оптимизация алгорима может привести к ускорению, но не к уменьшению объёма памяти, ибо закешировать все ссылки (более 20 млн для рувики, в других больше), добавив все нужные индексы - это много памяти. Использование MyISAM и InnoDB работает в несколько раз медленнее, чем MEMORY; если бот будет работать 10 часов, за время анализа все данные устареют. Интерфейс потребляет только данные на диске (MyISAM), там нет проблем. Во время анализа для немецкой нужно более 2 GB только чтобы закешировать категоризирующие ссылки, а такого рода таблиц несколько. Для прочих языков меньше. Для того, чтобы бот работал быстро нужно быть там, где актуальная копия языковых баз.

( 15 улыбок :) smile2me )

Comments:


[User Picture]
From:zohavan
Date:Март 30, 2010 09:57 am
(Link)
У меня есть подозрение (почти ни на чём не основанное), что тут вообще использовать нереляционную граф-ориентированную базу данных.
[User Picture]
From:lvova
Date:Март 30, 2010 09:58 am
(Link)
Я каждое слово в отдельности поняла, но, увы, я - не разработчик, и не могу ответить, можно ли использовать это подозрение :(
[User Picture]
From:zohavan
Date:Март 30, 2010 11:23 am
(Link)
Ну я тоже не могу ничего сейчас сказать. Потому что надо знать: архитектуру таких БД и их производительность, codebase Голема и ещё несколько других вещей. Поэтому скорее всего моё мнение некомпетентно. Однако можешь спросить Машиаха о том, что он думает о Neo4j
[User Picture]
From:lvova
Date:Март 30, 2010 11:30 am
(Link)
Ок, я передам.
[User Picture]
From:lvova
Date:Март 30, 2010 01:38 pm
(Link)
Не успела передать - Машиаху уже написали об этой штуке в рассылке.
From:mar__
Date:Март 30, 2010 11:09 am
(Link)
это явно не спасает от цен 2500 евро за плашку памяти ;)
[User Picture]
From:lvova
Date:Март 30, 2010 11:10 am
(Link)
Предполагается, что если мы уменьшим загрузку памяти в 8 раз, то плашка не понадобится.
From:mar__
Date:Март 30, 2010 11:18 am
(Link)
я понимаю, просто при таких запросах может появиться что-нибудь еще :)
А если серьезно, насколько я понимаю, основная проблема именно в сборе данных-ссылок по имеющейся базе, или все-таки а не в их промежуточном хранении и анализе?
[User Picture]
From:lvova
Date:Март 30, 2010 11:19 am
(Link)
Даже не знаю, как ответить на этот вопрос. Сбор сопровождается хранением и анализом...
From:(Anonymous)
Date:Март 30, 2010 10:21 am

в опрели зимлитрясенийэ

(Link)
Многа умных букоф, ниасилил. Давайти лучшы зимлитрясение с бальшим каличеством павшего скота предскажу? Ну я думаю, штааааа... навернои скора, навернои уш прям в опрели штоли? Спорим, шта я апядь угадайу? Я видь всигда угадывайу, а вы ни верити, ай-яй-яй! Такии умныи, стока умных букоф знаити, а ни верити! Тьфу на вас!
[User Picture]
From:greycat_na_kor
Date:Март 30, 2010 11:53 am
(Link)
А где можно почитать про архитектуру и общую идеологию работы программной части? Возможно, коллективный разум и правда мог бы здесь помочь с каким-то рывком оптимизационном плане?

4 гигабайта памяти - это не так уж много, но и не так уж и мало - тут они, в общем, правы, хотя с 2.5K€ они как-то загибают. Street price такой планки - 200-250$, даже в случае супербрендовых компонент (HP, IBM, Dell) - это будет 600-700$, но никак не 2.5K€.
[User Picture]
From:lvova
Date:Март 30, 2010 11:55 am
(Link)
Есть предположение, что это они говорят с учётом замены матери, на которой не осталось свободных слотов, но это - лишь попытка угадать.

К сожалению, как упомянуто в тексте, набранном курсивом, с тем, как всё устроено, можно разобраться, лишь читая код и комментарии к нему.
[User Picture]
From:greycat_na_kor
Date:Март 30, 2010 12:29 pm
(Link)
Мать стоит тоже не столько - 300-400 в среднем и 600-700 в пике. 2.5K€ ~ 3.3K USD на самом деле стоит уже вполне средний новый сервер целиком.

Собственно, мысль в том, что надо это как-то описывать и объяснять. Код я попытался почитать, но, к сожалению, пока это читать очень и очень сложно. Это всё достаточно нетривиальные алгоритмы, да еще и завязанные в некую систему. Либо я что-то не понимаю, но даже обещанных комментариев практически не увидел.

Как можно повзаимодействовать с автором на предмет добавления какого-то вида документации - хотя бы встроенной в код?
[User Picture]
From:lvova
Date:Март 30, 2010 12:33 pm
(Link)
mashiah (тут собака) toolserver.org
[User Picture]
From:grave_n
Date:Март 31, 2010 04:00 pm
(Link)
Фото нравицо.

> Go to Top
LiveJournal.com