?

Log in

впервые, что ли, перепост - Разнопись

> Свежие записи
> Архив
> Друзья
> Личная информация

Links
Lvova@SUL
stasielvova@twitter

Пожертвования
Подари жизнь!
AdVITA
Фонд помощи хосписам Вера

Старость в радость
Википедия
Справедливая помощь
Доктор Клоун

Отдать ненужные вещи в Питере
Отдать ненужные вещи в Москве

Август 26, 2011


Previous Entry Поделиться Next Entry
10:18 pm - впервые, что ли, перепост
Originally posted by lazy_frog at post
Друзья, пришло время снова рассказать, чем я занимаюсь. И попросить о содействии в этом деле.

Если коротко, то я занимаюсь проектом по созданию лингвистического кропуса, и нам нужны тексты под свободной лицензией, чтобы их в корпус включить. В частности, нужны тексты личных блогов. Корпус будет состоять не только из блогов. В данный момент там уже есть некоторое количество новостных текстов и текстов из Википедии. Если кто-то из вас согласен лицензировать свой личный ЖЖ (твиттер, статусы во вконтакте, ...) по лицензии CC-BY или CC-BY-SA, то это нам очень поможет.

Дальше - обо всём по порядку и очень много букв.

Первая часть поста - о лингвистических корпусах и о нашем проекте.

Вторая - о том, как сделать, чтобы мы могли добавить ваши тексты в корпус (если вы не возражаете, конечно).

За перепост этого обращения я также буду очень благодарен, т.к. нам нужно много текстов.

О лингвистических корпусах и о проекте Открытый корпус.

Наш проект занимается созданием корпуса текстов с лингвистической разметкой. Корпус — это коллекция текстов, отобранных по определённому принципу. Бывают корпуса газетных текстов, прозы XIX века, древнерусских текстов, разговорной речи, … Лингвистическая разметка — это разнообразная информация о тексте: кто и когда его написал, о чём текст; и о словах в нём: к какой части речи относится слово, в каком падеже оно стоит, какая у него словарная форма, с какими словами в предложении оно связано, где в предложении подлежащие и сказуемое. Тут должны вспоминаться уроки русского языка в школе. Это именно то, что мы делали там, когда подчёркивали члены предложений разными линиями (одинарной, двойной, пунктиром, волнистой, ...), делали морфологический и синтаксический разбор. Я думаю, что все вспомнили. Такая информация нужна про все слова в корпусе. По крайней мере в нашем корпусе мы хотим подробности про каждое слово.

Я думаю, что у некоторых из вас уже возник вопрос «зачем это надо?». Размеченные корпуса текстов являются исходным материалом при разработке технологий анализа текста. Как минимум они используются при тестировании этих технологий. А если для анализа текста используется какая-то математика, связанная с автоматическим обучением, то ещё и в качестве обучающей выборки. Поскольку разметка корпуса выполняется вручную или почти вручную, а сами по себе корпуса довольно велики (речь идёт о сотнях тысяч словоупотреблений) то эти размеченные данные составляют существенную часть стоимости получающихся технологий.

Когда я говорю о технологиях, я имею ввиду автоматический перевод, распознавание устной речи и печатного текста, автоматическое реферирование (составление краткого обзора длинного текста), разнообразный text mining, извлечение фактов из текста, тематическую классификацию текстов (тексты о природе — в одну коробку, тексты о погоде — в другую). Т.е. это уже вполне понятные, полезные и знакомые вещи. Со статистическим переводом Google скорее всего сталкивались все присутствующие. С распознаванием печатного текста — тоже. Поиск документов в Интернете тоже использует много лингвистических технологий. Корпус — это не всё, что нужно для создания лингвистических технологий. Но иногда это так много, что если нет готового корпуса, то нет смысла браться за задачу.

Создание лингвистических технологий — не единственное назначение корпусов текстов — их ещё используют в самых разных исследованиях, при создании обучающих материалов. Но для нашего проекта это главное — мы ориентируемся на то, чтобы создать исходные данные для разработчиков. Потому что мы тоже разработчики, эти данные нам самим нужны, и мы понимаем, как их готовить.

Поскольку создание корпуса — это большая работа, то за неё берутся обычно гос. организации, разнообразные НИИ и университеты. Государство заинтересовано в том, чтобы создавались инструменты для обработки текста на государственном языке. На не государственном тоже - американские военные, например, интересуются текстами на арабском, китайском и русском ... по очевидным причинам. И государство же является одним из потребителей этих технологий, т.к. его бюрократический аппарат порождает огромное множество документов на этом языке. И часто хочет разобраться и в остальных документах тоже: быстро находить что-то в прессе, в материалах прослушки, обращениях населения к президенту (тендерная заявка на технологию семантического анализа этих обращений даже была опубликована недавно).

Корпуса текстов существуют, в том числе и размеченные корпуса русских текстов. На настоящий момент нету ни одного доступного (т.е. такого, чтобы можно было скачать к себе на компьютер и обрабатывать самостоятельно) и размеченного вручную корпуса текстов на русском языке. Есть хороший, но недоступный Национальный корпус русского языка. Когда он станет доступен и станет ли - непонятно.

Поскольку размеченный корпус многим нужен, то мы решили, сделать его сами, используя те знания и опыт, который накопили создатели уже существующих корпусов. В частности, мы делаем корпус таким, что его можно выкладывать в открытый доступ целиком. Для этого мы включаем в корпус только тексты, опубликованные под свободными лицензиями или находящиеся в общественном достоянии.

Разметка в нашем проекте создаётся усилиями волонтёров и результат публикуется под лицензией CC-BY-SA. Обновление происходит каждые сутки, т.е. всё, что сделали (добавили, разметили, исправили) сегодня будет упаковано и выложено для скачивания к утру (http://www.opencorpora.org/?page=downloads). Тем, кому эти данные нужны - уже можно начинать пользоваться :)

Наша ближайшая цель — создать корпус в 1 млн. словоупотреблений к концу 2011 года. На данный момент в корпус включено 150 тыс. словоупотреблений ( актуальная статистика всегда тут http://www.opencorpora.org/?page=stats ).



Если вы согласны нам помочь, то мы просим вас разрешить использование ваших текстов на условиях лицензий Creative Commons - Attribution или Creative Commons - Attribution - Share Alike. Это довольно широкие лицензии: обе позволяют дальнейшее использование материалов неограниченным кругом лиц, в том числе и в коммерческих целях. Последнее важно для нас (т.е. ограничение NonCommercial нам не подходит), т.к. мы хотим, чтобы корпус могли использовать не только студенты и аспиранты, но также и небольшие компании и стартапы. Мы надеемся, что с его помощью они смогут создать новые продукты, которые принесут пользу всем нам. Если тексты в вашем ЖЖ имеют коммерческую ценность, или вы планируете как-то зарабатывать на них деньги, то, возможно, вам не надо нам помогать (по крайней мере этим способом :) ), т.к. это (разрешение использовать ваши тексты в коммерческих целях) может повредить вашим интересам. Если ваши тексты - это ваш личный дневник, и использование их кем-то ещё (с указанием вашего авторства) или их переработка не может вам повредить, то, возможно, вам стоит нам помочь. Если хотите. ;)



Лицензии CC-BY и CC-BY-SA отличаются тем, что последняя требует, чтобы тексты (или что-то ещё), созданные с использованием ваших текстов, были опубликованы тоже по лицензии CC-BY-SA. CC-BY требует только указания вашего авторства при перепечатках оригинального или изменённого текста.

Для того, чтобы разрешить использование ваших текстов на условиях лицензий CC, сделайте, пожалуйста, следующее:

- поместите в профиль вашего ЖЖ ссылку на лицензию CC-BY-SA или CC-BY как написано тут
http://creativecommons.org/choose/results-one?license_code=by-sa&jurisdiction=&version=3.0&lang=ru
или тут
http://creativecommons.org/choose/results-one?license_code=by&jurisdiction=&version=3.0&lang=ru
(в зависимости от выбранной лицензии).

Если вы хотите разрешить использование не всех текстов в вашем журнале, то напишите об этом явно там же. Например, что можно использовать только посты с тегом "дыбр", а к остальным лицензия не относится, или что лицензия не относится к вашим комментариям, оставленным под постами других пользователей. По умолчанию мы будем считать, что лицензия относится ко всем открытым текстам, опубликованным от имени ЖЖ пользователя, в том числе к постам в сообществах и к комментариям.

Пример профиля с указанной лицензией: http://lazy-frog.livejournal.com/profile
Предлагаю использовать такой же текст, как там.

- сообщите нам о том, что мы можем использовать тексты из вашего журнала. Для этого, заполните эту форму https://docs.google.com/spreadsheet/viewform?hl=ru&formkey=dEhPc2dSMkdLdEt6VE1GZFRzTE1NcGc6MQ

Через несколько недель (да, мы работаем очень медленно) после сообщения кто-то из редакторов разметки придёт, почитает ваш ЖЖ, выберет часть постов и комментариев и поместит их в корпус. Результат будет выглядеть примерно так (это текст из ВикиНовостей): http://opencorpora.org/books.php?book_id=143&full . Потом придут другие редакторы и добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д..

Перед помещением текста в корпус редактор проверит ссылку на лицензию в профиле. После помещения текста в корпус он НЕ сообщит вам об этом, чтобы не беспокоить вас зря.

Если редактору доступны ваши подзамочные посты, то он всё равно НЕ будет их добавлять в корпус. Если мы встретим в вашем ЖЖ перепечатки чьих-то чужих текстов, то мы тоже не будем их добавлять.

Какие посты будет выбирать редактор разметки?

При выборе постов мы будем искать такие, комментарии к которым тоже можно утащить в корпус (т.е. авторы комментариев тоже разрешили использование своих текстов описанным способом). Нас устраивают тексты с ошибками (случайныйми и сделаными намеренно), опечатками, ругательствами и прочей ненормативностью. Нам важно, чтобы текст был на русском языке, т.к. мы пока занимаемся только русским.

Думаю, что несмотря на длину поста, всё равно останутся вопросы. Их лучше всего задавать в комментариях. Возможно, какие-то ответы перенесу в основной текст.

Разрешение использовать тектсы - не единственный способ нам помочь. Можно также поучаствовать в проекте в качестве редактора разметки, программиста или как-нибудь ещё. Если вам это интересно - напишите мне bocharov@opencorpora.org

Если вы хотите узнать о нашем проекте подробнее, то спросите в комментариях или прочитайте (посмотрите, послушайте) тут http://opencorpora.org/?page=publications .

Если вы хотите получать новости проекта по почте, то подпишитесь на рассылку (форма в правом нижнем углу на странице http://opencorpora.org). Это может быть интересно тем, кто как-то связан с лингвистикой, компьютерной лингвистикой, автоматической обработкой текста и т.д.



Спасибо!
Бочаров Виктор
участник проекта Открытый корпус
OpenCorpora.org


( 10 улыбок :) smile2me )

Comments:


[User Picture]
From:lazy_frog
Date:Август 26, 2011 06:40 pm
(Link)
спасибо!
[User Picture]
From:lvova
Date:Август 26, 2011 07:02 pm
(Link)
[User Picture]
From:lazy_frog
Date:Август 27, 2011 08:15 am
(Link)
вижу :)
[User Picture]
From:deu_fr
Date:Август 26, 2011 07:09 pm
(Link)
/me хочет свой твитер ваще придушить
[User Picture]
From:greycat_na_kor
Date:Август 27, 2011 07:45 am
(Link)
по созданию лингвистического кропуса

Epic fail :)

Ну и да, мне вообще такая идея кажется весьма сомнительной - в первую очередь потому, что тексты выверять надо - а они даже текст анонса, очевидно, не выверяли...

[User Picture]
From:lvova
Date:Август 27, 2011 07:57 am
(Link)
В то, что они работают серьёзнее, чем в блоги пишут, я очень верю.
[User Picture]
From:lazy_frog
Date:Август 27, 2011 08:13 am
(Link)
Текст в блоге для нас является первоисточником. В связи с этим его не будут вычитывать при копировании. Мы считаем наличие неисправленных "авторских" ошибок плюсом, т.к. кто-то может захотеть изучать именно их. "Авторские" ошибки ведь интереснее, чем ошибки OCR.

С художественной литературой, взятой из интернета, будет дейсвтительно сложно - её надо сверять с печатным оригиналом, т.к. там есть ошибки распознавания.
[User Picture]
From:greycat_na_kor
Date:Август 27, 2011 09:57 am
(Link)
Я тогда совсем не понимаю смысла этой работы. С одной стороны - вы говорите, что тащите все-все-все - включая "авторские" ошибки-опечатки. С другой - накладываете какие-то условия ("текст на русском языке"). Если человек пишет "па-олбанске" - это будет "текст на русском языке с авторскими ошибками" или уже на нерусском? Если человек пишет транслитом?..

Если хочется получить много-много текстов для анализа - то это будет не конечный результат, а процесс - делается краулер, откачивается весь рунет, анализируется. В современном мире для этого, кстати, сравнительно немного нужно: краулеров готовых масса, инсталляций тоже. Только там соберется статистически верная коллекция типовых опечаток, ошибок и в целом картина используемой лексики. Если брать только какой-то очень узкий срез ("только те немногочисленные гики, которые открыли свои тексты под CC-BY") - статистика неминуемо будет сильно искажена. При этом, разумеется, придется попрощаться с какой-либо ручной обработкой текстов и переходить к какой-то более тяжелой артиллерии.

Если хочется какое-то ограниченное количество выверенных текстов - то логично было бы для этого взять много опубликованной литературы (выверенной на то, что там сколько-то русский язык редакторами и корректорами) - проще всего, мне кажется, будет в этом случае договариваться с издательствами.

И в том, и в другом случае - я не вижу, чем помогут призывы к блогерам типа "давайте откроем все ваши тексты записей под CC-BY".

Сам призыв написан откровенно странно, не обижайтесь уж - феерическое количество опечаток (при этом запрашивается перепост *и* проект позиционируется как нечто, имеющее отношение к наукам о русском языке - ну, смешно же - каждый второй-третий будет это замечать и поднимать вас на смех), очень невнятное описание того, что делается ("являются исходным материалом при разработке технологий"), почти никакого описания того, что в дальнейшем будет происходить с текстами ("добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д.").
[User Picture]
From:lazy_frog
Date:Август 27, 2011 02:43 pm
(Link)
"па-олбанске" - да, на русском. Но это граничная ситуация, и мы в ближайшее время не видим необходимости этим заниматься. Такие тексты скорее надо будет собирать отдельно, и делать особую процедуру по их обработке. Аналогично с транслитом.

Мы делаем относительно маленький корпус, который будем подробно размечать вручную. Хотим, чтобы там были тексты из разных источников. По объёму - корпус будет состоять на 50% из новостных текстов (Частный корреспондент, Викиновости и несколько других источников под СС). Авторов Часкора трудно назвать гиками, но они тоже публикуются на условиях CC. Другие источники - это юр. тексты, художественная литература, научно-технические тексты, энциклопедии, блоги, письма, чаты. Для того, чтобы включить в корпус блоги, я обращаюсь с просьбой разрешить их использование. Про письма и чаты мы пока не придумали подходящей процедуры, одновременно дающей нам необходимые разрешения и защищающей права участников переписки. Придумаем - напишем. Удалось ли мне ответить на вопрос "чем помогут призывы к блогерам"?

Про опечатки: спасибо, я услышал.

Про "невнятное описание": если действительно нужна информация о том, что именно делается с текстами, то посмотрите тут http://opencorpora.org/?page=publications (на часть вопросов там должны быть ответы), задайте мне вопросы (можно кому-то другому из команды проекта, если меня спрашивать не хочется - на сайте есть адреса), посмотрите, на уже сделанную разметку: сейчас есть метатекстовая разметка, деление на предложения и на токены (морфология только автоматическая, без снятия омонимии). Написать текст, одновременно адресованный специалистам и не специалистам, кажется довольно трудным (если не невозможным). Этот призыв я хотел сделать скорее понятным не специалисту. Если нужны подробности - обращайтесь. Наверное, лучше спрашивать у меня в журнале или в почте.
[User Picture]
From:qkowlew
Date:Август 28, 2011 11:59 pm

Да, забавно. Пусть их играют. :)

(Link)
Я лично всё публикую под PD.
Но так как юридически у нас с PD сложно, пусть будет под CC-BY

В этом проекте НЕИЗБЕЖНО собирается информация от лицензионно-активных гиков. То есть - от тех, кто достаточно упорот, чтобы заморочиться чётким и ясным формулированием (хотя бы для себя любимого) того, на каких условиях распространяется далее созданная им информация.

Так как все прочие создатели информации НЕ достаточно упороты, тем самым (ау, товарищ Бромберг!) русскоязычный интернет делится на (не менее чем) две категории создателей информации:

1. Те, кто стремится к чёткости и ясности
2. Те, кому это пофиг.

Конспирологическое:


Мне совершенно очевидно, что заморочить голову вторым намного легче, чем первым. :)
А первых можно использовать как-то по другому. :)

Тёплое:


На самом деле авторы проекта придумали НЕМНОГО ДРУГОЙ (по сравнению с Википедией) способ создания свалки информации произвольной тематики, ОТЛИЧАЮЩЕЙСЯ В ЛУЧШУЮ СТОРОНУ по качеству от всего прочего интернета.

> Go to Top
LiveJournal.com