2009-02-13 5 views
0

Я создаю веб-сайт, который будет представлять собой контент с открытым исходным кодом и пользовательский контент, и я думаю, что если бы разработчики имели доступ к ночным производственным SQL-дампам, они с большей вероятностью проверили код из github и играть с ним.Данные по продуктам с открытым исходным кодом для разработчиков?

В соответствии с этой идеей, я рассматриваю как:

  • Не собирать личную информацию пользователя на всех, используя открытый идентификатор для счетов и интенсивного использования кэша памяти для вещей, таких как аутентификация сеанса.
  • анонимизирующую конфиденциальные данные перед публикацией

Иногда я увлечься «не было бы здорово, если ...?» идеи, поэтому я надеюсь на проверку здравомыслия. Какие-либо очевидные недостатки в любом подходе? Это разумная идея?

ответ

2

Говоря в целом, я думаю, вы должны сделать то и другое. Любые личные данные, которые вы собираете, - это просто ответственность за вас, а не только потому, что вы собираетесь публиковать свои базы данных. Чем меньше вы можете собрать, тем лучше.

К тому же, вы, вероятно, понимаете, что это не только идентификаторы и пароли, которые чувствительны. Запомнить the AOL search data leak? Или публикация базы данных Netflix? Даже без идентификаторов, people managed to figure out the real identities некоторых учетных записей, просто путем объединения следов поведения пользователя и соответствующего им данных из других мест. Некоторые люди смущены их поисковыми историями и их прокат фильмов. Идите фигуру.

Поэтому, я думаю, что общее правило должно состоять в том, чтобы собрать как можно меньше и анонимизировать то, что осталось. Даже если вы не сохраняете личность человека, соответствующего определенной учетной записи, вам может потребоваться скремблировать то, что сделали различные логины.

С другой стороны, есть случаи, когда вы просто не заботитесь о такой конфиденциальности. В Википедии, например, почти все, что вы можете сделать на сайте, является общедоступным. По крайней мере, все, что записывается в базу данных. Если информация уже доступна через API, нет смысла скрывать ее в загрузке базы данных.

+0

Спасибо, помощник. Это хорошая еда для размышлений. – user57995

0

Звучит неплохо. Единственное, с чем нужно быть осторожным, это безопасность, поскольку хакеры будут знать точную схему вашей БД. Хотя с этим невозможно справиться, просто посмотрите на большинство проектов с открытым исходным кодом. Но вам нужно будет уделять немного больше внимания безопасности, так как потенциальная инъекция SQL теперь намного проще.

Еще одна вещь - убедиться, что вдвойне конфиденциальные данные анонимны. Кроме того, некоторые люди могут (ошибочно) попытаться заявить, что их авторские права на содержимое, отправленное пользователем, нарушаются, поэтому вы можете указать лицензию CC или что-то еще, чтобы сделать все более ясным и предотвратить будущие головные боли (даже если вы правы в любом случае).

+0

Спасибо за ответ. Оба являются прекрасными моментами, и лицензия CC - хорошая идея. – user57995

+0

Если это с открытым исходным кодом, хакеры все равно будут знать вашу схему базы данных.Это может потребовать больше работы. –

1

В дополнении к сбору меньше данных и анонимизирующих данные вы собрать, можно добавить немного/флаг для пользователей, чтобы выбрать, включено ли их данные или нет. Вы можете сделать его флаг лицензии CC, чтобы дать пользователям теплые «пушистики» при заполнении ваших потребностей.

+0

Мне нравится идея флага лицензии CC. Довольно круто. Спасибо за ответ. – user57995

Смежные вопросы